Master-X
Форум | Новости | Статьи
Главная » Статьи » Поисковые системы » Патент Google: Определение спам-документов, основанное на фразах. Часть 1 » 
СТАТЬИ

Патент Google: Определение спам-документов, основанное на фразах. Часть 1


а) количество документов, содержащих фразу P(p) < 2, и

б) количество интересных появлений фразы M(p) = 0

Эти условия свидетельствуют, что фраза является нечастой, и не используется в качестве индикатора значимого контента. Как и прежде, приведенные параметры могут изменяться, в зависимости от количества документов в разделе.

Нужно отметить, что список хороших фраз 208 будет естественным образом включать отдельные слова в качестве фраз, в дополнение к фразам из нескольких слов. Это происходит потому, что каждое первое слово в окне фраз 302 – всегда кандидат на фразу, соответственно будет накапливаться количество появлений. Таким образом, система индексирования 110 может автоматически индексировать как отдельные слова (то есть, фразы из одного слова), так и мульти-словесные фразы. Список хороших фраз 208 будет значительно короче, чем теоретический максимум, рассчитанный из максимального количества возможных комбинаций m фраз. При стандартной реализации, список хороших фраз будет включать в себя около 6,5 * 105 фраз. Список плохих фраз хранить необязательно, поскольку система должна отслеживать только возможные и хорошие фразы.

К последнему проходу по коллекции документов, список возможных фраз будет достаточно коротким, в силу ожидаемого распространения используемых фраз в большом собрании документов. Если, к примеру, при десятом проходе (т.е., около 10000000 документов), фраза встречается первый раз, крайне маловероятно, что она будет хорошей фразой на момент проведения анализа. Она может оказаться новой фразой, которая только входит в употребление, и тогда в течение последующих проходов она будет приобретать популярность. В таком случае, ее относительное количество появлений будет увеличиваться и в результате превысит порог, требуемый для попадания в список хороших фраз.

Третья стадия операции индексирования – чистка 204 списка хороших фраз 208, с использованием предсказательной величины, получаемой из матрицы совместного появления 212. Без подобной чистки, список хороших фраз 208 будет включать в себя множество фраз, которые, хотя и входят в лексикон, но не предвосхищают появление других фраз, или сами являются производными от более длинных фраз. Удаление этих слабых хороших фраз приводит к созданию довольно качественной подборки из хороших фраз. Для идентификации хороших фраз, используется предсказательная величина, которая отражает зависимость появления в документе одной фразы, при условии, что в нем присутствует другая фраза. В данной реализации это сделано следующим образом:

Как упоминалось ранее, матрица совместного появления представляет собой матрицу размером m * m, в которой хранятся данные, связанные с хорошими фразами. Каждый ряд j в матрице представляет собой хорошую фразу gj, рассчитывается величина ожидания Е ( gj). Величина ожидания Е – это процентное содержание документов в коллекции, в которых ожидается появление gj. Эта величина рассчитывается, к примеру, как отношение количества документов, содержащих gj, к общему количеству Т документов в коллекции, которые подверглись кроулингу – P(j)/T .

Как отмечалось ранее, количество документов, содержащих gj, обновляется каждый раз, когда gj появляется в документе. Значение для Е(gj) может обновляться каждый раз, когда увеличивается значение gj, или в течение данной третьей стадии.

Далее, для каждой из оставшихся хороших фраз gk (т.е., колонок матрицы), определяется – предсказывает ли gj появление gk. Предсказательный коэффициент для gj определяется следующим образом:

  • рассчитывается величина ожидания E (gk). Ожидаемый коэффициент совместного появления E(j,k) для gj и gk, если они не являются несвязанными фразами, составит в таком случае E(gj) * E (gk).

  • рассчитывается фактический коэффициент совместного появления A (j,k) для gj и gk. Это исходное значение совместных появлений R (j,k), деленное на T, общее количество документов;

  • gj считается предсказательным по отношению к gk, если фактический уровень совместного появления A(j,k) превосходит ожидаемый уровень совместного появления E(j,k) на некоторое пороговое значение.

    В данной реализации, предсказательной величиной является получение информации. Таким образом, фраза gj предвосхищает другую фразу gk, если полученная информация I по фразе gk, в присутствии фразы gj, превосходит некоторую установленную величину. Рассчитывается это по формуле I(j,k)=A(j,k)/E(j,k)

    А хорошая фраза gj предвосхищает хорошую фразу gk, если:
    19.02.07
    Источник: google.
    Автор: google. Перевод: Seva.
  • Стр. « первая   <  4, 5, 6, 7  >  последняя »


    Эта страница в полной версии