Патент Google: Определение спам-документов, основанное на фразах. Часть 1, страница 6 > Поисковые системы

Главная » Статьи » Поисковые системы » Патент Google: Определение спам-документов, основанное на фразах. Часть 1 »

СТАТЬИ

Патент Google: Определение спам-документов, основанное на фразах. Часть 1

а) количество документов, содержащих фразу P(p) < 2, и

б) количество интересных появлений фразы M(p) = 0

Эти условия свидетельствуют, что фраза является нечастой, и не используется в качестве индикатора значимого контента. Как и прежде, приведенные параметры могут изменяться, в зависимости от количества документов в разделе.

Нужно отметить, что список хороших фраз 208 будет естественным образом включать отдельные слова в качестве фраз, в дополнение к фразам из нескольких слов. Это происходит потому, что каждое первое слово в окне фраз 302 – всегда кандидат на фразу, соответственно будет накапливаться количество появлений. Таким образом, система индексирования 110 может автоматически индексировать как отдельные слова (то есть, фразы из одного слова), так и мульти-словесные фразы. Список хороших фраз 208 будет значительно короче, чем теоретический максимум, рассчитанный из максимального количества возможных комбинаций m фраз. При стандартной реализации, список хороших фраз будет включать в себя около 6,5 * 10⁵ фраз. Список плохих фраз хранить необязательно, поскольку система должна отслеживать только возможные и хорошие фразы.

К последнему проходу по коллекции документов, список возможных фраз будет достаточно коротким, в силу ожидаемого распространения используемых фраз в большом собрании документов. Если, к примеру, при десятом проходе (т.е., около 10000000 документов), фраза встречается первый раз, крайне маловероятно, что она будет хорошей фразой на момент проведения анализа. Она может оказаться новой фразой, которая только входит в употребление, и тогда в течение последующих проходов она будет приобретать популярность. В таком случае, ее относительное количество появлений будет увеличиваться и в результате превысит порог, требуемый для попадания в список хороших фраз.

Третья стадия операции индексирования – чистка 204 списка хороших фраз 208, с использованием предсказательной величины, получаемой из матрицы совместного появления 212. Без подобной чистки, список хороших фраз 208 будет включать в себя множество фраз, которые, хотя и входят в лексикон, но не предвосхищают появление других фраз, или сами являются производными от более длинных фраз. Удаление этих слабых хороших фраз приводит к созданию довольно качественной подборки из хороших фраз. Для идентификации хороших фраз, используется предсказательная величина, которая отражает зависимость появления в документе одной фразы, при условии, что в нем присутствует другая фраза. В данной реализации это сделано следующим образом:

Как упоминалось ранее, матрица совместного появления представляет собой матрицу размером m * m, в которой хранятся данные, связанные с хорошими фразами. Каждый ряд j в матрице представляет собой хорошую фразу g_j, рассчитывается величина ожидания Е ( g_j). Величина ожидания Е – это процентное содержание документов в коллекции, в которых ожидается появление g_j. Эта величина рассчитывается, к примеру, как отношение количества документов, содержащих g_j, к общему количеству Т документов в коллекции, которые подверглись кроулингу – P(j)/T .

Как отмечалось ранее, количество документов, содержащих g_j, обновляется каждый раз, когда g_j появляется в документе. Значение для Е(g_j) может обновляться каждый раз, когда увеличивается значение g_j, или в течение данной третьей стадии.

Далее, для каждой из оставшихся хороших фраз g_k (т.е., колонок матрицы), определяется – предсказывает ли g_j появление g_k. Предсказательный коэффициент для g_j определяется следующим образом:

рассчитывается величина ожидания E (g_k). Ожидаемый коэффициент совместного появления E(j,k) для g_j и g_k, если они не являются несвязанными фразами, составит в таком случае E(g_j) * E (g_k).

рассчитывается фактический коэффициент совместного появления A (j,k) для g_j и g_k. Это исходное значение совместных появлений R (j,k), деленное на T, общее количество документов;

g_j считается предсказательным по отношению к g_k, если фактический уровень совместного появления A(j,k) превосходит ожидаемый уровень совместного появления E(j,k) на некоторое пороговое значение.

В данной реализации, предсказательной величиной является получение информации. Таким образом, фраза g_j предвосхищает другую фразу g_k, если полученная информация I по фразе g_k, в присутствии фразы g_j, превосходит некоторую установленную величину. Рассчитывается это по формуле I(j,k)=A(j,k)/E(j,k)

А хорошая фраза g_j предвосхищает хорошую фразу g_k, если:

19.02.07
Источник: google.
Автор: google. Перевод: Seva.

обсудить (24)

Стр. « первая < 4, 5, 6, 7 > последняя »

Эта страница в полной версии