Патент Google: Определение спам-документов, основанное на фразах. Часть 1, страница 5 > Поисковые системы

Главная » Статьи » Поисковые системы » Патент Google: Определение спам-документов, основанное на фразах. Часть 1 »

СТАТЬИ

Патент Google: Определение спам-документов, основанное на фразах. Часть 1

Кроме того, обновляется матрица совместного появления 212, этот процесс объясняется ниже. В самый первый проход, хороший и плохой списки будут пустыми, поэтому большинство фраз будут иметь тенденцию попадания в список возможных фраз 206.

Если фраза-кандидат не находится в списке хороших фраз 208, то она добавляется в список возможных фраз 206, если она там еще не находится. Каждая запись p в списке возможных фраз 206 обладает тремя ассоциированными характеристиками.

P(p): Количество документов, в которых появлялась возможная фраза

S(p): Количество всех появлений возможной фразы, и

M(p): Количество интересных появлений возможной фразы. Появление возможной фразы считается «интересным», если возможная фраза выделена из окружающего контента в документе грамматическими маркерами или форматированием, например, жирным шрифтом, подчеркиванием, анкор-текстом гиперссылки, или в кавычках. Эти (и другие) случаи выделения определяются по различным HTML-тэгам и грамматическими маркерами. Эта статистика для фразы сохранится, если она будет перемещена в список хороших фраз 208.

Кроме различных списков, поддерживается также матрица совместного появления 212 (G) для хороших фраз. Матрица G имеет размерность m * m, где m - количество хороших фраз. Каждая запись G (j,k) в матрице представляет собой пару хороших фраз (g_j, g_k). Матрица совместного появления 212 логически (но не обязательно физически) поддерживает три отдельных параметра для каждой пары (g_j, g_k) хороших фраз, в соответствии со вторичным окном 304, которое отцентрировано по текущему слову I, и распространяется на +/- h слов. В данной реализации, которая показана на Рис 3, вторичное окно 304 состоит из 30 слов. Матрица совместного появления, таким образом, поддерживает:

R(j,k): Обычный подсчет количества совместных появлений. Количество раз, когда фраза g_j или фраза g_j появлялась в качестве отдельного текста во вторичном окне,

D(j,k): Подсчет совместного «интересного» появления: количество раз, когда обе фразы g_j и g_k появлялись совместно в качестве выделенного текста во вторичном окне. Использование подсчета совместного интересного появления особенно ценно для того, чтобы избежать тех случаев, когда фраза (напр., знак копирайта) часто появляется на полях, в верхней или нижней части страницы, и фактически не является предсказательной для какого-то другого текста.

По отношению к примеру на Рис 3 предполагается, что "stock dogs" находится в списке хороших фраз 208, равно как и фразы "Australian Shepherd" и "Australian Shepard Club of America". Обе последние фразы появляются во вторичном окне 304, с привязкой к текущей фразе "stock dogs". Однако фраза "Australian Shepherd Club of America" является анкор-текстом для гиперссылки на сайт (отмечена подчеркиванием). Таким образом, показатель совместного появления пары {"stock dogs", "Australian Shepherd"} увеличивается, равно как и показатели появления фраз {"stock dogs", "Australian Shepherd Club of America"}и их раздельные показатели интереса – поскольку последняя фраза появляется в качестве выделенного текста.

Процесс траверсирования документа окном 302 и вторичным окном 304 повторяется для каждого документа в разделе.

После того, как документы в разделе прошли траверсирование, наступает следующая стадия операции индексирования – обновление 202 списка хороших фраз 208 из списка возможных фраз 206. Возможная фраза p из списка возможных фраз 206 перемещается в список хороших фраз 208, если частота появления фразы и количество документов, в которых появляется фраза, свидетельствуют о ее достаточно частом использовании в качестве семантически значимой фразы.

В данной реализации, это тестируется следующим образом. Возможная фраза p удаляется из списка возможных фраз 206, и помещается в список хороших фраз 208, если:

а) P(p) > 10 и S(p) > 20 (количество документов, содержащих фразу p больше 10, а количество появлений фразы p больше 20), или

б) M(p) > 5 (количество интересных появлений фразы p больше 5)

Эти параметры определяются количеством документов в разделе. К примеру, если в разделе содержится 2000000 документов, эти параметры увеличиваются примерно вдвое. Мастера жанра, конечно же, оценят, что определенные значения параметров могут изменяться, наряду с адаптивной логикой их тестирования.

Если фраза не попадает в список хороших фраз 208, то она проверяется как потенциальная плохая. Фраза p считается плохой, если:

19.02.07
Источник: google.
Автор: google. Перевод: Seva.

обсудить (24)

Стр. « первая < 3, 4, 5, 6, 7 > последняя »

Эта страница в полной версии