Патент Google: Определение спам-документов, основанное на фразах. Часть 2, страница 4 > Поисковые системы

Главная » Статьи » Поисковые системы » Патент Google: Определение спам-документов, основанное на фразах. Часть 2 »

СТАТЬИ

Патент Google: Определение спам-документов, основанное на фразах. Часть 2

Как отмечалось ранее, соответствующий первый бит g_k-1 в бит-карте соотнесенной фразы устанавливается на основании значений счетчика. Если g_k > 0, то бит устанавливается в 1, если значение счетчика равно 0, то бит устанавливается в 0.

Далее, второй бит g_k-2 устанавливается путем проверки на соотнесенную фразу g_k в индексе 150, присутствует ли в постинг-листе g_k для документа d, и дальнейшей проверки счетчика вторичной соотнесенной фразы (или битов) для g_k по любой из ее соотнесенных фраз. Если любой из этих счетчиков/битов вторичных соотнесенных фраз установлен, то это свидетельствует о том, что вторичные соотнесенные фразы g_j также присутствуют в документе d.

После того, как документ d будет полностью обработан, система индексирования 110 определит следующее:

каждую хорошую фразу g_j в документе d;
для каждой хорошей фразы g_j - какие из ее соотнесенных фраз g_k присутствуют в документе d;
для каждой соотнесенной фразы g_k, присутствующей в документе d, какая из ее соотнесенных фраз g_l (вторичные соотнесенные фразы для g_j) также присутствует в документе d.

А) Посекторное индексирование

Каждой фразе в индексе 150 присваивается номер фразы, на основании частоты ее появления в собрании. Чем чаще встречается фраза, тем более низкий номер она получает в индексе. Система индексирования 110 затем сортирует 504 все постинг-списки 214 в первичном индексе 150 в нисходящем порядке, в соответствии с количеством документов, внесенных в каждый постинг-список. Наиболее часто встречающиеся фразы получают наименьшие номера фраз, и находятся в начале списка в первичном индексе 150. Как отмечалось ранее, первичный индекс 150 распределяется между первичными серверами M1 . Для уменьшения вероятности спорных ситуаций между дисками, фразы распределяются между машинами с помощью хеш-функции, т.е. phase_number MOD M1.

Для значительного увеличения количества документов, которые могут быть проиндексированы системой, первичный индекс 150 обрабатывается с целью выборочного разделения каждого из постинг-списков 214. Как отмечалось ранее, постинг-список для каждой фразы содержит список документов. Каждый документ в постинг-списке получает оценку 506 по типу получения информации, в зависимости от фразы. Независимо от способа вычисления этой оценки, документы в постинг-списке затем ранжируются по убыванию на основании этой оценки – документы с наивысшими оценками помещаются в начало постинг-списка. Это пре-ранжирование документов особо ценно для улучшения работы системы при получении документов в ответ на поисковый запрос.

Алгоритм оценки для пре-ранжирования документов может быть таким же, как алгоритм оценки релевантности , используемый в поисковой системе 120 для генерации оценки релевантности. В данной реализации, оценка IR основывается на алгоритме page rank, как описывается в патенте № 6285999. В качестве альтернативы или дополнения, может использоваться статистика для количества IR-релевантных атрибутов документа, таких как количество входящих ссылок, исходящих ссылок, длины документа. Она может храниться и использоваться самостоятельно, или в сочетании с другими средствами, чтобы ранжировать документы. К примеру, документы могут ранжироваться в нисходящем порядке, в соответствии с количеством входящих ссылок. Чтобы облегчить и ускорить получение информации из первичного индекса 150, записи в каждом постинг-списке 214 физически хранятся на подходящем первичном сервере, в порядке ранжирования, заданном оценкой IR.

22.02.07
Источник: gool.
Автор: Google. Перевод: .

обсудить (1)

Стр. « первая < 2, 3, 4, 5, 6 > последняя »

Эта страница в полной версии