Master-X
Форум | Новости | Статьи
Главная » Статьи » Поисковые системы » Патент Google: Определение спам-документов, основанное на фразах. Часть 2 » 
СТАТЬИ

Патент Google: Определение спам-документов, основанное на фразах. Часть 2


Как отмечалось ранее, соответствующий первый бит gk-1 в бит-карте соотнесенной фразы устанавливается на основании значений счетчика. Если gk > 0, то бит устанавливается в 1, если значение счетчика равно 0, то бит устанавливается в 0.

Далее, второй бит gk-2 устанавливается путем проверки на соотнесенную фразу gk в индексе 150, присутствует ли в постинг-листе gk для документа d, и дальнейшей проверки счетчика вторичной соотнесенной фразы (или битов) для gk по любой из ее соотнесенных фраз. Если любой из этих счетчиков/битов вторичных соотнесенных фраз установлен, то это свидетельствует о том, что вторичные соотнесенные фразы gj также присутствуют в документе d.

После того, как документ d будет полностью обработан, система индексирования 110 определит следующее:

А) Посекторное индексирование

Каждой фразе в индексе 150 присваивается номер фразы, на основании частоты ее появления в собрании. Чем чаще встречается фраза, тем более низкий номер она получает в индексе. Система индексирования 110 затем сортирует 504 все постинг-списки 214 в первичном индексе 150 в нисходящем порядке, в соответствии с количеством документов, внесенных в каждый постинг-список. Наиболее часто встречающиеся фразы получают наименьшие номера фраз, и находятся в начале списка в первичном индексе 150. Как отмечалось ранее, первичный индекс 150 распределяется между первичными серверами M1 . Для уменьшения вероятности спорных ситуаций между дисками, фразы распределяются между машинами с помощью хеш-функции, т.е. phase_number MOD M1.

Для значительного увеличения количества документов, которые могут быть проиндексированы системой, первичный индекс 150 обрабатывается с целью выборочного разделения каждого из постинг-списков 214. Как отмечалось ранее, постинг-список для каждой фразы содержит список документов. Каждый документ в постинг-списке получает оценку 506 по типу получения информации, в зависимости от фразы. Независимо от способа вычисления этой оценки, документы в постинг-списке затем ранжируются по убыванию на основании этой оценки – документы с наивысшими оценками помещаются в начало постинг-списка. Это пре-ранжирование документов особо ценно для улучшения работы системы при получении документов в ответ на поисковый запрос.

Алгоритм оценки для пре-ранжирования документов может быть таким же, как алгоритм оценки релевантности , используемый в поисковой системе 120 для генерации оценки релевантности. В данной реализации, оценка IR основывается на алгоритме page rank, как описывается в патенте № 6285999. В качестве альтернативы или дополнения, может использоваться статистика для количества IR-релевантных атрибутов документа, таких как количество входящих ссылок, исходящих ссылок, длины документа. Она может храниться и использоваться самостоятельно, или в сочетании с другими средствами, чтобы ранжировать документы. К примеру, документы могут ранжироваться в нисходящем порядке, в соответствии с количеством входящих ссылок. Чтобы облегчить и ускорить получение информации из первичного индекса 150, записи в каждом постинг-списке 214 физически хранятся на подходящем первичном сервере, в порядке ранжирования, заданном оценкой IR.

22.02.07
Источник: gool.
Автор: Google. Перевод: .
Стр. « первая   <  2, 3, 4, 5, 6  >  последняя »


Эта страница в полной версии