Master-X
Форум | Новости | Статьи
Главная » Статьи » Поисковые системы » Патент Google: Определение спам-документов, основанное на фразах. Часть 2 » 
СТАТЬИ

Патент Google: Определение спам-документов, основанное на фразах. Часть 2
Учитывая, что документы с самыми высокими оценками по данной фразе находятся в начале постинг-списка, постинг-список 214 делится 508 между первичным индексом 150 и вторичным индексом 152. Записи в постинг-списке для первых K документов хранятся на первичном сервере 150, а записи в постинг-списке для остальных n>K документов хранятся на вторичном сервере 152, и удаляются из конца постинг-списка 214 в первичном индексе 150. В данной реализации, K установлен на 32,768 (32k), однако можно использовать большее или меньшее значение K. Фраза, у которой постинг-список разделен между первичным и вторичным индексами, называется «общей» фразой, тогда как фраза, которая не разделена, называется «редкой» фразой. Часть постинг-списка, хранящаяся в первичном индексе 150, называется первичным постинг-списком, она содержит первичные записи. Часть постинг-списка, хранящаяся во вторичном индексе 152, называется вторичным постинг-списком и содержит вторичные записи. Вторичные записи для данного постинг-списка 214 назначаются вторичному серверу, в соответствии с другой хеш-функцией от номера фразы, т.е. phrase number MOD M2. ID вторичного сервера хранится в постинг-списке первичного сервера, чтобы позволить поисковой системе 120 без труда получать доступ к соответствующему вторичному серверу, когда это необходимо. Постинг-список для каждой фразы хранится на одном из вторичных серверов, вторичные записи физически хранятся в порядке следования номеров их документов, в порядке возрастания (в отличие от сортировки по релевантности в первичном индексе 150). Предпочтительно не хранить информацию по релевантности во вторичных записях, чтобы записи содержали минимальное количество данных – номер документа и местоположение документа (т.е., URL). Шаги по ранжированию и секционированию можно осуществлять поочередно для каждой фразы; в качестве альтернативы сначала можно ранжировать все (или некоторое количество) фраз, а затем приступать к разбиению на секторы; выбранный алгоритм является одним из возможных решений, и все остальные вариации можно считать равнозначными. Шаги по ранжированию и разбиению на секторы проводятся в течение каждого прохода-индексирования по набору документов, поэтому любые фразы, которые были обновлены за счет новых документов в течение очередного индексирования, будут переранжированы и перераспределены по секторам. Возможны и другие оптимизационные и алгоритмические шаги.

В настоящей реализации, набор атрибутов документов, которые хранятся в первичном индексе 150 для каждого документа в постинг-списке 214 изменяется, в частности уменьшается к концу постинг-списка 214 в первичном индексе. Другими словами, документы, которые ранжируются в постинг-списке высоко, на основании их показателей релевантности (или других основанных на релевантности атрибутах), будут обладать всеми или большинством атрибутов документов, хранящихся в записи по документу в постинг-списке. Документы ближе к концу постинг-списка 214 в первичном индексе, будут обладать ограниченным набором хранящихся в нем атрибутов.

В данной реализации, каждый постинг-список 214 в первичном индексе 150 имеет три раздела (или тиера) длиной m, 3m, 5m, где m – количество записей по документам. Предпочтительно, чтобы каждый раздел имел длину K, как описывалось ранее, что означает m=K, а общий первичный индекс включал в себя 9K записей. Вторичный индекс, в таком случае, будет хранить вторичные записи, где n>9K.

В первом разделе (первые m записей), хранятся следующие атрибуты релевантности для каждой записи по документу в постинг-списке данной фразы:



Во втором разделе (следующие 3m записей) хранятся только пункты 1-3.

В третьем разделе (завершающие 5m записей) хранится только пункт 1.

Систематическое уменьшение количества атрибутов документов, которые хранятся в последующих разделах каждого постинг-списка 214 допустимо, поскольку документы ближе к концу постинг-списка уже определены как менее релевантные данной фразе (меньший показатель релевантности) – так что нет необходимости хранить все их характеристики релевантности.

22.02.07
Источник: gool.
Автор: Google. Перевод: .
Стр. « первая   <  3, 4, 5, 6, 7  >  последняя »


Эта страница в полной версии