Патент Google: Определение спам-документов, основанное на фразах. Часть 2, страница 5 > Поисковые системы

Главная » Статьи » Поисковые системы » Патент Google: Определение спам-документов, основанное на фразах. Часть 2 »

СТАТЬИ

Патент Google: Определение спам-документов, основанное на фразах. Часть 2

Учитывая, что документы с самыми высокими оценками по данной фразе находятся в начале постинг-списка, постинг-список 214 делится 508 между первичным индексом 150 и вторичным индексом 152. Записи в постинг-списке для первых K документов хранятся на первичном сервере 150, а записи в постинг-списке для остальных n>K документов хранятся на вторичном сервере 152, и удаляются из конца постинг-списка 214 в первичном индексе 150. В данной реализации, K установлен на 32,768 (32k), однако можно использовать большее или меньшее значение K. Фраза, у которой постинг-список разделен между первичным и вторичным индексами, называется «общей» фразой, тогда как фраза, которая не разделена, называется «редкой» фразой. Часть постинг-списка, хранящаяся в первичном индексе 150, называется первичным постинг-списком, она содержит первичные записи. Часть постинг-списка, хранящаяся во вторичном индексе 152, называется вторичным постинг-списком и содержит вторичные записи. Вторичные записи для данного постинг-списка 214 назначаются вторичному серверу, в соответствии с другой хеш-функцией от номера фразы, т.е. phrase number MOD M2. ID вторичного сервера хранится в постинг-списке первичного сервера, чтобы позволить поисковой системе 120 без труда получать доступ к соответствующему вторичному серверу, когда это необходимо. Постинг-список для каждой фразы хранится на одном из вторичных серверов, вторичные записи физически хранятся в порядке следования номеров их документов, в порядке возрастания (в отличие от сортировки по релевантности в первичном индексе 150). Предпочтительно не хранить информацию по релевантности во вторичных записях, чтобы записи содержали минимальное количество данных – номер документа и местоположение документа (т.е., URL). Шаги по ранжированию и секционированию можно осуществлять поочередно для каждой фразы; в качестве альтернативы сначала можно ранжировать все (или некоторое количество) фраз, а затем приступать к разбиению на секторы; выбранный алгоритм является одним из возможных решений, и все остальные вариации можно считать равнозначными. Шаги по ранжированию и разбиению на секторы проводятся в течение каждого прохода-индексирования по набору документов, поэтому любые фразы, которые были обновлены за счет новых документов в течение очередного индексирования, будут переранжированы и перераспределены по секторам. Возможны и другие оптимизационные и алгоритмические шаги.

В настоящей реализации, набор атрибутов документов, которые хранятся в первичном индексе 150 для каждого документа в постинг-списке 214 изменяется, в частности уменьшается к концу постинг-списка 214 в первичном индексе. Другими словами, документы, которые ранжируются в постинг-списке высоко, на основании их показателей релевантности (или других основанных на релевантности атрибутах), будут обладать всеми или большинством атрибутов документов, хранящихся в записи по документу в постинг-списке. Документы ближе к концу постинг-списка 214 в первичном индексе, будут обладать ограниченным набором хранящихся в нем атрибутов.

В данной реализации, каждый постинг-список 214 в первичном индексе 150 имеет три раздела (или тиера) длиной m, 3m, 5m, где m – количество записей по документам. Предпочтительно, чтобы каждый раздел имел длину K, как описывалось ранее, что означает m=K, а общий первичный индекс включал в себя 9K записей. Вторичный индекс, в таком случае, будет хранить вторичные записи, где n>9K.

В первом разделе (первые m записей), хранятся следующие атрибуты релевантности для каждой записи по документу в постинг-списке данной фразы:

1. Показатель релевантности документа (т.е. Page Rank)
2. Общее количество появлений фразы в документе
3. Список документов, отсортированных по ранжиру, до 10000 анкор-документов, которые также содержат фразу и которые указывают на данный документ, а также показатель релевантности для каждого документа (т.е. Page Rank), и непосредственно сам анкор-текст
4. Позиция появления каждой фразы, и для каждого появления, набор флагов, показывающих, является ли появление заголовком, выделенным текстом, подзаголовком, в URL, в теле, в навигационной панели, в шапке, в объявлении, большими буквами или отмечена другим тэгом HTML.

Во втором разделе (следующие 3m записей) хранятся только пункты 1-3.

В третьем разделе (завершающие 5m записей) хранится только пункт 1.

Систематическое уменьшение количества атрибутов документов, которые хранятся в последующих разделах каждого постинг-списка 214 допустимо, поскольку документы ближе к концу постинг-списка уже определены как менее релевантные данной фразе (меньший показатель релевантности) – так что нет необходимости хранить все их характеристики релевантности.

22.02.07
Источник: gool.
Автор: Google. Перевод: .

обсудить (1)

Стр. « первая < 3, 4, 5, 6, 7 > последняя »

Эта страница в полной версии