Master-X
Форум | Новости | Статьи
Главная » Статьи » Поисковые системы » Патент Google: Определение спам-документов, основанное на фразах. Часть 2 » 
СТАТЬИ

Патент Google: Определение спам-документов, основанное на фразах. Часть 2
В данной реализации, идентификатор документа содержит в себе сущность документа по отношению к временному интервалу. Во время первого кроулинга документа системой индексирования 110, идентификатор документа сохраняется как хеш URL документа и значение даты документа, например, MD5 (URL, first date). С определенным значением документа ассоциируется поле временного диапазона, которое охватывает диапазон дат, для которых данная версия документа считается действительной. Временной диапазон может быть определен как пара дат, включающая в себя первую дату, когда документ считается действительным (дата индексирования) и последнюю дату, в которую документ считается действительным (т.е., 11-01-04; 12-15-04). С другой стороны, диапазон дат может определяться как первая дата, и количество дней, следующих за первой датой (т.е., 11-01-04; 45). Дата может выражаться в любом удобном формате. В течение промежутка времени, когда документ считается действительным, второе значение будет флагом статуса или меткой (в том числе и значение NULL), которое указывает на это значение – такое состояние называется текущим интервалом. К примеру, (11-01-04, “open”) свидетельствует о том, что в настоящее время документ действителен. Это значит, что документ будет удовлетворять условиям поиска, в критерии которого входит ограничение по дате. Независимо от версии реализации, первая дата для данного временного интервала может называться «датой открытия» (“open date”), а последняя дата заданного интервала может называться «датой закрытия» (“closed date”).

В течение последующих сеансов индексирования, система индексирования 110 определяет, изменился ли документ. Если в документе не было изменений, то система индексирования 110 не предпринимает по отношению к документу никаких действий. Если же в документе имели место изменения (породив на свет, таким образом, новый вариант или версиюдокумента), то система индексирования по новой индексирует документ. В течение повторного индексирования, система индексирования 110 закрывает текущий интервал, путем изменения флага статуса на текущую дату минус один день. К примеру, если система индексирования 110 индексирует документ 16 декабря 2004 года и определяет, что документ изменился, то текущий интервал закрывается следующим образом: (11-01-04, 12-15-04), а новый текущий интервал создается в виде (12-16-04,”open”). Система индексирования 110 поддерживает все временные диапазоны для документа, вместе с соотвествующими проиндексированными данными релевантности (т.е., фразы, статистика релевантности, входящие ссылки, и т.д.) для этого временного интервала. Таким образом, каждый временной интервал и набор данных о релевантности ассоциируется с определенным вариантом или версией документа. Для каждого временного интервала по данному документу, система индексирования поддерживает уникальный идентификатор документа, т.е. MD5 (URL, first date), чтобы можно было получить соответствующую кэшированную версию документа. В реализации с использованием первичного и вторичного индексов, когда заканчивается индексация документа, постинг-списки 214 в первичном индексе заново сортируются, ранжируются и переразбиваются на разделы.

Решение о том, был ли данный документ изменен за время, прошедшее после предыдущей индексации, может быть принято разными способами: на основании статистических данных, грамматических правил или эвристического сходства. В данной реализации, система индексирования 110 для обнаружения изменений использует фразы документа. Каждый раз, когда докумет индексируется, определяются первые N тем, которые затем поддерживаются в качестве списка, ассоциированного с информацией о временном диапазоне. Например, первые 20 тем для временного промежутка (11-04-04, 12-15-04). Список тем данной проиндексированной версии документа затем сравнивается со списком тем предыдущей версии, в идеале – версии, которая принадлежит только что закрытому временному диапазону. Если более чем M% тем были изменены (т.е., 5%), то документ считается измененным, и реиндексируется по всем фразам. Нужно отметить, что для выявления изменений в документе могут использоваться и другие методы, а индексирование по фразам не является обязательным. К примеру, можно использовать набор статистических правил – отслеживать изменения размеров документа, изменения в составе наиболее употребимых терминов, изменений в частоте употребления терминов, изменений в количестве и составе HTML-разметки, и других параметров структуры или контента документа.

Окончание следует
22.02.07
Источник: gool.
Автор: Google. Перевод: .
Стр. « первая   <  5, 6, 7


Эта страница в полной версии