Патент Google: Определение спам-документов, основанное на фразах. Часть 2, страница 3 > Поисковые системы

Главная » Статьи » Поисковые системы » Патент Google: Определение спам-документов, основанное на фразах. Часть 2 »

СТАТЬИ

Патент Google: Определение спам-документов, основанное на фразах. Часть 2

Индексирование документов с фразами и соотнесенными фразами

Основываясь на списке хороших фраз 208, учитывая информацию, касающуюся соотнесенных фраз и кластеров, следующей функциональной операцией системы индексирования 110 будет индексирование документов в коллекции документов, с учетом хороших фраз и кластеров, и сохранение обновленной информации в первичном индексе 150 и вторичном индексе 152. Рис 5 показывает этот процесс, в котором можно выделить следующие функциональные стадии для индексирования документов:

500: Постинг документов в списки постинга хороших фраз, найденных в документе

502: Обновление счетчика появлений и бит-вектора соотнесенных фраз для соотнесенных фраз и вторичных соотнесенных фраз.

504: Перераспределение записей в индексе, в соответствии с размером списка постинга.

506: Ранжирование записей индекса в каждом списке постинга по показателям полученной информации или по качественным характеристикам

508: Разделение каждого списка постинга между первичным сервером 150 и вторичным сервером 152

Далее эти стадии рассматриваются более подробно.

Набор документов траверсируется или просматривается кроулером, как и прежде; это может быть тот же или другой набор документов. Для данного документа d, траверсируем 500 документ, слово за словом, с помощью окна просмотра 302 длиной n, с позиции i, по методу, описанному ранее.

В данном окне фраз 302, определяем все хорошие фразы, начиная с позиции i. Каждая хорошая фраза обозначается как g_i. Таким образом, g1 – это первая хорошая фраза, g2- вторая, и т.д.

Для каждой хорошей фразы g_i (например, g1 “President” и g4 “President of ATT”) в постинг-лист индекса 150 заносится идентификатор документа (т.е. URL). Это обновление свидетельствует, что хорошая фраза g_i появляется в данном отдельно взятом документе.

В данной реализации, постинг-лист для фразы g_j имеет следующую логическую структуру:

Фраза g_j : список:[документ d, [список: количество соотнесенных фраз][информация по соотнесенным фразам])

Для каждой фразы g_j существует список документов d, в котором появляется эта фраза. Для каждого документа, есть количественный список появления соотнесенных фраз R по фразе g_j, которая также появляется в документе d.

В данной реализации, информация по соотнесенным фразам представляет собой бит-вектор соотнесенной фразы. Этот бит-вектор можно охарактеризовать как «би-битовый» вектор, в котором для каждой соотнесенной фразы g_k существует две бит-позиции, g_k-1, g_k-2. Первая бит-позиция хранит флаг, указывающий на то, присутствует ли соотнесенная фраза g_k в документе d (т.е., количество g_k в документе d больше 0). Вторая бит-позиция хранит флаг, который свидетельствует о том, присутствуют ли в документе d также фраза g_l, соотнесенная с g_k. Соотнесенные фразы g_l соотнесенной фразы g_k называются далее “вторичными соотнесенными фразами g_j». Количество и бит-позиции соответствуют каноническому порядку следования фраз в R (отсортированных в порядке уменьшения информационной ценности). Этот порядок сортировки позволяет достичь следующего эффекта: соотнесенная фраза g_k, которая в наибольшей степени предвосхищается фразой g_j, ассоциируется с наиболее значимым битом бит-вектора соотнесенной фразы, а соотнесенная фраза g_l, которая менее всего предвосхищается фразой g_j, ассоциируется с наименее значимым битом.

Стоит отметить, что для данной фразы g, длина бит-вектора соотнесенной фразы и ассоциация соотнесенных фраз с отдельными битами вектора будет одинаковой по отношению ко всем документам, содержащим g. Данная реализация позволяет системе сравнивать бит-векторы соотнесенных фраз для любого (или всех) документов, содержащих g, чтобы понять, какие документы содержат данную соотнесенную фразу. Это облегчает процесс поиска документов по поисковому запросу. Соответствующим образом, данный документ появится в постинг-листах по многим различным фразам, и в каждом постинг-листе вектор по соотнесенной фразе для данного документа будет соответствовать фразе, которой принадлежит постинг-лист. Эта особенность сохраняет привязку бит-векторов соотнесенной фразы к отдельным фразам и документам.

Следующая стадия 502 включает в себя траверсирование вторичного окна 304 текущей индексной позиции в документе (как и прежде, вторичное окно состоит из +/- K терминов, напр. – 30 терминов), к примеру от i-K до i+K. Для каждой соотнесенной фразы g_k по g_i, которая появляется во вторичном окне 304, система индексирования 110 увеличивает значение счетчика соотнесенных фраз для g_k, по отношению к документу d. Если g_i появляется в документе позже, и соотнесенная фраза буде найдена снова в более позднем вторичном окне, счетчик увеличивается снова.

22.02.07
Источник: gool.
Автор: Google. Перевод: .

обсудить (1)

Стр. « первая < 1, 2, 3, 4, 5 > последняя »

Эта страница в полной версии