Патент Google: Определение спам-документов, основанное на фразах. Часть 3, страница 2 > Поисковые системы

Главная » Статьи » Поисковые системы » Патент Google: Определение спам-документов, основанное на фразах. Часть 3 »

СТАТЬИ

Патент Google: Определение спам-документов, основанное на фразах. Часть 3

Поисковая система 120 может оптимизировать операцию скрестного анализа, используя первичный индекс 150 и вторичный индекс 152. Существует четыре основных типа скрестного анализа, с которыми работает поисковая система 120, в зависимости от того, являются ли фразы запроса частыми или редкоупотребимыми.

Первый тип имеет дело с отдельными фразами запроса, которые могут быть как общеупотребимыми, так и редкими. В данном случае, поисковая система 120 передает выбранное количество (т.е., 100 или 1000) первых записей в постинг-списке фразы из первичного индекса 150 для конечной обработки ранкинга 604. Эта фаза позволяет оптимизировать операцию ранжирования, поскольку документы уже отсортированы. Более того, посколькe они уже предварительно ранжированы по их релевантности фразе, набор документов может быть возвращен в качестве поисковых результатов, с минимальными затратами времени.

Второй тип – это запрос из двух обычных фраз. Поисковая система 120 запрашивает постинг-списки 214 по каждой фразе в первичном индексе 150, и проводит скрестный анализ этих списков для создания конечного списка документов которые затем передаются на ранжирование 604 для оценки релевантности. Оценка релевантности проводится на основании набора атрибутов релевантности, ассоциированных с документом. Поскольку в каждом постинг-списке находится по меньшей мере К документов, существует довольно большая вероятность, что достаточное количество документов будут содержать обе фразы, поэтому скрестный анализ вторичных записей во вторичном индексе 152 не требуется. Это уменьшает количество времени, требуемое для обработки запроса.

Третий случай – когда запрос состоит из двух редких фраз. Обработка ведется так же, как и при втором типе запроса, поскольку весь постинг-список для каждой фразы хранится в первичном индексе.

И, наконец, фраза запроса может содержать обычную фразу в сочетании с редкой. В таком случае, поисковая система 120 сначала скрестно анализирует постинг-списки 214 из первичного индекса 150 для каждой фразы, создавая при этом первый набор из обычных документов. Затем анализируется постинг-список для редкой фразы, со вторичными записями по обычной фразе (которые уже отсортированы по номерам документов), чтобы сформировать второй набор обычных документов. Два эти набора объединяются и передаются на этап ранжирования.

Все случаи, когда в запросе встречается три и более фраз, можно обрабатывать поэтапно, с использованием вышеописанных методов.

Ранжирование

A) Ранжирование документов, основанное на содержащихся в них фразах

Поисковая система 120 использует в работе стадию ранжирования 604, в течение которой ранжируются документы из поисковых результатов – с учетом информации о релевантности и атрибутов документов, информации о фразах в бит-векторах соотнесенных фраз по каждому документу, а также кластерного бит-вектора по фразам запроса. Данный подход позволяет ранжировать документы в соответствии с фразами, которые содержатся в документе.

Как описывалось ранее, по любой фразе g_j, каждый документ d в постинг-списке g_j, содержит бит-вектор ассоциированной соотнесенной фразы, которая определяет, какие из соотнесенных фраз g_k, и какие из вторичных соотнесенных фраз g_l, присутствуют в документе d. Чем больше соотнесенных фраз и вторичных соотнесенных фраз присутствует в данном документе, тем больше битов будет установлено в бит-векторе соотнесенной фразы документа по данной фразе. Чем больше установлено битов, тем выше числовое значение бит-вектора соотнесенной фразы.

В данной реализации, поисковая система 120 сортирует документы в поисковых результатах, в соответствии со значением их бит-векторов по соотнесенным фразам. Документы, содержащие наибольшее количество соотнесенных фраз по фразам запроса Q, будут иметь наибольшие бит-вектора соотнесенных фраз и получат наивысший ранкинг в результатах поиска.

Этот подход наиболее оправдан – ведь семантически эти документы наиболее соответствуют по теме фразам запроса. Стоит отметить, что при этом возвращаются высоко релевантные документы, даже если они не обладают высокочастотным содержанием введенных терминов запроса q – для определения релевантных документов и их ранжирования используется информация по соотнесенным фразам. Документы с низкой частотой введенных поисковых терминов, могут включать в себя большое количество соотнесенных поисковым терминам фраз, и поэтому могут быть более релевантными, чем документы, у которых высокая частота поисковых запросов и фраз, но плохи дела с соотнесенными фразами.

В альтернативной реализации, поисковая система 120 оценивает каждый документ в наборе результатов, на основании того, какие из соотнесенных фразе запроса Q фраз он содержит. Происходит это следующим образом:

26.02.07
Источник: Поисковая система.
Автор: Google. Перевод: Seva.

обсудить (1)

Стр. « первая < 1, 2, 3, 4, 5 > последняя »

Эта страница в полной версии