Патент Google: Определение спам-документов, основанное на фразах. Часть 3, страница 3 > Поисковые системы

Главная » Статьи » Поисковые системы » Патент Google: Определение спам-документов, основанное на фразах. Часть 3 »

СТАТЬИ

Патент Google: Определение спам-документов, основанное на фразах. Часть 3

Для каждой фразы запроса Q, существует некоторое количество N соотнесенных фраз Qr, определенных в процессе идентификации фраз. Соотнесенные фразы Qr отсортированы в соответствии с их информационным качеством относительно Q. Этим соотнесенным фразам назначаются очки, начиная с N очков для первой соотнесенной фразы Qr1 (т.е., соотнесенной фразы Qr с наилучшим информационным качеством относительно Q), N-1 очков для следующей соотнесенной фразы Qr2, N-2 для фразы Qr3, и т.д. Последней соотнесенной фразе QrN будет назначено одно очко.

Затем каждый документ в результатах поиска оценивается, путем определения присутствующих в нем соотнесенных фраз Qr для поисковой фразы Q. Документу присваиваются очки по каждой соотнесенной фразе Qr. Затем документы сортируются в порядке убывания очков.

Поисковая система 120 может улучшить результаты поиска, путем отбраковки документов по определенным параметрам. В некоторых случаях, документы могут охватывать несколько различных тем, что особо присуще объемным документам. Зачастую пользователи предпочитают документы четко по теме, заданной в запросе, - документам, затрагивающим несколько различных тем.

Чтобы отбраковать эти мульти-тематические документы, поисковая система 120 пользуется кластерной информацией, хранящейся в кластерных бит-векторах поисковых фраз, и удаляет все документы, в которых содержание кластеров превышает некоторое пороговое значение. Например, поисковая система 120 может удалить все документы, которые содержат более двух кластеров. Этот кластерный порог может быть предопределен, или установлен пользователем в качестве параметра поиска.

B) Ранжирование документов на основании анкор-фраз

В настоящей реализации, поисковая система 120 ранжирует документы не только на основе содержания фраз запроса Q в документе, но и по появлению фраз запроса Q и соотнесенных фраз Qr в анкорах на другие документы. Поисковая система 120 рассчитывает показатели для каждого документа, которые являются функцией (т.е., линейной комбинацией) двух параметров – наличия фраз запроса в документе и наличия фраз в анкор-тексте.

К примеру, показатели для документа могут быть рассчитаны следующим образом:

Параметр =- 0,30*(количество фраз) + 0,70 * (количество анкор-фраз)

Коэффициенты 0,30 и 0,70 можно изменять. Количество фраз для документа – это числовое значение бит-вектора наиболее ценной соотнесенной фразы для документа, из набора фраз запроса Qp, что рассматривалось выше. В качестве альтернативы, это значение может быть получено поисковой системой 120 непосредственно, путем поиска каждой фразы запроса Q в индексе 150, получения документа из постинг-списка по фразе запроса Q, и дальнейшего получения бит-вектора соотнесенной фразы.

Количество анкор-фраз документа d – это функция от бит-векторов соотнесенных фраз Q, где Q – это анкор-термин в документе, который ссылается на документ d. Когда поисковая система 110 индексирует документы в коллекции документов, она составляет для каждой фразы список документов, в которых фраза встречается в анкор-тексте в качестве исходящей ссылки. По каждому документу составляется, также, список входящих ссылок (вместе с ассоциированным анкор-текстом) с других документов. Входящие ссылки для документа называются «сносками» (references), с других документов (ссылающихся документов) на данный документ.

Для определения количества анкор-фраз в данном документе d, поисковая система 120 проходит по набору ссылающихся документов R (i=1 и до последнего ссылающегося документа), присутствующих в индексе по анкор-фразе Q, и оценивает, насколько тематической является анкор-фраза Q по отношению к документу D. Этот параметр называется далее «входящей компонентой». Он позволяет оценить соотнесенный бит-вектор текущего документа D по отношению к бит-векторам анкор-фраз в ссылающемся документе R. Если ссылающиеся документы R, в свою очередь, соотносятся с фразой запроса Q (и обладают, таким образом, более ценным бит-вектором соотнесенной фразы), то это увеличивает показатели текущего документа D. Показатели количества фраз и количества анкор-фраз затем объединяются, чтобы получить общие показатели документа. Для каждого из ссылающихся документов R, запрашиваются бит-векторы для соотнесенных фраз по каждой анкор-фразе Q. Они будут свидетельствовать о том, насколько соответствует анкор-фраза Q теме документа D. Этот параметр называется «исходящей компонентой»

Затем из индекса 150 извлекаются все пары (ссылающийся документ – документ, на который ссылаются) по анкор-фразам Q. Эти пары далее сортируются по их ассоциированным (входящая компонента, исходящая компонента) значениям. В зависимости от способа реализации, каждая из этих компонент может служить первичным ключом при сортировке, а другая может служить вторичным ключом. Отсортированные результаты затем возвращаются пользователю. Сортировка документов по исходящей компоненте назначает более высокий ранкинг документам, у которых велико количество анкор-фраз, соотнесенных с фразами запроса – такие документы представляются в качестве «заслуживающих доверия».Сортировка по входящим показателям документа поднимает в ранкинге те документы, на которые чаще всего ссылаются по анкор-терминам.

26.02.07
Источник: Поисковая система.
Автор: Google. Перевод: Seva.

обсудить (1)

Стр. « первая < 1, 2, 3, 4, 5 > последняя »

Эта страница в полной версии