Патент Google: Определение спам-документов, основанное на фразах. Часть 1 > Поисковые системы

Главная » Статьи » Поисковые системы » Патент Google: Определение спам-документов, основанное на фразах. Часть 1 »

СТАТЬИ

Патент Google: Определение спам-документов, основанное на фразах. Часть 1

Мы начинаем публикацию очередного патента Google. Патент посвящен алгоритмам определения спам-документов, на основе анализа фраз, входящих в документ..

Исходник патента доступен ЗДЕСЬ.

Суть патента

Система получения информации использует фразы для индексирования, получения, структурирования и описания документов. Фразы определяются с тем, чтобы предсказать появление в документе других фраз. Документы индексируются на основании фраз, которые они включают. Спам-документы определяются на основании количества соответствующих фраз, встречающихся в документе.

1. Компьютерный метод определения спам-документов в системе получения информации включает в себя:

поддержку списка фраз, причем каждая фраза содержит ассоциативные связи с набором соотнесенных с ней фраз;

определение количества соотнесенных фраз, которые могут содержаться в документе

для каждой фразы из списка фраз;

определение для документа, и, по крайней мере, для одной фразы в документе, - фактического количества соотнесенных фраз, содержащихся в документе;

определение документа в качестве спам-документа путем сравнения фактического количества соотнесенных фраз, содержащихся в документе, с ожидаемым количеством соотнесенных фраз

2. Метод, описанный в п.1, в процессе определения количества соотнесенных фраз, ожидаемых в документе по каждой фразе из списка фраз, включает также в себя:

анализ индекса документов;

для каждого документа – определение набора фраз в документе из списка фраз, и для каждой фразы в документе – определение количества соотнесенных фраз, также содержащихся в документе;

определение ожидаемого количества соотнесенных фраз, как усредненной величины количества соотнесенных фраз в проанализированных документах

3. Метод, описанный в п.1, в процессе определения «спамовости» документа, включает в себя:

отслеживание фактического количества соотнесенных фраз, содержащихся в документе, для хотя бы одной фразы, по которой количество соотнесенных фраз значительно превосходит ожидаемый показатель.

4. Метод, описанный в п.1, в процессе определения «спамовости» документа, включает в себя:

отслеживание фактического количества соотнесенных фраз, содержащихся в документе, для хотя бы одной фразы, по которой количество соотнесенных фраз хотя бы в несколько раз превосходит показатель стандартной девиации ожидаемого количества соотнесенных фраз.

5. Метод, описанный в п.1, в процессе определения «спамовости» документа, включает в себя:

отслеживание фактического количества соотнесенных фраз, содержащихся в документе, для хотя бы одной фразы, по которой количество соотнесенных фраз хотя бы в несколько раз превосходит показатель ожидаемого количества соотнесенных фраз.

6. Метод, описанный в п.1, в процессе определения «спамовости» документа, включает в себя:

идентификацию документа в качестве спама, если для каждого минимального разнообразия фраз в документе фактическое количество соотнесенных фраз, присутствующих в документе, значительно превосходит ожидаемое количество соотнесенных фраз.

7. Метод, описанный в п.1, в процессе определения «спамовости» документа, включает в себя:

идентификацию документа в качестве спама, если фактическое количество соотнесенных фраз в документе, по хотя бы одной фразе, превосходит предопределенный максимум ожидаемого количества соотнесенных фраз.

8. Метод, описанный в п.1, в процессе определения «спамовости» документа, включает в себя:

определение для документа набора наиболее значимых фраз, содержащихся в этом документе;

для каждой из наиболее значимых фраз, определение фактического количества соотнесенных фраз, содержащихся в документе;

а также отслеживание случаев значительного превышения фактического количества соотнесенных фраз, по сравнению с ожидаемым показателем – в таком случае документ будет идентифицирован как спам по этой отдельной фразе

9.Метод, описанный в п.1, включает в себя:

отслеживание случаев идентификации документа в качестве спама и помещение документа в список спамовых документов.

10. Метод, описанный в п.9, включает в себя:

получение поискового запроса;

выборку набора документов, релевантных поисковому запросу, при этом каждый документ имеет определенный коэффициент релевантности;

определение (для каждого документа из набора) того, был ли идентифицирован документ в качестве спама;

переоценку коэффициента релевантности документа на основании того, был ли документ идентифицирован в качестве спама;

перераспределение документов в наборе, в соответствии с их коэффициентами релевантности

19.02.07
Источник: google.
Автор: google. Перевод: Seva.

обсудить (24)

Стр. 1, 2, 3, 4, 5 > последняя »

Эта страница в полной версии