Мы начинаем публикацию очередного патента Google. Патент посвящен алгоритмам определения спам-документов, на основе анализа фраз, входящих в документ..
Исходник патента доступен ЗДЕСЬ.
Суть патента
Система получения информации использует фразы для индексирования, получения, структурирования и описания документов. Фразы определяются с тем, чтобы предсказать появление в документе других фраз. Документы индексируются на основании фраз, которые они включают. Спам-документы определяются на основании количества соответствующих фраз, встречающихся в документе.
1. Компьютерный метод определения спам-документов в системе получения информации включает в себя:
поддержку списка фраз, причем каждая фраза содержит ассоциативные связи с набором соотнесенных с ней фраз;
определение количества соотнесенных фраз, которые могут содержаться в документе для каждой фразы из списка фраз;
определение для документа, и, по крайней мере, для одной фразы в документе, - фактического количества соотнесенных фраз, содержащихся в документе;
определение документа в качестве спам-документа путем сравнения фактического количества соотнесенных фраз, содержащихся в документе, с ожидаемым количеством соотнесенных фраз
2. Метод, описанный в п.1, в процессе определения количества соотнесенных фраз, ожидаемых в документе по каждой фразе из списка фраз, включает также в себя:
анализ индекса документов;
для каждого документа – определение набора фраз в документе из списка фраз, и для каждой фразы в документе – определение количества соотнесенных фраз, также содержащихся в документе;
определение ожидаемого количества соотнесенных фраз, как усредненной величины количества соотнесенных фраз в проанализированных документах
3. Метод, описанный в п.1, в процессе определения «спамовости» документа, включает в себя:
отслеживание фактического количества соотнесенных фраз, содержащихся в документе, для хотя бы одной фразы, по которой количество соотнесенных фраз значительно превосходит ожидаемый показатель.
4. Метод, описанный в п.1, в процессе определения «спамовости» документа, включает в себя:
отслеживание фактического количества соотнесенных фраз, содержащихся в документе, для хотя бы одной фразы, по которой количество соотнесенных фраз хотя бы в несколько раз превосходит показатель стандартной девиации ожидаемого количества соотнесенных фраз.
5. Метод, описанный в п.1, в процессе определения «спамовости» документа, включает в себя:
отслеживание фактического количества соотнесенных фраз, содержащихся в документе, для хотя бы одной фразы, по которой количество соотнесенных фраз хотя бы в несколько раз превосходит показатель ожидаемого количества соотнесенных фраз.
6. Метод, описанный в п.1, в процессе определения «спамовости» документа, включает в себя:
идентификацию документа в качестве спама, если для каждого минимального разнообразия фраз в документе фактическое количество соотнесенных фраз, присутствующих в документе, значительно превосходит ожидаемое количество соотнесенных фраз.
7. Метод, описанный в п.1, в процессе определения «спамовости» документа, включает в себя:
идентификацию документа в качестве спама, если фактическое количество соотнесенных фраз в документе, по хотя бы одной фразе, превосходит предопределенный максимум ожидаемого количества соотнесенных фраз.
8. Метод, описанный в п.1, в процессе определения «спамовости» документа, включает в себя:
определение для документа набора наиболее значимых фраз, содержащихся в этом документе;
для каждой из наиболее значимых фраз, определение фактического количества соотнесенных фраз, содержащихся в документе;
а также отслеживание случаев значительного превышения фактического количества соотнесенных фраз, по сравнению с ожидаемым показателем – в таком случае документ будет идентифицирован как спам по этой отдельной фразе
9.Метод, описанный в п.1, включает в себя:
отслеживание случаев идентификации документа в качестве спама и помещение документа в список спамовых документов.
10. Метод, описанный в п.9, включает в себя:
получение поискового запроса;
выборку набора документов, релевантных поисковому запросу, при этом каждый документ имеет определенный коэффициент релевантности;
определение (для каждого документа из набора) того, был ли идентифицирован документ в качестве спама;
переоценку коэффициента релевантности документа на основании того, был ли документ идентифицирован в качестве спама;
перераспределение документов в наборе, в соответствии с их коэффициентами релевантности
19.02.07
Источник:
google.
Автор:
google. Перевод:
Seva.