Master-X
Форум | Новости | Статьи
Главная » Статьи » Поисковые системы » Патент Google: Определение спам-документов, основанное на фразах. Часть 1 » 
СТАТЬИ

Патент Google: Определение спам-документов, основанное на фразах. Часть 1
Мы начинаем публикацию очередного патента Google. Патент посвящен алгоритмам определения спам-документов, на основе анализа фраз, входящих в документ..

Исходник патента доступен ЗДЕСЬ.



Суть патента

Система получения информации использует фразы для индексирования, получения, структурирования и описания документов. Фразы определяются с тем, чтобы предсказать появление в документе других фраз. Документы индексируются на основании фраз, которые они включают. Спам-документы определяются на основании количества соответствующих фраз, встречающихся в документе.

1. Компьютерный метод определения спам-документов в системе получения информации включает в себя:

  • поддержку списка фраз, причем каждая фраза содержит ассоциативные связи с набором соотнесенных с ней фраз;
  • определение количества соотнесенных фраз, которые могут содержаться в документе
  • для каждой фразы из списка фраз;
  • определение для документа, и, по крайней мере, для одной фразы в документе, - фактического количества соотнесенных фраз, содержащихся в документе;
  • определение документа в качестве спам-документа путем сравнения фактического количества соотнесенных фраз, содержащихся в документе, с ожидаемым количеством соотнесенных фраз

    2. Метод, описанный в п.1, в процессе определения количества соотнесенных фраз, ожидаемых в документе по каждой фразе из списка фраз, включает также в себя:

  • анализ индекса документов;
  • для каждого документа – определение набора фраз в документе из списка фраз, и для каждой фразы в документе – определение количества соотнесенных фраз, также содержащихся в документе;
  • определение ожидаемого количества соотнесенных фраз, как усредненной величины количества соотнесенных фраз в проанализированных документах

    3. Метод, описанный в п.1, в процессе определения «спамовости» документа, включает в себя:

  • отслеживание фактического количества соотнесенных фраз, содержащихся в документе, для хотя бы одной фразы, по которой количество соотнесенных фраз значительно превосходит ожидаемый показатель.

    4. Метод, описанный в п.1, в процессе определения «спамовости» документа, включает в себя:

  • отслеживание фактического количества соотнесенных фраз, содержащихся в документе, для хотя бы одной фразы, по которой количество соотнесенных фраз хотя бы в несколько раз превосходит показатель стандартной девиации ожидаемого количества соотнесенных фраз.

    5. Метод, описанный в п.1, в процессе определения «спамовости» документа, включает в себя:

  • отслеживание фактического количества соотнесенных фраз, содержащихся в документе, для хотя бы одной фразы, по которой количество соотнесенных фраз хотя бы в несколько раз превосходит показатель ожидаемого количества соотнесенных фраз.

    6. Метод, описанный в п.1, в процессе определения «спамовости» документа, включает в себя:

  • идентификацию документа в качестве спама, если для каждого минимального разнообразия фраз в документе фактическое количество соотнесенных фраз, присутствующих в документе, значительно превосходит ожидаемое количество соотнесенных фраз.

    7. Метод, описанный в п.1, в процессе определения «спамовости» документа, включает в себя:

  • идентификацию документа в качестве спама, если фактическое количество соотнесенных фраз в документе, по хотя бы одной фразе, превосходит предопределенный максимум ожидаемого количества соотнесенных фраз.

    8. Метод, описанный в п.1, в процессе определения «спамовости» документа, включает в себя:

  • определение для документа набора наиболее значимых фраз, содержащихся в этом документе;
  • для каждой из наиболее значимых фраз, определение фактического количества соотнесенных фраз, содержащихся в документе;
  • а также отслеживание случаев значительного превышения фактического количества соотнесенных фраз, по сравнению с ожидаемым показателем – в таком случае документ будет идентифицирован как спам по этой отдельной фразе

    9.Метод, описанный в п.1, включает в себя:

  • отслеживание случаев идентификации документа в качестве спама и помещение документа в список спамовых документов.

    10. Метод, описанный в п.9, включает в себя:

  • получение поискового запроса;
  • выборку набора документов, релевантных поисковому запросу, при этом каждый документ имеет определенный коэффициент релевантности;
  • определение (для каждого документа из набора) того, был ли идентифицирован документ в качестве спама;
  • переоценку коэффициента релевантности документа на основании того, был ли документ идентифицирован в качестве спама;
  • перераспределение документов в наборе, в соответствии с их коэффициентами релевантности
    19.02.07
    Источник: google.
    Автор: google. Перевод: Seva.
  • Стр. 1, 2, 3, 4, 5  >  последняя »


    Эта страница в полной версии