Master-X
Форум | Новости | Статьи
Главная » Статьи » Поисковые системы » Патент Google: получение информации, основанное на временнЫх данных (Окончание) » 
СТАТЬИ

Патент Google: получение информации, основанное на временнЫх данных (Окончание)
Первая часть статьи находится здесь

Описание Патента

Предыстория изобретения:

Данная разработка предназначена для IR (Information retrieval) и, в частности, для методов, используемых при генерации поисковых результатов.

Описание сопутствующих тем:

Здесь приводится, в основном, отвлеченная информация , но одна цитата заслуживает внимания:

"существует несколько факторов, которые могут повлиять на качество результатов, сгенерированных поисковой системой. Например, некоторые создатели вебсайтов используют спаминговые приемы, чтобы искусственно повысить свой ранкинг. "Просроченные" документы (т.е. те документы, которые не обновлялись в течение какого-то промежутка времени и, таким образом, содержат неизменные данные) также могут ранжироваться выше, чем "свежие" документы (т.е. те документы, которые обновлялись не так давно и, таким образом, содержат более свежие данные). В некоторых отдельных случаях, просроченные документы с более высоким ранкингом плохо влияют на качество результатов поиска. Таким образом, существует необходимость улучшать качество результатов, генерируемых поисковыми системами".

Суть изобретения:

Google говорит, что "временнЫе данные, ассоциированные с документами" могут использоваться для их оценки в поисковых результатах. Изобретение предоставляет "метод для оценки документа" и оно "может включать в себя определение возраста данных о залинковке, ассоциированных с документом, и ранкинг этого документа на основании угасающей функции от возраста этих данных о залинковке".

Краткое описание схем:

Схемы представляют собой отвлеченные упрощенные карты, показывающие процесс исследования. PDF-версия с картами в конце документа доступна по адресу http://files.bighosting.net/tr19070.pdf .

ВременнЫе данные в примерах:

Это поясняющий раздел описания Патента. Он содержит примеры и объяснение большинства наиболее важных частей этого исследования, включая детальные описания многих из его 63 составляющих.

Дата получения документа.

Google отмечает, что термин "дата" используется весьма широко, и может означать различные величины даты и времени. Google описывает некоторые из приемов, используемые для определения "даты получения" и указывает, что некоторые из приемов являются "предвзятыми", поскольку на них могут повлиять сторонние факторы.

Первый прием используется, когда Google узнает о документе или индексирует его - найдя ссылку на сайт/страницу или следуя по ней. Второй прием использует дату регистрации URL или первое упоминание о нем в "новостной статье, новостной группе, электронной рассылке", или комбинацию этих типов документов.

Согласно Патенту, Google предполагает, что "достаточно недавняя дата получения не подразумевает значительное количество ссылок с других документов". Однако они утверждают, что ранкинги документа будут скорректированы в зависимости от того, насколько хороши его показатели ссылок по отношению к его возрасту.

Google знаком с проблемой спама, и использует следующий пример (его уже цитировали в сети):

"Рассмотрим для примера документ со вчерашней датой получения, на который ссылаются 10 обратных ссылок. Этот документ может оцениваться (Google'ом) выше, чем документ с датой получения 10 лет назад и на который ссылаются 100 обратных ссылок, потому что уровень роста ссылок для первого документа выше относительно второго. Стремительный рост количества обратных ссылок может быть использован Google как фактор при оценке документов, однако это может также послужить сигналом о возможной попытке спама поисковой системы. В таком случае, Google может понизить оценку документа, чтобы уменьшить эффект спама."

Google может, также, использовать дату получения как метод для измерения "уровня, на котором были созданы ссылки на документ". Они говорят, что "этот уровень может впоследствии использоваться для оценки документа, например, для присвоения большего веса документам, ссылки на которые генерируются чаще".

Патент даже предоставляет формулу для модификации оценки, основанной на ссылках:

H = L/log(F+2),

где
  • H = оценка ссылки с учетом временнОй поправки
  • L = оценка ссылки, данная документу, которая может быть определена с использованием любого известного способа оценки и которая назначает оценку документу на основании ссылок с/на документ
  • F = прошедшее время, измеряемое с момента получения документа, ассоциированного с документом (или промежуток внутри этого периода).
    14.04.05
    Источник: socengine.
    Автор: SEOmoz. Перевод: Seva.
  • Стр. 1, 2, 3, 4, 5  >  последняя »


    Эта страница в полной версии