Патент Google: Определение спам-документов, основанное на фразах. Часть 1, страница 2 > Поисковые системы

Главная » Статьи » Поисковые системы » Патент Google: Определение спам-документов, основанное на фразах. Часть 1 »

СТАТЬИ

Патент Google: Определение спам-документов, основанное на фразах. Часть 1

11. Метод, описанный в п.8, включает в себя: добавление документа в список спамовых документов, ассоциированных с наиболее значимой фразой; а по каждой фразе, соотнесенной с наиболее значимой фразой, добавление документа в список спамовых документов, ассоциированных с соотнесенной фразой.

Описание патента

Область применения изобретения

Настоящее изобретение относится к системе получения информации в целях индексирования, поиска и классификации документов в широкомасштабных хранилищах данных, подобных сети Интернет.

Предыстория изобретения

Системы получения информации, обычно называемые поисковыми системами, стали основным инструментом для поиска информации в широкомасштабных, разнородных и развивающихся хранилищах данных, подобных сети Интернет.

Поисковые системы, обычно, создают индекс, в котором хранятся данные о соответствии документов (или «страниц») отдельным словам, находящимся в каждом документе. Документ выдается в ответ на запрос, содержащий поисковые термины – в основном, если в документе содержится некоторое количество этих терминов. Затем полученные документы ранжируются, в соответствии с другими статистическими величинами, например, частота появления поисковых терминов, домен, состав ссылок на документ, и т.д. Полученные документы предоставляются пользователю, обычно в порядке ранжирования и без группировки или иерархии. Иногда предоставляется отдельный участок текста документа, чтобы пользователь мог получить представление о содержании документа.

Непосредственное «булево» соответствие поисковых терминов имеет хорошо известные ограничения, и в отдельных случаях не идентифицирует документы, которые не содержат поисковых терминов, однако обладают соотнесенными словами. К примеру, в стандартной булевой системе, поиск по «Australian Shepherds» («Австралийские овчарки») не возвратит документы о других пастушьих собаках, подобных бордер-колли - если в этих документах не будет содержаться именно этих поисковых терминов. Более того, подобная система, скорее всего, возвратит с высоким ранкингом документы об Австралии (в которых нет ничего о собаках) и документы о «пастухах» в целом (shepherd – пастух).

Проблема состоит в том, что общепринятые системы индексируют документы на основании отдельных терминов, но не концепций. Концепции зачастую могут быть выражены фразами, подобными «Australian Shepherd», «President of the United States», или «Sundance Film Festival». В лучшем случае, некоторые системы могут индексировать документы с учетом предопределенного и весьма ограниченного набора «известных» фраз – которые обычно выбираются оператором-человеком. Индексирование фраз обычно не проводится, в силу повышенных требований к вычислительным мощностям, необходимым для идентификации всех возможных фраз, состоящих из трех, четырех, пяти и более слов. К примеру, если предположить, что любые пять слов могут составить фразу, а собрание терминов будет содержать 200 000 уникальных записей, то в результате получится около 3,2*10²⁶ фраз – намного больше, чем может храниться в современной памяти или обрабатываться программными средствами. Следующая проблема состоит в том, что фразы постоянно обновляют лексикон и выходят из обихода (в разрезе частоты их использования) – намного чаще, чем появляются отдельные новые слова. Новые фразы генерируются постоянно, из разных источников – технология, искусство, мировые события, право. Популярность других фраз может уменьшаться с течением времени.

Другая проблема, которая возникает в существующих системах получения информации, состоит в появлении «спам»-документов. Некоторые спам-страницы являются документами, которые содержат малую толику, либо не содержат вовсе, значимого контента. Вместо этого, в них содержатся коллекции популярных слов и фраз, зачастую сотни и даже тысячи – такие документы иногда называют «страницами, фаршированными кейвордами». Другие содержат специфичные слова и фразы, которые могут быть интересны рекламодателям. Эти типы документов (называемые «медовыми бочонками») создаются для показа в поисковых запросах вместе с платными объявлениями. Однако для конечного пользователя, который ищет значимый контент, просмотр подобных документов означает ненужную потерю времени и расстройство.

Поэтому, появилась необходимость в системе получения информации и методологии, которые смогли бы наиболее полно идентифицировать фразы в широкомасштабных коллекциях, индексировать документы в соответствии с фразами. Кроме того, подобная система получения информации нужна для обнаружения спам-документов и фильтрации этих документов из поисковых результатов.

Краткое описание изобретения

Система получения информации и методология используют фразы для индексирования, поиска, ранжирования и описания документов в коллекции документов. Система адаптирована для идентификации фраз, которые обладают достаточно частым и/или выдающимся использованием в коллекции документов – для индикации того, что они являются «действующими» или «хорошими» фразами. Подобным образом могут быть идентифицированы фразы, состоящие из нескольких слов – к примеру, фразы из четырех, пяти, и более слов. Это позволяет избежать проблемы идентификации и индексирования всех возможных фраз, получаемых в результате всех возможных комбинаций данного количества слов.

19.02.07
Источник: google.
Автор: google. Перевод: Seva.

обсудить (24)

Стр. « первая < 1, 2, 3, 4, 5 > последняя »

Эта страница в полной версии