Система адаптирована для идентификации фраз, которые соотносятся друг с другом – на основании способности фразы предвосхищать появление в документе других фраз. Используется предсказательное сравнение фактического совместного появления двух фраз и ожидаемого совместного появления этих двух фраз. Полученная информация, в виде коэффициента фактического совместного появления к ожидаемому появлению, составляет предсказательную шкалу. Две фразы соотносятся, если на предсказательной шкале они превышают некоторый порог. В таком случае, вторая фраза имеет существенное информационное значение по отношению к первой фразе. Семантически, соотнесенные фразы обычно используются для обсуждения или описания данной темы или концепции, наподобие «Президент Соединенных Штатов» и «Белый Дом». Для данной фразы, соотнесенные фразы могут быть упорядочены согласно их релевантности или значимости, на основании их предсказательных параметров.
Система получения информации адаптирована для определения спам-документов, на основании появления повышенного количества соотнесенных фраз в документе.
Краткое описание чертежей
Рис 1. – блок-диаграмма программной архитектуры настоящего изобретения
Рис 2. – иллюстрирует метод идентификации фраз в документах
Рис 3 – иллюстрирует документ с окном фраз и вторичным окном
Рис 4- иллюстрирует метод идентификации соотнесенных фраз
Рис 5– иллюстрирует метод индексирования документов для соотнесенных фраз
Рис 6– иллюстрирует метод получения документов, основанный на фразах
Чертежи описывают предпочтительный вариант реализации настоящего изобретения и служат только для иллюстрации. Для разбирающегося в теме из последующего обсуждения будет понятно, что могут быть использованы альтернативные воплощения продемонстрированных структур и методов, с соблюдением принципов описанного здесь изобретения.
Детальное описание изобретения.
I.
Обзор системы
На
Рис 1 представлена организация программной архитектуры поисковой системы 100, в соответствии с одной из реализаций данного изобретения. В этой реализации система включает в себя систему индексирования 110, поисковую систему 120, презентационную систему 130 и сервер 140, отвечающий за связь с внешним миром.
Система индексирования 110 отвечает за идентификацию фраз в документах, и за индексирование документов в соответствии с их фразами – путем доступа к различным веб-сайтам 190 и другим коллекциям документов. Сервер 140, отвечающий за связь с внешним миром, получает запросы от пользователя или клиента 170, и предоставляет эти запросы поисковой системе 120. Поисковая система 120 отвечает за поиск документов, релевантных поисковому запросу (результаты поиска), включая идентификацию любых фраз в поисковом запросе, и дальнейшее ранжирование документов в результатах поиска с учетом наличия фраз в документах. Поисковая система 120 предоставляет поисковые результаты презентационной системе 130. Презентационная система 130 отвечает за модификацию поисковых результатов, включающую в себя удаление дублированных документов, генерацию тематических описаний документов и предоставление модифицированных результатов обратно серверу 140, который предоставляет результаты клиенту 170. Далее, система 100 включает в себя первичный индекс 150 и вторичный индекс 152, которые хранят проиндексированную информацию, относящуюся к документам, а также хранилище данных по фразам 160 - которое хранит фразы и соответствующую статистическую информацию. Первичный индекс 150 распределен между некоторым количеством первичных серверов 1 . . . М1, а вторичный индекс 152, подобным образом, распределен между вторичными серверами 1 . . .М2.
В контексте данного патента, под «документами» понимается любой вид носителя информации, который может быть получен и проиндексирован поисковой системой, включая веб-документы, изображения, файлы мультимедиа, текстовые документы, PDF или другие файлы с отформатированными изображениями, и т.д. Документ может содержать одну или более страниц, разделов, сегментов или других компонентов, в соответствии с его типом и контентом. Документ может с тем же успехом называться «страницей» - этот термин часто используется для обозначения документов в Интернете. Поисковая система 100 оперирует большим собранием документов, подобным Интернету и World Wide Web, однако с таким же успехом может быть использована и для ограниченных коллекций – наподобие библиотечных собраний документов или частных коллекций. Независимо от контекста, документы могут распространяться через множество различных компьютерных систем и сайтов. Без ущерба для общей картины, документы в целом, независимо от их формата или местонахождения (т.е. вебсайта или базы данных) будут упоминаться в качестве собрания или коллекции документов. Каждый документ имеет соответствующий идентификатор, который уникальным образом определяет документ; идентификатор – это преимущественно URL, однако другие типы идентификаторов (т.е., номера документов) тоже могут быть использованы. В данном материале в качестве идентификатора документов принимается URL.
19.02.07
Источник:
google.
Автор:
google. Перевод:
Seva.