Патент Google: Определение спам-документов, основанное на фразах. Часть 2, страница 6 > Поисковые системы

Главная » Статьи » Поисковые системы » Патент Google: Определение спам-документов, основанное на фразах. Часть 2 »

СТАТЬИ

Патент Google: Определение спам-документов, основанное на фразах. Часть 2

Упомянутая выше организация хранения позволяет хранить значительно больше записей в пересчете на единицу дискового пространства чем общепринятые способы. Во-первых, избавление от информации о положении термина по каждой фразе в каждом документе предоставляет приблизительно 50% уменьшение в количестве места, необходимого для хранения данного набора документов. Во-вторых, разбиение постинг-списков на разделы между первичным и вторичным индексами, а также хранение информации о релевантности только в первичном индексе, предоставляет еще большие возможности для экономии дискового пространства. Многие фразы насчитывают более 100 000, и даже миллионы документов в своих посинг-списках. Хранение информации о релевантности только для ограниченного набора записей в первичном индексе избавляет от хранения информации о документах, которые вряд ли будут возвращаться в результатах поиска. Это дает примерно десятикратное увеличение количества документов, которые могут быть сохранены. И, наконец, экономия (примерно 25-50% уменьшение требуемого места) достигается за счет выборочного хранения менее релевантной информации в первичном индексе 150 для менее релевантных (ранжированных ниже) документов в каждом постинг-списке 214.

B) Определение тем документа

Индексирование документов по фразам и использование кластерной информации предоставляет еще одно преимущество для системы индексирования 110, а именно возможность определять темы, о которых идет речь в документе - на основании информации о соотнесенных фразах.

Предположим, что для данной хорошей фразы g_j и данного документа d, существует следующая запись в постинг-списке:

g_j: document d: related phrase counts:={3,4,3,0,0,2,1,1,0} [0146] related phrase bits vector:={11 11 10 00 00 10 10 10 01}

где бит-вектор соотнесенной фразы представлен двух-битовыми парами.

Судя по бит-вектору соотнесенной фразы, мы можем определить первичную и вторичную темы для документа d. Первичная тема определяется бит-парой (1,1), а вторичная тема определяется бит-парой (1,0). Бит-пара соотнесенной фразы (1,1) показывает, что соотнесенная фраза g_k для этой бит-пары присутствует в документе d, равно как и вторичная соотнесенная фраза g_l. Это можно понимать следующим образом: автор документа d использовал при составлении документа одновременно несколько соотнесенных фраз g_j, g_k и g_l . Бит-пара (1,0) свидетельствует, что присутствуют как g_j, так и g_k однако вторичные соотнесенные фразы по g_k отсутствуют – значит эта тема менее существенна.

С) Индексирование образцов документов для архивного доступа

Еще одна реализация данного изобретения позволяет хранить и поддерживать в индексах исторические документы, обеспечивая таким образом архивное получение отдельных страниц или документов, версии которых зависят от даты. Эта возможность имеет различные области применения – пользователь может осуществлять поиск по документам в пределах заданного временного диапазона, поисковая система 120 может использовать дату или релевантную информацию в зависимости от даты, при оценке документов в ответ на поисковый запрос и для организации выдачи результатов.

22.02.07
Источник: gool.
Автор: Google. Перевод: .

обсудить (1)

Стр. « первая < 4, 5, 6, 7 > последняя »

Эта страница в полной версии