Упомянутая выше организация хранения позволяет хранить значительно больше записей в пересчете на единицу дискового пространства чем общепринятые способы. Во-первых, избавление от информации о положении термина по каждой фразе в каждом документе предоставляет приблизительно 50% уменьшение в количестве места, необходимого для хранения данного набора документов. Во-вторых, разбиение постинг-списков на разделы между первичным и вторичным индексами, а также хранение информации о релевантности только в первичном индексе, предоставляет еще большие возможности для экономии дискового пространства. Многие фразы насчитывают более 100 000, и даже миллионы документов в своих посинг-списках. Хранение информации о релевантности только для ограниченного набора записей в первичном индексе избавляет от хранения информации о документах, которые вряд ли будут возвращаться в результатах поиска. Это дает примерно десятикратное увеличение количества документов, которые могут быть сохранены. И, наконец, экономия (примерно 25-50% уменьшение требуемого места) достигается за счет выборочного хранения менее релевантной информации в первичном индексе 150 для менее релевантных (ранжированных ниже) документов в каждом постинг-списке 214.
B) Определение тем документа
Индексирование документов по фразам и использование кластерной информации предоставляет еще одно преимущество для системы индексирования 110, а именно возможность определять темы, о которых идет речь в документе - на основании информации о соотнесенных фразах.
Предположим, что для данной хорошей фразы g
j и данного документа d, существует следующая запись в постинг-списке:
g
j: document d: related phrase counts:={3,4,3,0,0,2,1,1,0} [0146] related phrase bits vector:={11 11 10 00 00 10 10 10 01}
где бит-вектор соотнесенной фразы представлен двух-битовыми парами.
Судя по бит-вектору соотнесенной фразы, мы можем определить первичную и вторичную темы для документа d. Первичная тема определяется бит-парой (1,1), а вторичная тема определяется бит-парой (1,0). Бит-пара соотнесенной фразы (1,1) показывает, что соотнесенная фраза g
k для этой бит-пары присутствует в документе d, равно как и вторичная соотнесенная фраза g
l. Это можно понимать следующим образом: автор документа d использовал при составлении документа одновременно несколько соотнесенных фраз g
j, g
k и g
l . Бит-пара (1,0) свидетельствует, что присутствуют как g
j, так и g
k однако вторичные соотнесенные фразы по g
k отсутствуют – значит эта тема менее существенна.
С) Индексирование образцов документов для архивного доступа
Еще одна реализация данного изобретения позволяет хранить и поддерживать в индексах исторические документы, обеспечивая таким образом архивное получение отдельных страниц или документов, версии которых зависят от даты. Эта возможность имеет различные области применения – пользователь может осуществлять поиск по документам в пределах заданного временного диапазона, поисковая система 120 может использовать дату или релевантную информацию в зависимости от даты, при оценке документов в ответ на поисковый запрос и для организации выдачи результатов.
22.02.07
Источник:
gool.
Автор:
Google. Перевод:
.