I(j,k) больше установленного порога информационного качества
В данной реализации, порог информационного качества установлен на уровне 1,5 , но его предпочтительные значения могут варьироваться от 1,1 до 1,7. Повышение порога над 1,0 служит уменьшению возможности того, что две, в целом несвязанные фразы, появятся вместе чаще, чем это предсказано статистически.
Как отмечалось ранее, расчет информационного качества повторяется для каждой колонки k матрицы G, с учетом данного ряда j. По окончании ряда, если информационное качество ни по одной из хороших фраз g
k не превосходит порога информационного качества, это значит – фраза g
j не предвосхищает ни одну другую хорошую фразу.
Этот шаг считается завершенным, когда будут пройдены все ряды матрицы совместного появления 212 .
Финальный шаг этой стадии – чистка списка хороших фраз 208, чтобы удалить незаконченные фразы. Незаконченной считается фраза, которая только предсказывает собственные расширения, и которая начинается в левой крайней части фразы (то есть, в начале фразы). «Расширение фразы» p - это супер-последовательность, которая начинается с фразы p. К примеру, фраза "President of" предвосхищает фразы "President of the United States", "President of Mexico", "President of AT&T", и т.д. Все последующие фразы являются расширениями фразы "President of", поскольку они начинаются с "President of" и поэтому являются супер-последовательностями.
Каждая фраза g
j, оставшаяся в списке хороших фраз 208, будет предвосхищать некоторое количество других фраз, исходя из порога информационного качества, обсуждавшегося ранее. Для каждой фразы g
j, система индексирования 110 проводит проверку на совпадение строк с каждой из фраз g
k, которые она предвосхищает. Проверка на построчное совпадение показывает, не является ли фраза g
k расширением фразы g
j. Если все предвосхищенные фразы g
k являются расширением фразы g
j, то фраза g
j неполная - она удаляется из списка хороших фраз 208 и добавляется в список незаконченных фраз 216. Таким образом, если существует хоть одна фраза g
k, которая не является расширением фразы g
j, тогда g
j считается полной и остается в списке хороших фраз. Пример: "President of the United" – неполная фраза, поскольку единственная фраза, которую она предвосхищает, - "President of the United States", - является расширением исходной фразы.
Список неполных фраз 216 довольно полезен сам по себе, когда речь идет о фактическом поиске. После получения поискового запроса, его можно сравнить со списком неполных фраз 216. Если запрос (или его часть) совпадает с записью в списке, то поисковая система 120 может просмотреть наиболее возможное расширение этой неполной фразы (расширение фразы, которое получило наибольший коэффициент информативности относительно неполной фразы), и предложить это расширение фразы пользователю, или автоматически выполнить поиск по выбранному расширению. К примеру, если запрос был сформулирован как "President of the United", поисковая система 120 может автоматически предложить пользователю в качестве поискового запроса вариант "President of the United States".
После того, как закончится последняя стадия индексирования, список хороших фраз 208 будет содержать большое количество хороших фраз, обнаруженных в собрании. Каждая из этих хороших фраз будет предвосхищать, по крайней мере, одну фразу, которая не является ее расширением. Таким образом, каждая хорошая фраза используется с достаточной частотой и независимостью, чтобы отражать осмысленные концепции или идеи, содержащиеся в собрании документов. В отличие от существующих систем, которые используют предопределенные или отобранные вручную фразы, список хороших фраз отражает фразы, которые фактически используются в собрании. Далее, поскольку описанный процесс кроулинга и индексирования периодически повторяется, по мере добавления в коллекцию новых документов, система индексирования 110 автоматически определяет новые фразы, по мере их поступления в лексикон.
19.02.07
Источник:
google.
Автор:
google. Перевод:
Seva.