Патент Google: Определение спам-документов, основанное на фразах. Часть 1, страница 7 > Поисковые системы

Главная » Статьи » Поисковые системы » Патент Google: Определение спам-документов, основанное на фразах. Часть 1 »

СТАТЬИ

Патент Google: Определение спам-документов, основанное на фразах. Часть 1

I(j,k) больше установленного порога информационного качества

В данной реализации, порог информационного качества установлен на уровне 1,5 , но его предпочтительные значения могут варьироваться от 1,1 до 1,7. Повышение порога над 1,0 служит уменьшению возможности того, что две, в целом несвязанные фразы, появятся вместе чаще, чем это предсказано статистически.

Как отмечалось ранее, расчет информационного качества повторяется для каждой колонки k матрицы G, с учетом данного ряда j. По окончании ряда, если информационное качество ни по одной из хороших фраз g_k не превосходит порога информационного качества, это значит – фраза g_j не предвосхищает ни одну другую хорошую фразу.

Этот шаг считается завершенным, когда будут пройдены все ряды матрицы совместного появления 212 .

Финальный шаг этой стадии – чистка списка хороших фраз 208, чтобы удалить незаконченные фразы. Незаконченной считается фраза, которая только предсказывает собственные расширения, и которая начинается в левой крайней части фразы (то есть, в начале фразы). «Расширение фразы» p - это супер-последовательность, которая начинается с фразы p. К примеру, фраза "President of" предвосхищает фразы "President of the United States", "President of Mexico", "President of AT&T", и т.д. Все последующие фразы являются расширениями фразы "President of", поскольку они начинаются с "President of" и поэтому являются супер-последовательностями.

Каждая фраза g_j, оставшаяся в списке хороших фраз 208, будет предвосхищать некоторое количество других фраз, исходя из порога информационного качества, обсуждавшегося ранее. Для каждой фразы g_j, система индексирования 110 проводит проверку на совпадение строк с каждой из фраз g_k, которые она предвосхищает. Проверка на построчное совпадение показывает, не является ли фраза g_k расширением фразы g_j. Если все предвосхищенные фразы g_k являются расширением фразы g_j, то фраза g_j неполная - она удаляется из списка хороших фраз 208 и добавляется в список незаконченных фраз 216. Таким образом, если существует хоть одна фраза g_k, которая не является расширением фразы g_j, тогда g_j считается полной и остается в списке хороших фраз. Пример: "President of the United" – неполная фраза, поскольку единственная фраза, которую она предвосхищает, - "President of the United States", - является расширением исходной фразы.

Список неполных фраз 216 довольно полезен сам по себе, когда речь идет о фактическом поиске. После получения поискового запроса, его можно сравнить со списком неполных фраз 216. Если запрос (или его часть) совпадает с записью в списке, то поисковая система 120 может просмотреть наиболее возможное расширение этой неполной фразы (расширение фразы, которое получило наибольший коэффициент информативности относительно неполной фразы), и предложить это расширение фразы пользователю, или автоматически выполнить поиск по выбранному расширению. К примеру, если запрос был сформулирован как "President of the United", поисковая система 120 может автоматически предложить пользователю в качестве поискового запроса вариант "President of the United States".

После того, как закончится последняя стадия индексирования, список хороших фраз 208 будет содержать большое количество хороших фраз, обнаруженных в собрании. Каждая из этих хороших фраз будет предвосхищать, по крайней мере, одну фразу, которая не является ее расширением. Таким образом, каждая хорошая фраза используется с достаточной частотой и независимостью, чтобы отражать осмысленные концепции или идеи, содержащиеся в собрании документов. В отличие от существующих систем, которые используют предопределенные или отобранные вручную фразы, список хороших фраз отражает фразы, которые фактически используются в собрании. Далее, поскольку описанный процесс кроулинга и индексирования периодически повторяется, по мере добавления в коллекцию новых документов, система индексирования 110 автоматически определяет новые фразы, по мере их поступления в лексикон.

19.02.07
Источник: google.
Автор: google. Перевод: Seva.

обсудить (24)

Стр. « первая < 5, 6, 7

Эта страница в полной версии