Патент Google: Определение спам-документов, основанное на фразах. Часть 2 > Поисковые системы

Главная » Статьи » Поисковые системы » Патент Google: Определение спам-документов, основанное на фразах. Часть 2 »

СТАТЬИ

Патент Google: Определение спам-документов, основанное на фразах. Часть 2

Мы продолжаем публикацию очередного патента Google: "Определение спам-документов системой получения информации, основанное на фразах." Часть 2 (ПРОДОЛЖЕНИЕ).

Идентификация соотнесенных фраз и кластеров соотнесенных фраз.

Рис 4отражает процесс идентификации соотнесенных фраз, который включает в себя следующие функциональные операции:

Определить соотнесенные фразы, которые имеют высокую информационную ценность
определить кластеры из соотнесенных фраз
сохранить цифровой вектор и номер кластера

А теперь подробнее обо всех этих операциях.

Как описывалось ранее, матрица совместного появления 212 содержит хорошие фразы g_j, каждая из которых предвосхищает по меньшей мере одну хорошую фразу g_k, с информационной ценностью выше установленного порога. Чтобы определить соотнесенные фразы 400, для каждой пары хороших фраз (g_j, g_k) информационная ценность сравнивается с пороговым значением, т.е., 100. Таким образом, g_j и g_k являются соотнесенными фразами, если I (g_j, g_k) > 100.

Подобный высокий порог служит для определения уровня совместного появления хороших фраз, который намного превышает среднестатистический уровень совместного появления. Статистически это значит, что фразы g_j и g_k совместно появляются в 100 раз чаще, чем это ожидается. К примеру, если взять фразу "Monica Lewinsky», то фраза "Bill Clinton" будет упомянута в том же документе с вероятностью в 100 раз большей, чем та же фраза "Bill Clinton" будет упомянута в другом, случайным образом выбранном, документе. Другими словами, точность предвосхищения составляет 99,999%, поскольку показатели появления соотносятся как 100:1.

Соответствующим образом, любая запись (g_j, g_k), которая не превосходит порога Соотнесенных Фраз, отсеивается, указывая на то, что фразы g_j, g_k не соотносятся. Оставшиеся записи в матрице совместного появления 212 будут указывать на соотнесенные фразы.

Колонки g_k в каждом ряду g_j матрицы совместного появления 212 затем сортируются по порядку значений качества информации I (g_j, g_k), так что соотнесенные фразы g_k с наилучшими показателями качества информации идут первыми. Такая сортировка определяет, какие фразы будут наиболее соотнесенными в плане качества информации с данной фразой g_j.

Следующий шаг – определение 402 того, какие из соотнесенных фраз составляют кластер соотнесенных фраз. Кластер – это набор соотнесенных фраз, в котором каждая фраза обладает высоким качеством информации по отношению к по меньшей мере одной другой фразе. В данной реализации, кластеры определены следующим образом:

В каждом ряду g_j матрицы, будет одна или более фраз, которые соотнесены с фразой g_j. Этот набор является набором соотнесенных фраз R_j, где R = { g_k, g_l … g_m}.

Для каждой соотнесенной фразы m в R_j, система индексирования 110 определяет, является ли любая другая из соотнесенных фраз также соотнесенной к g_j. Таким образом, если I(g_k, g_l) также не равно нулю, то g_j, g_k и g_l также являются частью кластера. Этот кластерный тест повторяется для каждой пары (g_l, g_m) в R.

Например, предположим, что хорошая фраза «Bill Сlinton» соотнесена с фразами «President», «Monika Lewinsky», поскольку информационная ценность каждой из этих фраз по отношению к фразе «Bill Сlinton» превосходит установленный порог для Соотнесенных Фраз. Дальше, предположим, что фраза «Monica Lewinsky» соотнесена с фразой «purse designer». Эти фразы образуют набор R. Для определения кластеров, система индексирования 110 оценивает информационную ценность для каждой из фраз по отношению к остальным – путем определения их соответствующих значений информационной ценности. Итак, система индексирования 110 определяет информационную ценность I(«President», «Monika Lewinsky»), I («President», «purse designer») , и т.д. – для всех пар в R. В данном примере, «Bill Сlinton», «President» и «Monika Lewinsky» принадлежат одному кластеру, «Bill Сlinton» и «President» - из другого кластера, «Monika Lewinsky» и «purse designer» принадлежат третьему кластеру, а , «Monika Lewinsky», «Bill Сlinton» и «purse designer» относятся к четвертому кластеру. Это происходит потому, что хотя «Bill Clinton» не предвосхищает появление «purse designer» с достаточными качественными показателями, однако «Monika Lewinsky» предвосхищает обе эти фразы.

22.02.07
Источник: gool.
Автор: Google. Перевод: .

обсудить (1)

Стр. 1, 2, 3, 4, 5 > последняя »

Эта страница в полной версии