а) количество документов, содержащих фразу P(p) < 2, и
б) количество интересных появлений фразы M(p) = 0
Эти условия свидетельствуют, что фраза является нечастой, и не используется в качестве индикатора значимого контента. Как и прежде, приведенные параметры могут изменяться, в зависимости от количества документов в разделе.
Нужно отметить, что список хороших фраз 208 будет естественным образом включать отдельные слова в качестве фраз, в дополнение к фразам из нескольких слов. Это происходит потому, что каждое первое слово в окне фраз 302 – всегда кандидат на фразу, соответственно будет накапливаться количество появлений. Таким образом, система индексирования 110 может автоматически индексировать как отдельные слова (то есть, фразы из одного слова), так и мульти-словесные фразы. Список хороших фраз 208 будет значительно короче, чем теоретический максимум, рассчитанный из максимального количества возможных комбинаций m фраз. При стандартной реализации, список хороших фраз будет включать в себя около 6,5 * 10
5 фраз. Список плохих фраз хранить необязательно, поскольку система должна отслеживать только возможные и хорошие фразы.
К последнему проходу по коллекции документов, список возможных фраз будет достаточно коротким, в силу ожидаемого распространения используемых фраз в большом собрании документов. Если, к примеру, при десятом проходе (т.е., около 10000000 документов), фраза встречается первый раз, крайне маловероятно, что она будет хорошей фразой на момент проведения анализа. Она может оказаться новой фразой, которая только входит в употребление, и тогда в течение последующих проходов она будет приобретать популярность. В таком случае, ее относительное количество появлений будет увеличиваться и в результате превысит порог, требуемый для попадания в список хороших фраз.
Третья стадия операции индексирования – чистка 204 списка хороших фраз 208, с использованием предсказательной величины, получаемой из матрицы совместного появления 212. Без подобной чистки, список хороших фраз 208 будет включать в себя множество фраз, которые, хотя и входят в лексикон, но не предвосхищают появление других фраз, или сами являются производными от более длинных фраз. Удаление этих слабых хороших фраз приводит к созданию довольно качественной подборки из хороших фраз. Для идентификации хороших фраз, используется предсказательная величина, которая отражает зависимость появления в документе одной фразы, при условии, что в нем присутствует другая фраза. В данной реализации это сделано следующим образом:
Как упоминалось ранее, матрица совместного появления представляет собой матрицу размером m * m, в которой хранятся данные, связанные с хорошими фразами. Каждый ряд j в матрице представляет собой хорошую фразу g
j, рассчитывается величина ожидания Е ( g
j). Величина ожидания Е – это процентное содержание документов в коллекции, в которых ожидается появление g
j. Эта величина рассчитывается, к примеру, как отношение количества документов, содержащих g
j, к общему количеству Т документов в коллекции, которые подверглись кроулингу – P(j)/T .
Как отмечалось ранее, количество документов, содержащих g
j, обновляется каждый раз, когда g
j появляется в документе. Значение для Е(g
j) может обновляться каждый раз, когда увеличивается значение g
j, или в течение данной третьей стадии.
Далее, для каждой из оставшихся хороших фраз g
k (т.е., колонок матрицы), определяется – предсказывает ли g
j появление g
k. Предсказательный коэффициент для g
j определяется следующим образом:
рассчитывается величина ожидания E (gk). Ожидаемый коэффициент совместного появления E(j,k) для gj и gk, если они не являются несвязанными фразами, составит в таком случае E(gj) * E (gk).
рассчитывается фактический коэффициент совместного появления A (j,k) для gj и gk. Это исходное значение совместных появлений R (j,k), деленное на T, общее количество документов;
gj считается предсказательным по отношению к gk, если фактический уровень совместного появления A(j,k) превосходит ожидаемый уровень совместного появления E(j,k) на некоторое пороговое значение.
В данной реализации, предсказательной величиной является получение информации. Таким образом, фраза gj предвосхищает другую фразу gk, если полученная информация I по фразе gk, в присутствии фразы gj, превосходит некоторую установленную величину. Рассчитывается это по формуле I(j,k)=A(j,k)/E(j,k)
А хорошая фраза gj предвосхищает хорошую фразу gk, если:
19.02.07
Источник:
google.
Автор:
google. Перевод:
Seva.