Уникальные слова, биграммы, фразы в анкор-тексте
Google стремится отслеживать состояние анкор-текста на данный сайт/страницу с течением времени, чтобы определить спам. Они отмечают, что "создающиеся естественным образом веб-графы обычно составляются из независимых решений. Искусственно сгенерированные веб-графы, которые обычно свидетельствуют о попытках спама, основаны на скоординированных решениях". Различие в стилях может быть отмечено и использовано для блокировки спама.
Google отмечает, что "пиковый характер" "анкор-слов/биграм/фраз" является предварительной характеристикой. Отмечается, что типичный спам характеризуется "добавлением большого количества идентичных анкор-текстов в большом количестве документов".
Залинковка независимых равнозначных сайтов (peers)
Google может использовать, также, данные о ссылках с "независимых равнозначных сайтов (т.е., несоответствующих тематике документов)" для проверки на спам. Они говорят, что "внезапный рост количества независимых равнозначных сайтов... с большим количеством ссылок... может свидетельствовать о потенциально искусственном веб-графе, что в свою очередь может быть индикатором спама". Google отмечает, что эти "подозрения могут усиливаться, если наблюдаемый рост сопровождается анкор-текстом, который чрезмерно согласован или разрознен", и что ценность этих ссылок может быть уменьшена либо применением "фиксированного количества", либо "мультипликативного фактора" - попросту говоря, сам факт наличия таких ссылок может повлечь за собой штраф.
Темы документа
Google может получать для себя темы документа следующими способами:
Категоризация
Анализ URL
Анализ контента
Кластеризация
Суммаризация
Набор уникальных редко используемых слов
Целью здесь является "мониторинг тем документа с течением времени и использование этой информации для оценки".
Google отмечает, что "всплеск количества тем может свидетельствовать о спаме", а значительные изменения тем документа могут говорить о том, что вебсайт "сменил владельцев и предыдущие характеристики документа, такие как оценка, анкор-текст, и т.п., более не заслуживают доверия". Google отмечает, что "если отмечается одна или более подобных ситуаций, может быть уменьшена относительная оценка этого сайта и/или ссылок, анкор-текста или других данных", принадлежащих этому вебсайту.