[ Обсуждение статьи ] Проблемы с фильтром Google, страница 2

kit
А вот в тему вопрос:
Какой размер должен быть у фрагмента текста, что-бы гугль наложил применил фильтры, и какова должны быть доля этого фрагмента в коде страницы?

Еть какая-то информация на эту тему?

цитата
23/02/06 в 01:28

Tony Montana
kit писал:

А вот в тему вопрос:
Какой размер должен быть у фрагмента текста, что-бы гугль наложил применил фильтры, и какова должны быть доля этого фрагмента в коде страницы?
Еть какая-то информация на эту тему?

Чем длиннее и уникальнее, тем лучше.

2Synchro
На самом деле фактических вещей о гугле гораздо больше, чем ты указал...

цитата
23/02/06 в 01:50

Hardman
kit писал:

Это наверно только Маузер да БоГ знают... знают но не скажут

цитата
24/02/06 в 15:42

Cloud
kit писал:

я тоже интересовался этим вопросом. у Маузера спрашивал. Он тоже точно сказать не может как определяеться уникальность. Но вроде по тому что я читал 80% совпадений считаеться уже не уникальным тесктом. Те ткто копируют контент проставляют свои тексты сверху и снизу тоже определяеться не уникальность.

цитата
06/03/06 в 01:31

Back Door Man
kit писал:

Есть - шинглы.

цитата
11/03/07 в 22:30

IlVin
Классная статья ;)
Пошел копировать ее на свой сайт

Шютка.

цитата
12/03/07 в 13:56

ICOOGLE Project
Back Door Man писал:

Есть - шинглы.

Шинглы закончились вместе с баянистой статьёй Сегловича о них 5-летней давности. Я для своих целей их использовал, преимущество метода в его простоте, можно небольшими усилиями находить точные вхождения.. но с ростом базы для проверки это становится ерундой полнейшей. Есть намного более эффективные способы определения авторства, напр. по n-граммам, причём в их роли могут же выступать не только элементарные единицы речи (пары букв, пары слов), а пары фраз, о которых последний патент. Вот это очень хороший способ, там я думаю определится даже при 50% разбавлении чужим текстом независимо от того, в какое место он был вставлен, т.к. берутся же связки фраз... куда его не подмешивай, грамматика не меняется. Вот для этого нужно структуру авторскую поломать. кстати это уже давно есть ;)

Но самое главное для всех способов фрагменты должны быть большими, чтобы корректно определять дубли. Поэтому и анализируется весь сайт как единое целое по тексту. Таких же не было случаев в последнее время, чтобы именно понижали страницы за дубликаты? (или были? шото я не слежу). Вот собсвенно и речь о том, что не столько важно отношение в коде страницы, сколько отношение самих страниц на сайте.

цитата
28/03/07 в 03:58

Sprat
ICOOGLE Project писал:

Есть намного более эффективные способы определения авторства, напр. по n-граммам, причём в их роли могут же выступать не только элементарные единицы речи (пары букв, пары слов), а пары фраз, о которых последний патент.

И как происходит сравнение таких пар для разных сайтов?
Разве при таком методе требуется значительно меньше ресурсов для анализа чем при шинглах?

Стр. « первая < 1, 2

Новая тема Ответить

Эта страница в полной версии