Master-X
Форум | Новости | Статьи
Главная » Форум » Поисковые Системы » 
Тема: [ Обсуждение статьи ] Проблемы с фильтром Google
цитата
22/02/06 в 22:41
 Tony Montana
Synchro писал:
Большой кусок текста берешь и ищешь... Кто на первом месте в выдаче, тот и первоисточник.


Не факт...
цитата
22/02/06 в 23:01
 CKA3KA
Synchro писал:
Большой кусок текста берешь и ищешь... Кто на первом месте в выдаче, тот и первоисточник.


сенкс icon_smile.gif
Оффтопик: думал есть ещё какие методы хитрые
цитата
22/02/06 в 23:29
 Synchro
Tony Montana писал:
Не факт...
Единственное, что можно сказать про гугл со 100%-ой вероятностью, что это сайт, который ищет что-то в интернете. Все остальное - "не факт".
цитата
23/02/06 в 01:14
 kit
А вот в тему вопрос:
Какой размер должен быть у фрагмента текста, что-бы гугль наложил применил фильтры, и какова должны быть доля этого фрагмента в коде страницы?

Еть какая-то информация на эту тему?
цитата
23/02/06 в 01:28
 Tony Montana
kit писал:
А вот в тему вопрос:
Какой размер должен быть у фрагмента текста, что-бы гугль наложил применил фильтры, и какова должны быть доля этого фрагмента в коде страницы?
Еть какая-то информация на эту тему?


Чем длиннее и уникальнее, тем лучше.

2Synchro
На самом деле фактических вещей о гугле гораздо больше, чем ты указал...
цитата
23/02/06 в 01:50
 Hardman
kit писал:
А вот в тему вопрос:
Какой размер должен быть у фрагмента текста, что-бы гугль наложил применил фильтры, и какова должны быть доля этого фрагмента в коде страницы?
Еть какая-то информация на эту тему?


Это наверно только Маузер да БоГ знают... знают но не скажут
цитата
24/02/06 в 15:42
 Cloud
kit писал:
А вот в тему вопрос:
Какой размер должен быть у фрагмента текста, что-бы гугль наложил применил фильтры, и какова должны быть доля этого фрагмента в коде страницы?
Еть какая-то информация на эту тему?

я тоже интересовался этим вопросом. у Маузера спрашивал. Он тоже точно сказать не может как определяеться уникальность. Но вроде по тому что я читал 80% совпадений считаеться уже не уникальным тесктом. Те ткто копируют контент проставляют свои тексты сверху и снизу тоже определяеться не уникальность.
цитата
06/03/06 в 01:31
 Back Door Man
kit писал:
А вот в тему вопрос:
Какой размер должен быть у фрагмента текста, что-бы гугль наложил применил фильтры, и какова должны быть доля этого фрагмента в коде страницы?
Еть какая-то информация на эту тему?
Есть - шинглы.
цитата
11/03/07 в 22:30
 IlVin
Классная статья ;)
Пошел копировать ее на свой сайт icon_smile.gif

Шютка.
цитата
12/03/07 в 13:56
 ICOOGLE Project
Back Door Man писал:
Есть - шинглы.


Шинглы закончились вместе с баянистой статьёй Сегловича о них 5-летней давности. Я для своих целей их использовал, преимущество метода в его простоте, можно небольшими усилиями находить точные вхождения.. но с ростом базы для проверки это становится ерундой полнейшей. Есть намного более эффективные способы определения авторства, напр. по n-граммам, причём в их роли могут же выступать не только элементарные единицы речи (пары букв, пары слов), а пары фраз, о которых последний патент. Вот это очень хороший способ, там я думаю определится даже при 50% разбавлении чужим текстом независимо от того, в какое место он был вставлен, т.к. берутся же связки фраз... куда его не подмешивай, грамматика не меняется. Вот для этого нужно структуру авторскую поломать. кстати это уже давно есть ;)


Но самое главное для всех способов фрагменты должны быть большими, чтобы корректно определять дубли. Поэтому и анализируется весь сайт как единое целое по тексту. Таких же не было случаев в последнее время, чтобы именно понижали страницы за дубликаты? (или были? шото я не слежу). Вот собсвенно и речь о том, что не столько важно отношение в коде страницы, сколько отношение самих страниц на сайте.
цитата
28/03/07 в 03:58
 Sprat
ICOOGLE Project писал:
Есть намного более эффективные способы определения авторства, напр. по n-граммам, причём в их роли могут же выступать не только элементарные единицы речи (пары букв, пары слов), а пары фраз, о которых последний патент.
И как происходит сравнение таких пар для разных сайтов?
Разве при таком методе требуется значительно меньше ресурсов для анализа чем при шинглах?
Стр. « первая   <  1, 2


Эта страница в полной версии