Master-X
Форум | Новости | Статьи
Главная » Форум » Поисковые Системы » 
Тема: По каким параметрам определяется?
цитата
17/07/06 в 22:37
 ags
по каким параметрам определяется эдентичность контента у гугля?
разбивка страницы? текст(от скольки одинаковых слов стоящих в одном и том же порядке в одном предложении)?
полезна любая информация.
цитата
17/07/06 в 23:19
 ivango
берешь каждое предложение длиной 7-10 слов из своего текста,
и ищещь его в гугле, по цельной фразе ( в кавычках ). Если гугль нашел чего-то кроме тебя, значит у тебя уже не уникально.
цитата
17/07/06 в 23:27
 ags
а если у меня 10-20 кейвордов и 500 килобайт текста для смешивания: 1 кейворд на 3-5 слов из текста? хочу узнать именно по каким параметрам определяется эдентичность контента у гугля чтобы использовать для скрипта-генератора.
цитата
18/07/06 в 01:20
 pornomogul
А с чего ты взял, что такие параметры есть? И что они на что то влияют?
цитата
18/07/06 в 01:37
 ICOOGLE Project
ags писал:
по каким параметрам определяется эдентичность контента у гугля?
разбивка страницы? текст(от скольки одинаковых слов стоящих в одном и том же порядке в одном предложении)?
полезна любая информация.


Этот вопрос напрямую связан с наукой криптографией или в контексте СЕ это прозвучит так - как содержать информацию в БД не храня весь её обьём. Можешь мне поверить, эта задача решается уже лет 50 на уровне докторов и академиков, но идеального алго не существуют. Множество методик разработано для этой цели и сказать, какую их них использует гугл невозможно. Некоторое время назад появилась замечательная статья сотрудника Яндекса И. Сегаловича о шинглах. Шинглами называются многословия определённой длины, для каждого из которых рассчитывается md5 хеш, который хранится в БД. Сравнивая хеши можно уверенно определять дубли. Длина шингла предложена в статье в размере 10 слов, если не ошибаюсь.

Одним из методов определения авторства основывается на формальной модели последовательности букв на основе цепей Маркова. Для текстов рассчитывается матрица частот употребеления элементов текста (букв, слова, грамм. классов) и на её основе вычисляется вероятность принадлежности. По разным оченкам можно ожидать точность до 70%.

Другой метод называется квантитативным. Заключается в исследовании структурных классоя естественного языка.

Ещё один метод - инвертированный индекс документа или цифровая подпись. Вычисляется вектор каждого документа по частотный индексам каждого слова. Индекс является бинарным и может принимать 0 или 1, в зависимости от того, превышает или нет его величина предельную частоту для каждого слова документа.

Каждый метод имеет свои недостатки и преимущества.

Но к слову сказать, в настоящее время задача поисковиков по этому вопросу формулируется (и, соответственно, имеет решение) проще - определить МАШИННЫЙ текст, а не только уникальный. А вот это решается намного проще.
цитата
18/07/06 в 01:40
 ags
гугл банит сайты с одинаковым контентом или понижает в рейтинге выдачи это можно найти на сэошных форумах или сайтах.
или я в чем-то ошибаюсь?
цитата
18/07/06 в 01:44
 ags
ICOOGLE Project
спасибо, а есть ссылки по теме?
цитата
18/07/06 в 02:14
 ICOOGLE Project
ags писал:
гугл банит сайты с одинаковым контентом или понижает в рейтинге выдачи это можно найти на сэошных форумах или сайтах.
или я в чем-то ошибаюсь?



Практика - единственный верный критерий истины. Пробуй и делай выводы.
Только лишь за дублированный текст не забанит, но дело в том, что сайт, использующий неуникальный или машинный текст, надёрганные снипеты и т.д. обладает массой других признаков дорвея, что приводит к бану или понижению в выдаче. Таким образом сказать, что за неуникальный текст банят - не верно, он лишь является одним из многих параметров, по которым можно вынести вердикт. Отсюда следует вывод №2 - зачем делать хороший текст, если всё равно забанят. Однако можно аргументировать тем, что уделив некоторое внимание (разумное по временным затратам на изготовление дорвея) тексту, бекам, хосту можно существенно продлить ему жизнь.


Сегалович
http://www.smotrite.ru/s28.shtml

Инвертированный индекс
http://www.siteman.ru/articles_18.html

Хмелёв (авторство по формальной модели Маркова)
http://www.philol.msu.ru/~lex/articles/grco_r.htm
цитата
18/07/06 в 03:38
 asgor
ags писал:
гугл банит сайты с одинаковым контентом или понижает в рейтинге выдачи это можно найти на сэошных форумах или сайтах.
или я в чем-то ошибаюсь?


Гугл не показывает дубли в серпе как яндекс.


Эта страница в полной версии