FXIX
нормальный парсер и куки жрет и между запросами rand(n,m) секунд делает и рандомный юзерагент сует и ссылки на домен вырезает на лету
. и до кучи стоп-слова (копирайт и прочая хуйня) режет чистит текст от левых тегов (не участвующих непосредственно в форматировании текста) а у остальных вырезает id/class а еще распознает мусор типа полей ввода форм итд.
wopseo писал:
Так вот, можешь поместить свой контент внутри <div id='[random]'>контент</div>
И на пхп сделать так чтоб [random] был постоянно разным как по длине так и по значению.
это похуй. позиционные проверки никто не отменял
. "div.contents div.article div" и какой там id у последнего дива - не ебет. И до кучи проверка на максимальную "смысловую длинну". Все теги (или не все а только в контентной части, если верстка позволяет) проверяются на максимальную символьную длинну (без учета пробелов, и ссылок (для случая супер-пупер длинных блогроллов итд)) и забирается самый длинный (т.е. в котором пост лежит), с учетом наличия грамматических признаков именно текста (а не громадного облака тегов например).
По идеи защититься нельзя, один раз пол-года назад натыкался на js-решение, у Котерова на форуме вроде. там помниться что-то очень простое но очень эффективное. гугли.
atrius писал:
geoip поставить и там смотреть кто пришел гугл или яндекс. если не поисковик пришел, то нах посылать быстрые запросы, а можно вместо обычного 403 генеренный бред выдавать =)
угу. у гугла стопицот пауков. за клоагинг в клоагинг и засунет сразу