Система защиты контента, страница 2

Главная » Форум » Программинг, Скрипты, Софт, Сервисы »

Тема: Система защиты контента

цитата
14/09/10 в 19:13

FXIX
нормальный парсер и куки жрет и между запросами rand(n,m) секунд делает и рандомный юзерагент сует и ссылки на домен вырезает на лету

. и до кучи стоп-слова (копирайт и прочая хуйня) режет чистит текст от левых тегов (не участвующих непосредственно в форматировании текста) а у остальных вырезает id/class а еще распознает мусор типа полей ввода форм итд.

wopseo писал:

Так вот, можешь поместить свой контент внутри <div id='[random]'>контент</div>
И на пхп сделать так чтоб [random] был постоянно разным как по длине так и по значению.

это похуй. позиционные проверки никто не отменял

. "div.contents div.article div" и какой там id у последнего дива - не ебет. И до кучи проверка на максимальную "смысловую длинну". Все теги (или не все а только в контентной части, если верстка позволяет) проверяются на максимальную символьную длинну (без учета пробелов, и ссылок (для случая супер-пупер длинных блогроллов итд)) и забирается самый длинный (т.е. в котором пост лежит), с учетом наличия грамматических признаков именно текста (а не громадного облака тегов например).
По идеи защититься нельзя, один раз пол-года назад натыкался на js-решение, у Котерова на форуме вроде. там помниться что-то очень простое но очень эффективное. гугли.

atrius писал:

geoip поставить и там смотреть кто пришел гугл или яндекс. если не поисковик пришел, то нах посылать быстрые запросы, а можно вместо обычного 403 генеренный бред выдавать =)

угу. у гугла стопицот пауков. за клоагинг в клоагинг и засунет сразу

цитата
15/09/10 в 17:08

leroy_17
сразу видно, набил руку на парсерах

Стр. « первая < 1, 2

Новая тема Ответить

Эта страница в полной версии