Master-X
Форум | Новости | Статьи
Главная » Форум » Программинг, Скрипты, Софт, Сервисы » 
Тема: Система защиты контента
цитата
03/09/10 в 10:10
 _s_[sov]
не знаю как и описать. вопщем может кто нить ссылочками поделиться или подскажет как реализовать грамотно следующее: есть сайт с очень насыщенным контентом. какая то блядь каждый день включает свой парсер и берет оттуда уник статьи. приходится по логам айпи вычислять и в файре блочить. руками заебало. ипы постоянно разные (каждый день но парсят с одного)

есть ли какая нить система или решение которое банит от парсинга? скажем если в течение 10 секунд 10 кликов то сразу посылаем нахуй. на пыхапе реализуемо и через файр тоже НО могут попасть яндекс и гугл. как то бы чтобы на них это не распространялось. просветите кто в теме, всем рейтинг по максимуму.
цитата
03/09/10 в 10:28
 ibiz
яндекс и гугл ограничиваются директивой Crawl-delay: 5 в robots.txt
и можешь делать запрет на быстрые запросы большого кол-ва страниц
P.S. если не жалко поделись потом рнр скриптом icon_smile.gif
цитата
04/09/10 в 01:11
 xreload
Для начала проще всего попробывать ставить куки, например, бол-во простых граберов их не хавают в принципе.
Проверяешь куки, если кук нет, то отдаешь любую левую страницу или страницу но с ссылками на свои сайты в тексте.
цитата
04/09/10 в 01:34
 ibiz
кстати без кук поисковые боты очень туго и неохотно кушают контент, проверял 4 года назад на дорах, не знаю как сейчас
цитата
04/09/10 в 02:25
 WebOldie
Зависит от того, что тебя конкретно беспокоит. Если тебя беспокоит исключительно возможность появления копий статей, то это уже не проблема в наше время. Google очень чётко отслеживает, кто публикует первый, а кто ворует. Даже если украдено через 10 мин после опубликования.
Я уже давно перестал бегать за такими IP и чувствую себя сухо и комфортно )
цитата
04/09/10 в 07:52
 _s_[sov]
понятно что отслеживает но все равно не приятно.
про куки спасибо, всем поставил жирный +
кто еще что предложит?
цитата
04/09/10 в 11:16
 atrius
geoip поставить и там смотреть кто пришел гугл или яндекс. если не поисковик пришел, то нах посылать быстрые запросы, а можно вместо обычного 403 генеренный бред выдавать =)
цитата
04/09/10 в 12:52
 wopseo
Реально, никак нельзя защититься. Если захотят, в любом случае спарсят. Методов иммитации браузера/юзера очень много. А если еще и прокси подвязать, то вообще забудь про защиту.

Могу посоветовать только забанить прова, с которого он парсит или всю его подсеть, если он без прокси конечно работает.
цитата
04/09/10 в 12:54
 _s_[sov]
wopseo: ну да щас, приехали, все реально
atrius: а что в гео айпи пишется гугл это или нет?
цитата
04/09/10 в 13:11
 wopseo
_s_[sov] писал:
wopseo: ну да щас, приехали, все реально


Смотри тогда не перемудри, это расценится как клоакинг icon_wink.gif
цитата
04/09/10 в 13:17
 _s_[sov]
я боюсь просто чтобы не получилось так что система или скрипт забанил поисковик... эксперимент чета блять неохота проводить, неужто нет готовых решений? icon_smile.gif
цитата
04/09/10 в 14:00
 ibiz
не понятно, что тебе не нравится ограничивать поисковики через Crawl-delay в robots.txt?
я сам использую эту директиву на крупных сайтах, индексируются нормально icon_smile.gif
цитата
04/09/10 в 14:50
 WebOldie
Тут ещё такой момент присутствует ...
Многие сейчас парсят только несколько первых предложений из твоего текста, а дальше дают линк на тебя. Линк нормальный, без rel="nofollow".
Это типа такой обмен по умолчанию - ты на них не пишешь DMCA абузу Googly, они тебе линков пачку.
Если ты программно отсечешь их, то кучи линков недополучишь точно. Можно конечно сейчас начать рассуждать о полезности подобных линков, но я для себя давно решил - любой односторонний линк хорош.
цитата
04/09/10 в 19:59
 leroy_17
_s_[sov] писал:
я боюсь просто чтобы не получилось так что система или скрипт забанил поисковик... эксперимент чета блять неохота проводить, неужто нет готовых решений? icon_smile.gif


Методами php нету решений . Имитировать браузер можно за 15 минут Он тебе и куки схавает и через прокси будет ходить и сделает задержку секунд в 50. Все что может увидеть пользователь ВСЕ можно стырить. Если начнешь пускать по User - agent поисковики то тебе за клоакинг забанят. Есть решение товарищей из сео области вот этих но оно по баблу затратное шибко будет
цитата
04/09/10 в 20:08
 _s_[sov]
leroy_17: да ну? вроде есть
цитата
04/09/10 в 21:29
 wopseo
Ну так делай раз "вроде есть". Тебе ж сказали, чтоб ты не придумал вся твоя защита рухнет в 10 мин в руках нормального кодера.
цитата
05/09/10 в 08:17
 _s_[sov]
wopseo: я и спрашиваю как грамотно реализовать.
цитата
05/09/10 в 10:26
 ibiz
wopseo писал:
Ну так делай раз "вроде есть". Тебе ж сказали, чтоб ты не придумал вся твоя защита рухнет в 10 мин в руках нормального кодера.


да ладно?
есть много вариантов защиты, которую не любой кодер "возьмет", например выдавать контент в защищенном pdf
цитата
05/09/10 в 12:33
 wopseo
ibiz писал:
да ладно?
есть много вариантов защиты, которую не любой кодер "возьмет", например выдавать контент в защищенном pdf


А контент высылать гугл-ботам почтой в ДЦ с просьбой в хеш не ставить? ))
цитата
05/09/10 в 13:04
 ibiz
wopseo писал:
А контент высылать гугл-ботам почтой в ДЦ с просьбой в хеш не ставить? ))


либо одно либо другое
любая защита от парсинга будет негативно влиять на сео
любую защиту от парсинга можно обойти
панацеи не существует smail101.gif
цитата
05/09/10 в 13:06
 wopseo
ТС, есть один простой вариант, но нужно пробовать.
Большинство парсеров воруют контент со страницы обычным вырезанием от "признак1" до "признак2".

Так вот, можешь поместить свой контент внутри <div id='[random]'>контент</div>

И на пхп сделать так чтоб [random] был постоянно разным как по длине так и по значению.

Но тут надо пробовать.
цитата
05/09/10 в 13:07
 _s_[sov]
wopseo: обойти можно по длине текста между дивами
цитата
05/09/10 в 13:11
 wopseo
_s_[sov] писал:
wopseo: обойти можно по длине текста между дивами


Делать рандомную длину. Пробелами забить.
цитата
05/09/10 в 13:17
 _s_[sov]
кароче ладно, хватит холиварить и перебирать варианты. по сути я так понял ничего не может никто сказать дельного, жаль icon_sad.gif

можно закрывать топик, буду банить руками smail101.gif
цитата
05/09/10 в 16:47
 leroy_17
просто если кто то сможет сделать отдачу контента которую будет видно юзерам но которую не смогу я спарсить отдам ему 100$. Но такого нельзя будет сделать хоть ты в pdf хоть ты в чем отдавай. Если видно браузером пользователю то и сграбить всегда можно. Тут бан только по IP поможет и больше никак. Бань сетки ip. И зарубежные кроме USA, чтоб гугл незадеть.
Стр. 1, 2  >  последняя »


Эта страница в полной версии