Master-X
Регистрация
|
Вход
Форум
|
Новости
|
Статьи
Главная
»
Форум
»
Программинг, Скрипты, Софт, Сервисы
»
Тема:
Система защиты контента
Новая тема
Ответить
цитата
03/09/10 в 10:10
_s_[sov]
не знаю как и описать. вопщем может кто нить ссылочками поделиться или подскажет как реализовать
грамотно
следующее: есть сайт с очень насыщенным контентом. какая то блядь каждый день включает свой парсер и берет оттуда уник статьи. приходится по логам айпи вычислять и в файре блочить. руками заебало. ипы постоянно разные (каждый день но парсят с одного)
есть ли какая нить система или решение которое банит от парсинга? скажем если в течение 10 секунд 10 кликов то сразу посылаем нахуй. на пыхапе реализуемо и через файр тоже НО могут попасть яндекс и гугл. как то бы чтобы на них это не распространялось. просветите кто в теме, всем рейтинг по максимуму.
цитата
03/09/10 в 10:28
ibiz
яндекс и гугл ограничиваются директивой Crawl-delay: 5 в robots.txt
и можешь делать запрет на быстрые запросы большого кол-ва страниц
P.S. если не жалко поделись потом рнр скриптом
цитата
04/09/10 в 01:11
xreload
Для начала проще всего попробывать ставить куки, например, бол-во простых граберов их не хавают в принципе.
Проверяешь куки, если кук нет, то отдаешь любую левую страницу или страницу но с ссылками на свои сайты в тексте.
цитата
04/09/10 в 01:34
ibiz
кстати без кук поисковые боты очень туго и неохотно кушают контент, проверял 4 года назад на дорах, не знаю как сейчас
цитата
04/09/10 в 02:25
WebOldie
Зависит от того, что тебя конкретно беспокоит. Если тебя беспокоит исключительно возможность появления копий статей, то это уже не проблема в наше время. Google очень чётко отслеживает, кто публикует первый, а кто ворует. Даже если украдено через 10 мин после опубликования.
Я уже давно перестал бегать за такими IP и чувствую себя сухо и комфортно )
цитата
04/09/10 в 07:52
_s_[sov]
понятно что отслеживает но все равно не приятно.
про куки спасибо, всем поставил жирный +
кто еще что предложит?
цитата
04/09/10 в 11:16
atrius
geoip поставить и там смотреть кто пришел гугл или яндекс. если не поисковик пришел, то нах посылать быстрые запросы, а можно вместо обычного 403 генеренный бред выдавать =)
цитата
04/09/10 в 12:52
wopseo
Реально, никак нельзя защититься. Если захотят, в любом случае спарсят. Методов иммитации браузера/юзера очень много. А если еще и прокси подвязать, то вообще забудь про защиту.
Могу посоветовать только забанить прова, с которого он парсит или всю его подсеть, если он без прокси конечно работает.
цитата
04/09/10 в 12:54
_s_[sov]
wopseo:
ну да щас, приехали, все реально
atrius:
а что в гео айпи пишется гугл это или нет?
цитата
04/09/10 в 13:11
wopseo
_s_[sov] писал:
wopseo:
ну да щас, приехали, все реально
Смотри тогда не перемудри, это расценится как клоакинг
цитата
04/09/10 в 13:17
_s_[sov]
я боюсь просто чтобы не получилось так что система или скрипт забанил поисковик... эксперимент чета блять неохота проводить, неужто нет готовых решений?
цитата
04/09/10 в 14:00
ibiz
не понятно, что тебе не нравится ограничивать поисковики через Crawl-delay в robots.txt?
я сам использую эту директиву на крупных сайтах, индексируются нормально
цитата
04/09/10 в 14:50
WebOldie
Тут ещё такой момент присутствует ...
Многие сейчас парсят только несколько первых предложений из твоего текста, а дальше дают линк на тебя. Линк нормальный, без rel="nofollow".
Это типа такой обмен по умолчанию - ты на них не пишешь DMCA абузу Googly, они тебе линков пачку.
Если ты программно отсечешь их, то кучи линков недополучишь точно. Можно конечно сейчас начать рассуждать о полезности подобных линков, но я для себя давно решил - любой односторонний линк хорош.
цитата
04/09/10 в 19:59
leroy_17
_s_[sov] писал:
я боюсь просто чтобы не получилось так что система или скрипт забанил поисковик... эксперимент чета блять неохота проводить, неужто нет готовых решений?
Методами php нету решений . Имитировать браузер можно за 15 минут Он тебе и куки схавает и через прокси будет ходить и сделает задержку секунд в 50. Все что может увидеть пользователь ВСЕ можно стырить. Если начнешь пускать по User - agent поисковики то тебе за клоакинг забанят. Есть решение товарищей из сео области
вот этих
но оно по баблу затратное шибко будет
цитата
04/09/10 в 20:08
_s_[sov]
leroy_17:
да ну? вроде есть
цитата
04/09/10 в 21:29
wopseo
Ну так делай раз "вроде есть". Тебе ж сказали, чтоб ты не придумал вся твоя защита рухнет в 10 мин в руках нормального кодера.
цитата
05/09/10 в 08:17
_s_[sov]
wopseo:
я и спрашиваю как
грамотно
реализовать.
цитата
05/09/10 в 10:26
ibiz
wopseo писал:
Ну так делай раз "вроде есть". Тебе ж сказали, чтоб ты не придумал вся твоя защита рухнет в 10 мин в руках нормального кодера.
да ладно?
есть много вариантов защиты, которую не любой кодер "возьмет", например выдавать контент в защищенном pdf
цитата
05/09/10 в 12:33
wopseo
ibiz писал:
да ладно?
есть много вариантов защиты, которую не любой кодер "возьмет", например выдавать контент в защищенном pdf
А контент высылать гугл-ботам почтой в ДЦ с просьбой в хеш не ставить? ))
цитата
05/09/10 в 13:04
ibiz
wopseo писал:
А контент высылать гугл-ботам почтой в ДЦ с просьбой в хеш не ставить? ))
либо одно либо другое
любая защита от парсинга будет негативно влиять на сео
любую защиту от парсинга можно обойти
панацеи не существует
цитата
05/09/10 в 13:06
wopseo
ТС, есть один простой вариант, но нужно пробовать.
Большинство парсеров воруют контент со страницы обычным вырезанием от "признак1" до "признак2".
Так вот, можешь поместить свой контент внутри <div id='[random]'>контент</div>
И на пхп сделать так чтоб [random] был постоянно разным как по длине так и по значению.
Но тут надо пробовать.
цитата
05/09/10 в 13:07
_s_[sov]
wopseo:
обойти можно по длине текста между дивами
цитата
05/09/10 в 13:11
wopseo
_s_[sov] писал:
wopseo:
обойти можно по длине текста между дивами
Делать рандомную длину. Пробелами забить.
цитата
05/09/10 в 13:17
_s_[sov]
кароче ладно, хватит холиварить и перебирать варианты. по сути я так понял ничего не может никто сказать дельного, жаль
можно закрывать топик, буду банить руками
цитата
05/09/10 в 16:47
leroy_17
просто если кто то сможет сделать отдачу контента которую будет видно юзерам но которую не смогу я спарсить отдам ему 100$. Но такого нельзя будет сделать хоть ты в pdf хоть ты в чем отдавай. Если видно браузером пользователю то и сграбить всегда можно. Тут бан только по IP поможет и больше никак. Бань сетки ip. И зарубежные кроме USA, чтоб гугл незадеть.
Стр.
1
,
2
>
последняя »
Новая тема
Ответить
Эта страница в полной версии