Master-X
Форум | Новости | Статьи
Главная » Форум » Программинг, Скрипты, Софт, Сервисы » 
Тема: Парсер яндекс маркета на cURL
цитата
06/10/15 в 11:21
 Lexikon
Вчера потребовалось спарсить название одной категории товаров. Исключительно название товаров. Яндекс маркет разрешает папсить только 9-10 страниц, затем (302) снова примерно через 30 минут можно начать парсить, но вот если перезапускаю роутер (IP при этом остается), можно снова спарсить.
Возник вопрос, что именно может удаляться и тем самым позволяет снова парсить?


      $ch = curl_init();
      
      curl_setopt($ch, CURLOPT_URL, $linkToContent);
      curl_setopt($ch, CURLOPT_REFERER, $urlReferer);
      curl_setopt($ch, CURLOPT_USERAGENT, $useragent);
      curl_setopt($ch, CURLOPT_COOKIESESSION, TRUE);
      //curl_setopt($ch, CURLOPT_HTTPHEADER, array('Expect:'));
      curl_setopt($ch, CURLOPT_COOKIE, 'тут прописаны данные из кукисов браузера');      
      curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
      curl_setopt($ch, CURLOPT_HEADER, 0);
      curl_setopt($ch, CURLOPT_COOKIEJAR, 'COOKIE.txt');
      curl_setopt($ch, CURLOPT_COOKIEFILE, 'COOKIE.txt');
      curl_setopt($ch, CURLOPT_SSL_VERIFYHOST,0);
      curl_setopt($ch, CURLOPT_SSL_VERIFYPEER,0);


И еще один вопросик
Код:
curl_setopt($ch, CURLOPT_COOKIEFILE, 'COOKIE.txt');


как можно получить содержимое 'COOKIE.txt' ?
цитата
06/10/15 в 12:43
 cKot
trollface.png unlink? перезапуск php скрипта?
цитата
06/10/15 в 14:15
 IgorZ
А куда редиректит 302 ? что в Location ?
сколько парсил, капчами замучил но точно не банил.
цитата
06/10/15 в 17:55
 Lexikon
gcc писал:
А куда редиректит 302 ? что в Location ?
сколько парсил, капчами замучил но точно не банил.

Спасибо за наводку icon_smile.gif
Я тупанул, и не глянул в Location, а там вот это:
Код:
Получается он просит у ввести капчу.
цитата
07/10/15 в 01:12
 johndoe2
Lexikon писал:


И еще один вопросик
Код:
curl_setopt($ch, CURLOPT_COOKIEFILE, 'COOKIE.txt');


как можно получить содержимое 'COOKIE.txt' ?


COOKIE.txt по настройкам (CURLOPT_COOKIEJAR,CURLOPT_COOKIEFILE) лежит в рабочем каталоге скрипта.

CURLOPT_COOKIEFILE = откуда читать куки
CURLOPT_COOKIEJAR = куда писать куки


Эта страница в полной версии