Master-X
Форум | Новости | Статьи
Главная » Форум » Программинг, Скрипты, Софт, Сервисы » 
Тема: Подскажите по парсингу
цитата
01/08/13 в 09:05
 Lexikon
как спарсить что то одно я знаю как, но вот если нужно спарсить то что повторяется несколько раз на сранице, к примеру:
<div id="text"><p>text1</p></div>
<div id="text"><p>text2</p></div>
<div id="text"><p>text3</p></div>
и мне нужно выдернуть то что находится в <p></p>
как это зациклить не соображу.

за ранее благодарен.
цитата
01/08/13 в 09:32
 Lexikon
и еще такой момент, есть сайты которые не дают парсить, отображается страница с просьбой включить куки. icon_confused.gif
как обойти?
Я паршу не Курлом, а прочтением страницы в строку, а там уже достаю что нужно
по типу
$dataPage = file_get_contents($urlContent);
цитата
01/08/13 в 09:54
 Yacc
Lexikon писал:
отображается страница с просьбой включить куки. как обойти?

Очевидно нужно послать куки: http://php.net/manual/ru/function.stream-context-create.php
цитата
01/08/13 в 10:02
 Lexikon
я подключил класс Snoopy.class.php
всё заработало, сейчас гляну что по ссылке.
теперь остается вопрос как пройтись и вытащить всё что находится в <div id="text"><p>text1</p></div>
цитата
01/08/13 в 11:06
 freeek
Код:
$text = '<div id="text"><p>text1</p></div>
<div id="text"><p>text2</p></div>
<div id="text"><p>text3</p></div>';

preg_match_all('%(?<=div id="text").*<p>([^>]*)</p>%isU', $text, $match);

echo '<pre>', print_r($match[1], true), '</pre>';



или парсер https://code.google.com/p/ganon/
цитата
01/08/13 в 12:50
 Smarty
Я вот такой "браузер" для парсинга часто использую -довольно удобно
simpletest.org/en/browser_documentation.html


Эта страница в полной версии