Master-X
Форум | Новости | Статьи
Главная » Форум » Работа » 
Тема: Нужно написать десктопный парсер google
цитата
07/01/10 в 11:47
 another hornet
Простой.
ICQ: 597299116
цитата
07/01/10 в 13:01
 perlpunk
Парсинг результатов поиска?
Есть расширение под firefox для выдачи позиции сайта в поисковике. Интересует?
цитата
07/01/10 в 13:38
 another hornet
Скрипт следующий. Я забиваю в парсер запрос, парсер проходит по первой тысяче результатов выдачи и собирает страницы с нужным мне PR. В скрипте должна быть строчка типа: "Собрать страницы с PR от 0 до 10"
0 и 10 это выпадающие ячейки, как рейтинг на мастере, где я мог бы выбрать нужный мне диапазон ПР. Допустим 0-2 или 3-5. Потом нужные мне страницы парсер должен сохранять в блокнот.
цитата
07/01/10 в 14:41
 sergio21
another hornet, сразу могу тебе сказать, что такой парсер будет работать медленно. если проверять пр разных страниц, не делая между проверками определенные паузы, гугл в течение нескольких минут забанит твой IP на 2-3 часа.
имей это в виду, когда будешь составлять ТЗ для прогера.
цитата
07/01/10 в 15:00
 another hornet
Спасибо, я учту.
цитата
07/01/10 в 15:10
 CryptLine
sergio21 писал:
гугл в течение нескольких минут забанит твой IP на 2-3 часа.

В подписи можно выделенные ip купить за недорого
цитата
07/01/10 в 17:27
 CmdJameson
попробую угадать ТЗ icon_smile.gif

используются стандартные компоненты C++/C#/Builder/Dephi/etc

грабинг гугля, парсинг -> результаты -> проверка с базой (нет ли недавно проверяшегося) -> обращение к датацентру гугла через колдунство с формулой ch - > сохранение результата в базу -> сверка -> вывод на экран/файл с определенной маской


и все это многопоточно или

а) на списке проксей загружаемых из какого либо источника в сети/локального файла (настраиваемо)
б) через грабинг и отбор рабочих с ряда сайтов (настраиваемо)

с отображением хода процесса и кол-вом рабочих проксей.

база текстовая

на выходе

исходники включая дистрибутивы компонентов + standalone билд без зависимостей от компонентов/библиотек
цитата
09/01/10 в 19:38
 LeXik
another hornet писал:
Скрипт следующий. Я забиваю в парсер запрос, парсер проходит по первой тысяче результатов выдачи и собирает страницы с нужным мне PR. В скрипте должна быть строчка типа: "Собрать страницы с PR от 0 до 10"
0 и 10 это выпадающие ячейки, как рейтинг на мастере, где я мог бы выбрать нужный мне диапазон ПР. Допустим 0-2 или 3-5. Потом нужные мне страницы парсер должен сохранять в блокнот.

ну тысячу результатов гугль фиг кому покажет, но если начать вариации разные и т.д. - то можно приблизиться - только кучу проксей нужно будет для многопоточного парсера, или дофига времени - чтобы гугль не банил ипшки. То же самое и с проверкой на ПР.

если эти нюансы понятны - то можешь в ПМ отписать поговорим о ТЗ и о цене.
цитата
09/01/10 в 19:54
 another hornet
Спасибо, мне уже написали.


Эта страница в полной версии