Master-X
Регистрация
|
Вход
Форум
|
Новости
|
Статьи
Главная
»
Форум
»
Работа
»
Тема:
Нужно написать десктопный парсер google
Новая тема
Ответить
цитата
07/01/10 в 11:47
another hornet
Простой.
ICQ: 597299116
цитата
07/01/10 в 13:01
perlpunk
Парсинг результатов поиска?
Есть расширение под firefox для выдачи позиции сайта в поисковике. Интересует?
цитата
07/01/10 в 13:38
another hornet
Скрипт следующий. Я забиваю в парсер запрос, парсер проходит по первой тысяче результатов выдачи и собирает страницы с нужным мне PR. В скрипте должна быть строчка типа: "Собрать страницы с PR от
0
до
10
"
0 и 10 это выпадающие ячейки, как рейтинг на мастере, где я мог бы выбрать нужный мне диапазон ПР. Допустим 0-2 или 3-5. Потом нужные мне страницы парсер должен сохранять в блокнот.
цитата
07/01/10 в 14:41
sergio21
another hornet
, сразу могу тебе сказать, что такой парсер будет работать медленно. если проверять пр разных страниц, не делая между проверками определенные паузы, гугл в течение нескольких минут забанит твой IP на 2-3 часа.
имей это в виду, когда будешь составлять ТЗ для прогера.
цитата
07/01/10 в 15:00
another hornet
Спасибо, я учту.
цитата
07/01/10 в 15:10
CryptLine
sergio21 писал:
гугл в течение нескольких минут забанит твой IP на 2-3 часа.
В подписи можно выделенные ip купить за недорого
цитата
07/01/10 в 17:27
CmdJameson
попробую угадать ТЗ
используются стандартные компоненты C++/C#/Builder/Dephi/etc
грабинг гугля, парсинг -> результаты -> проверка с базой (нет ли недавно проверяшегося) -> обращение к датацентру гугла через колдунство с формулой ch - > сохранение результата в базу -> сверка -> вывод на экран/файл с определенной маской
и все это многопоточно или
а) на списке проксей загружаемых из какого либо источника в сети/локального файла (настраиваемо)
б) через грабинг и отбор рабочих с ряда сайтов (настраиваемо)
с отображением хода процесса и кол-вом рабочих проксей.
база текстовая
на выходе
исходники включая дистрибутивы компонентов + standalone билд без зависимостей от компонентов/библиотек
цитата
09/01/10 в 19:38
LeXik
another hornet писал:
Скрипт следующий. Я забиваю в парсер запрос, парсер проходит по первой тысяче результатов выдачи и собирает страницы с нужным мне PR. В скрипте должна быть строчка типа: "Собрать страницы с PR от
0
до
10
"
0 и 10 это выпадающие ячейки, как рейтинг на мастере, где я мог бы выбрать нужный мне диапазон ПР. Допустим 0-2 или 3-5. Потом нужные мне страницы парсер должен сохранять в блокнот.
ну тысячу результатов гугль фиг кому покажет, но если начать вариации разные и т.д. - то можно приблизиться - только кучу проксей нужно будет для многопоточного парсера, или дофига времени - чтобы гугль не банил ипшки. То же самое и с проверкой на ПР.
если эти нюансы понятны - то можешь в ПМ отписать поговорим о ТЗ и о цене.
цитата
09/01/10 в 19:54
another hornet
Спасибо, мне уже написали.
Новая тема
Ответить
Эта страница в полной версии