Master-X
Регистрация
|
Вход
Форум
|
Новости
|
Статьи
Главная
»
Форум
»
Программинг, Скрипты, Софт, Сервисы
»
Тема:
PHP spider
Новая тема
Ответить
цитата
22/06/10 в 13:07
FXIX
кто что юзает толковое, подскажите плз
цитата
22/06/10 в 13:34
Dr.Syshalt
Кто ж пишет спайдеры на PHP? Это как сайты делать на голом C++, только наоборот ))
Удачи в поисках, конечно, но что я видел хорошее - оно либо на C, либо на Java. PHP там уже упирается в свои ограничения очень быстро.
цитата
22/06/10 в 14:10
FXIX
потерто
Последний раз редактировалось: FXIX (
22/06/10 в 15:44
), всего редактировалось 1 раз
цитата
22/06/10 в 14:15
x123p
А можете вообще подсказать что спайдер делает? Это просто утилитка ползающая и что-то сканящая? если да то конечно на PHP не стоит такое писать, хотя если только для тренировки. Я бы смотрел в сторону Java
цитата
22/06/10 в 14:16
leroy_17
чет мне кажется что такого нету на php или у кого есть тот врятли даст , такой функционал скорее всего во всяких оффлайн explorer и прочих подобных прогах. На php такое только под заказ
цитата
22/06/10 в 14:26
Dr.Syshalt
FXIX писал:
На дедике CLI ни во что ни упирается вроде.
Конечно, ни во что - кроме объема доступной памяти и производительности CPU ))
Спайдер - тяжелая по определению задача, много потоков, рекурсивный разбор. Почему, скажем, игры на PHP не пишут?
Почитай статью
http://en.wikipedia.org/wiki/Web_crawler
Там и список софта есть. На PHP не найдешь. Человек, который способен спайдер написать хороший, PHP себя ограничивать не станет, а это было бы единственным аргументом - "больше я ничего не знаю".
цитата
22/06/10 в 15:18
FXIX
потерто
Последний раз редактировалось: FXIX (
22/06/10 в 15:44
), всего редактировалось 1 раз
цитата
22/06/10 в 15:31
Stek
А в чем вообще проблема использовать wget и далее с пхп парсить уже полученный результат.
цитата
22/06/10 в 15:34
x123p
Как небольшое решение мот подойдёт: попробуй на сайты постучать по такому адресу:
http://site.com/sitemap.xml
Я думаю что в достаточно большом проценте случаев тебя ждёт удача ;-)
цитата
22/06/10 в 15:44
FXIX
xp-ViT:
угу, предварительно чекнуть на наличие сайтмапа. если нет то вгет пускать. настроить только ума бы хватило
.
всем спасибо пацаны
. репу въебал по полной
цитата
22/06/10 в 15:44
Dr.Syshalt
Да возьми нормального спайдера - тот же htdig, прочти документацию, поищи по гуглу "htdig php", сразу кучу всего найдешь, как их совместно использовать. Зачем велосипед изобретать? Зачем тебе обязательно, чтобы сам енджин был на PHP? То, что сам PHP на C написан - тебя же не смущает, надеюсь?
цитата
22/06/10 в 15:55
FXIX
пасиб. посмотрю
Новая тема
Ответить
Эта страница в полной версии