Master-X
Форум | Новости | Статьи
Главная » Форум » Программинг, Скрипты, Софт, Сервисы » 
Тема: Как пропарсить список сайтов нв наличие кода в страницах?
цитата
15/12/10 в 00:13
 Vyacheslav
Например есть 2 доменов.
Хочется проверить наличие на них вхождения строки текста. Естественно на всех страницах сайта.
цитата
15/12/10 в 17:24
 allchange
ну как, надо выкачать сайт wget -m потом парсим все подряд хтмл файлы в папке с зеркалом
цитата
15/12/10 в 17:58
 SAV
можно научить пхп-паучка обойти все попавшиеся внутренние ссылки, не такой уж большой алгоритм
цитата
16/12/10 в 00:17
 Vyacheslav


А готового такого паучка нет?
Поисковые системы под это дело запрячь никак нельзя?
цитата
16/12/10 в 01:48
 Bruno
В ручную переписать хтмл сайта еще никто не советовал?:-))

Вячеслав, у админов узнай, в юниксе есть поиск по файлу, напиши код (что искать) и они напишут команду, просканишь из шела свой сайт.

UPD: типа этого имелось ввиду http://linux-ru.blogspot.com/2006/12/find-linux.html
А еще можно углубиться и искать в скамих страницах по расширению опр. код.
цитата
16/12/10 в 19:18
 adminZ
allchange писал:
ну как, надо выкачать сайт wget -m потом парсим все подряд хтмл файлы в папке с зеркалом


Ну это если сайт чужой ))
а если он свой и лежит на твоем сервере то зачем его тянуть вгетом, логинся по ssh и grep -Ri 'что искать' *
цитата
16/12/10 в 20:08
 ibiz
adminZ писал:
Ну это если сайт чужой ))
а если он свой и лежит на твоем сервере то зачем его тянуть вгетом, логинся по ssh и grep -Ri 'что искать' *


smail101.gif
попробуй на wp сайте, к примеру, такое проделать, уверен результат будет отрицательным smail101.gif
цитата
16/12/10 в 20:16
 Vyacheslav
Да, дело в том, что некоторые куски html кода могут быть в базе данных или в каких-либо хитрых темплейтах..
цитата
17/12/10 в 03:31
 adminZ


запусти
cd /
grep -Ri 'что искать' *
(тоесть и в базах и вобще на всем винте)
если гдето есть то найдет


Эта страница в полной версии