Master-X
Регистрация
|
Вход
Форум
|
Новости
|
Статьи
Главная
»
Форум
»
Программинг, Скрипты, Софт, Сервисы
»
Тема:
Как вытащить содержимое тэга title из хтмля?
Новая тема
Ответить
цитата
17/06/08 в 19:46
tasteart
Есть большая пачка урлов, вот из них нужно вытащить то, что написано в тэге тайтл и записать в файл (не важно какой - текстовый или эксель, например).
Есть ли какая-то софтина для этого?
Я в скриптах полный ноль, может это можно как-то просто реализовать.
Полазил в гугле - ничего не смог найти, похоже задаю не правильный поиск.
Подскажите, пожалуйста. ;)
Последний раз редактировалось: tasteart (
17/06/08 в 20:03
), всего редактировалось 2 раз(а)
цитата
17/06/08 в 19:57
localhost
простой вариант, примерно так:
Код:
<php
$urls=explode("\n",str_replace("\r",'',file_get_contents("urls.txt"))); # файл с урлами
$f=fopen("result.txt","w"); # сюды класть список тайтлов
foreach ($urls as $n=>$url) {
if (!preg_match("/<title>(.{0,120})<\/title>/iUs",file_get_contents($url),$u)) {
continue;
}
fputs($f,$u[1]);
unset($urls[$n]);
}
if (count($urls)>0) {
echo "не удалось обработать урлы:\n".join("\n",$urls)."\n";
}
echo "сделано!\n";
fclose($f)
?>
цитата
18/06/08 в 07:52
PlatonDW
У меня в свое время мозгов не хватило на мастере у localhosta спросить
делал так:
скачивал нужные урлы на комп с помощью offline explorer, потом прогой отсюда
http://www.soft.web-portfolio.ru
строится карта из страниц, можно настроить так, чтоб только титлы клались в txt
можно вместо OE пользовать доунлоадмастер - скармливаешь ему пачку урлов - он тебе html закачает на комп в папку.
цитата
18/06/08 в 08:04
dDan
localhost хорошее и понятное решение, а если символов большче чем 120 то тогда уже не сграбит
пусть уж будет лучше любым )
цитата
18/06/08 в 08:32
coder-code
Pastukhov Keyword Harvester Professional v20 попробуй. грабит различные теги, можно указать чтоб грабил тока тайтлы
цитата
08/07/08 в 08:08
tasteart
localhost:
спасибо большое.
Немного дополнил твой вариант - теперь тайтлы выводятся построчно.
Код:
<?php
$urls=explode("\n",str_replace("\r",'',file_get_contents("urls.txt"))); # файл с урлами
$f=fopen("result.txt","w"); # сюды класть список тайтлов
foreach ($urls as $n=>$url) {
if (!preg_match("/<title>(.{0,120})<\/title>/iUs",file_get_contents($url),$u)) {
continue;
}
fputs($f,$u[1]."\r\n");
unset($urls[$n]);
}
if (count($urls)>0) {
echo "не удалось обработать урлы:\n".join("\n",$urls)."\n";
}
echo "сделано!\n";
fclose($f)
?>
цитата
08/07/08 в 21:29
Sha
Особенно хорошо грабятся тайтлы внутри комментов
<!-- <title>Fake title</title> -->
Новая тема
Ответить
Эта страница в полной версии