Master-X
Форум | Новости | Статьи
Главная » Форум » Программинг, Скрипты, Софт, Сервисы » 
Тема: Как вытащить содержимое тэга title из хтмля?
цитата
17/06/08 в 19:46
 tasteart
Есть большая пачка урлов, вот из них нужно вытащить то, что написано в тэге тайтл и записать в файл (не важно какой - текстовый или эксель, например).
Есть ли какая-то софтина для этого?
Я в скриптах полный ноль, может это можно как-то просто реализовать.
Полазил в гугле - ничего не смог найти, похоже задаю не правильный поиск.
Подскажите, пожалуйста. ;)

Последний раз редактировалось: tasteart (17/06/08 в 20:03), всего редактировалось 2 раз(а)
цитата
17/06/08 в 19:57
 localhost
простой вариант, примерно так:
Код:

<php

$urls=explode("\n",str_replace("\r",'',file_get_contents("urls.txt")));  # файл с урлами
$f=fopen("result.txt","w"); # сюды класть список тайтлов

foreach ($urls as $n=>$url) {
   if (!preg_match("/<title>(.{0,120})<\/title>/iUs",file_get_contents($url),$u)) {
       continue;
   }
   fputs($f,$u[1]);
   unset($urls[$n]);
}

if (count($urls)>0) {
   echo "не удалось обработать урлы:\n".join("\n",$urls)."\n";
}

echo "сделано!\n";
fclose($f)
?>
цитата
18/06/08 в 07:52
 PlatonDW
У меня в свое время мозгов не хватило на мастере у localhosta спросить icon_smile.gif
делал так:
скачивал нужные урлы на комп с помощью offline explorer, потом прогой отсюда http://www.soft.web-portfolio.ru строится карта из страниц, можно настроить так, чтоб только титлы клались в txt
можно вместо OE пользовать доунлоадмастер - скармливаешь ему пачку урлов - он тебе html закачает на комп в папку.
цитата
18/06/08 в 08:04
 dDan
localhost хорошее и понятное решение, а если символов большче чем 120 то тогда уже не сграбит icon_sad.gif пусть уж будет лучше любым )
цитата
18/06/08 в 08:32
 coder-code
Pastukhov Keyword Harvester Professional v20 попробуй. грабит различные теги, можно указать чтоб грабил тока тайтлы
цитата
08/07/08 в 08:08
 tasteart
localhost: спасибо большое.
Немного дополнил твой вариант - теперь тайтлы выводятся построчно.
Код:
<?php

$urls=explode("\n",str_replace("\r",'',file_get_contents("urls.txt")));  # файл с урлами
$f=fopen("result.txt","w"); # сюды класть список тайтлов

foreach ($urls as $n=>$url) {
   if (!preg_match("/<title>(.{0,120})<\/title>/iUs",file_get_contents($url),$u)) {
       continue;
   }
   fputs($f,$u[1]."\r\n");
   unset($urls[$n]);
}

if (count($urls)>0) {
   echo "не удалось обработать урлы:\n".join("\n",$urls)."\n";
}

echo "сделано!\n";
fclose($f)
?>
цитата
08/07/08 в 21:29
 Sha
Особенно хорошо грабятся тайтлы внутри комментов
<!-- <title>Fake title</title> -->


Эта страница в полной версии