localhost
Recips Extractor - небольшой и простой сервис, который извлекает ресипы со страниц линклистов в автоматизческом режиме.
В очередной раз благополучно заебавшись извлекать вручную ресипы, мне пришла идея написать авто-потрошилку ресип_урлов.
Нагуглившись, я обнаружил, что удовлетворяющих меня програм не обнаружилось, поэтому пришлось все делать самому.
Как это работает:
берется энное количество урлов до ресип страниц, заносится в базу и нажимается кнопка "выпотрошить", скрипт обходит урлы, находит ресипы, извлекает, определяет нишы и сортирует в пределах линклиста. Результат записывает в txt-файл и создает отчет.
К примеру, для домена хоес.ком рехультат выглядит так:
Код:
Extracted recips for domain: hoes.com
Niche FETISH: 22
Niche STRAIGHT: 31
Niche GAY: 17
Unknown recips: 3
Updated: 13-03-2007 01:12
NICHE: FETISH
[* ANIME *]
<table cellpadding=0 cellspacing=1><tr><td bgcolor="darkblue"><table cellpadding=4 cellspacing=1><tr><td bgcolor="#dddddd"><table cellpadding=6 cellspacing=0><tr><td bgcolor="#ffffff" align=center><font face=verdana size=+1 color=darkpurple>*</font> <a href="http://www.hoes.com/anime.html" title="Hentai"><font face=arial size=+1 color=darkblue><b>Hentai</b></font></a> <font face=verdana size=+1 color=darkpurple>*</font></td></tr><tr><td align=center bgcolor="#eeeeee"><a href="http://www.hoes.com/"><font face=verdana size=-1 color=purple><b>Hoes.com Porn</b></font></a></td></tr></table></td></tr></table></td></tr></table>
[* BIG DICK *]
<table cellpadding=0 cellspacing=1><tr><td bgcolor="darkblue"><table cellpadding=4 cellspacing=1><tr><td bgcolor="#dddddd"><table cellpadding=6 cellspacing=0><tr><td bgcolor="#ffffff" align=center><font face=verdana size=+1 color=darkpurple>*</font> <a href="http://www.hoes.com/big-dick.html" title="Big Dick"><font face=arial size=+1 color=darkblue><b>Big Dick</b></font></a> <font face=verdana size=+1 color=darkpurple>*</font></td></tr><tr><td align=center bgcolor="#eeeeee"><a href="http://www.hoes.com/"><font face=verdana size=-1 color=purple><b>Hoes.com Porn</b></font></a></td></tr></table></td></tr></table></td></tr></table>
[* BIG TITS *]
<table cellpadding=0 cellspacing=1><tr><td bgcolor="darkblue"><table cellpadding=4 cellspacing=1><tr><td bgcolor="#dddddd"><table cellpadding=6 cellspacing=0><tr><td bgcolor="#ffffff" align=center><font face=verdana size=+1 color=darkpurple>*</font> <a href="http://www.hoes.com/big-tits.html" title="Big Tits"><font face=arial size=+1 color=darkblue><b>Big Tits</b></font></a> <font face=verdana size=+1 color=darkpurple>*</font></td></tr><tr><td align=center bgcolor="#eeeeee"><a href="http://www.hoes.com/"><font face=verdana size=-1 color=purple><b>Hoes.com Porn</b></font></a></td></tr></table></td></tr></table></td></tr></table>
скрипты распознают практически все ниши и корректно разносят ресипы по разделам, таким образом не приходится больше ковырятся на странице с рисипами, выковыривая нужные ниши.
Сервис задумывался изначально как автоматическая потрошилка ресип-страниц с проверкой на обновления ресипов и проверкой на дохлость сайтов.
Пока реализован первый шаг - автопотрошилка. На данный момент успешно потрошаться практически все страницы с текстовыми ресипами и извлекается 90% ресипов.
Наличествуют и баги - к примеру не всегда определеляется ниша "Teens", но это известная проблема...
Я приглашаю потестить сервис всех желающих и помочь в развитии проекта идеями, мыслями, замечаниями.
Я буду благодарен владельцам ЛЛ, которые пришлют мне инфу о своих ЛЛ в виде:
domain: домен.ком
submit_url: /субмит.хтмл
recip_url: /ресип.хтмл
таким образом попав в базу вы облегчите жизнь постерам - если у вас в ресипах произойдет изменение, то автопотрошилка прочекает это, скачает новые ресиипы и сделает апдейт и напишет в отчете. И любой желающий, зайдя на сайт увидит изменения и свободно скачает новые ресипы.
Второй идеей сервиса было создать автопарсер рулесов, чтобы отслеживать изменения в правилах постинга, данная функция реализована, но еще не подключена для тестирования.
На данный момент в тестовой базе 42 ЛЛ, из них 38 запарсены со статусом "Ок" и соответственно ихние ресипы доступны для скачивания.
урл экстрактора:
http:/recips.awmhost.org
пожелания, замечания, идеи прошу высказывать здесь или по аське.
localhost
переделан алгоритм распознования ниш, теперь нет "потерянных" ресипов, пересобран заново архив,
всего ЛЛ в базе: 53
из них со статусом "ОК" - 43
в рабочем плане:
сделать сортировку по дате, чтобы показывались сначала новые ЛЛ или те ЛЛ, ресипы которых были обновлены
сделать парсинг по нишам - собрать скажем отдельно все ниши из "Fetish" (доп.сортировка - по нишам) и выложить для раздачи
в будущем:
прикрутить рассылку емейлов - подписчики будут получать на емейл уведомления, если добавились или изменились ресипы в ЛЛ