Master-X
Форум | Новости | Статьи
Главная » Форум » Программинг, Скрипты, Софт, Сервисы » 
Тема: Done. Was Нужно написать на php+mysql парсер html
цитата
09/09/09 в 08:17
 pns
Был написан сайт в MS Word(!) .

Нужно написать на php парсер htm-файлов с тем, чтобы удалить из них всё лишнее, что напихал туда MS word.

Пример файлов: http://voyeurmania.info/file2compile.htm

Срочность: очень срочно.
Сложность скрипта: не очень сложный.
Срок работы 1-7 дней.
Оплата 60wmz по факту сдачи работы.

Техническое задание.

  • отсканировать вложенную структуру каталогов (до 2 уровней вложенности);
  • распарсить имеющиеся там htm файлы;
  • провести замену пробелов в именах файлов и каталогов и создать каталоги и файлы с новыми именами (без пробелов); файлы создавать по заданному шаблону; в htm-файлы поменять ссылки на файлы уже без проблелов в имени;
  • найти в файлах теги <title> и занести в mysql-базу имена файлов и их <title>, проверяя уникальность файлов в базе; обновить записи, если в файлах произошли изменения;
  • создать sitemap с учетом дат изменившихся с прошлого парсинга файлов.


Предложения на 213769924 или take AT voyeurmania.info

Последний раз редактировалось: pns (10/09/09 в 07:08), всего редактировалось 1 раз
цитата
09/09/09 в 09:29
 ibiz
скажите кодеры, скрипт действительно "не очень сложный"?
цитата
09/09/09 в 10:48
 Lamagro
действительно не сложный
цитата
09/09/09 в 11:53
 atrius
скрипт не сложный, бюджет смешной =)
цитата
09/09/09 в 11:55
 ibiz
atrius писал:
скрипт не сложный, бюджет смешной =)


нет, именно оплата/затраты труда, 60вмз это 2-3-4 часа работы нормального прогера...
цитата
09/09/09 в 15:31
 pns
и что, флейм есть работы нет? тут кодеры или публицисты?
цитата
09/09/09 в 19:45
 LeXik
ну скажем так - если только на примере этого файлика удалять ненужное (кста ненужное все понимают по разному ;) ), писать пачку замен строк (кстати надеюсь в остальных файликах это ненужное такое же, а не измененное), то это просто... а вот когда начинаются изменения - тут придется поломать не только голову ;) так что насчет сложности можно и поспорить... пиши в пм если у тебя все однотипное, но писать универсалку по чистке хтмл... эт будет достаточно дороже ;) особенно если придерживаться какого либо конкретного стандарта ;)

зы. от балды попробовал macromedia dreamweaver - чистку хтмл - получается почти прилично ;) посмотри в эту сторону и экономь деньги ;)
Код:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv=Content-Type content="text/html; charset=windows-1251">
<link rel=Edit-Time-Data href="./index.files/editdata.mso">
<title></title>
<style>
----вырезано--------
<body bgcolor="#FFFFFF" link=gray vlink=purple lang=RU>
<div class=Section1>
  <table border=1 cellspacing=0 cellpadding=0 width="100%">
    <tr>
      <td width="100%" valign=top><p align=center style='text-align:center;'><span
  style='font-size:28.0pt;'><img width=780 height=356
  src="./index.files/image001.jpg" v:shapes="_x0000_i1025"></span></p></td>
    </tr>
  </table>
  <p align=center style='text-align:center'><b><span
style='font-size:18.0pt;color:blue'>СЕЗОН 2009 ГОДА</span></b></p>
  <p align=center style='text-align:center'><b><span
style='color:red'>Мужчины</span></b></p>
  <table border=0 cellspacing=0 cellpadding=0 width="100%">
    <tr>
      <td width="28%" colspan=3 valign=top bgcolor="#B3B3B3"><p align=center style='text-align:center'><b><span
  style='color:white'>Чемпионат</span></b></p></td>
      <td width="28%" valign=top bgcolor="#B3B3B3"><p align=center style='text-align:center'><b><span
  style='color:white'>Кубок</span></b></p></td>
      <td width="43%" valign=top bgcolor="#B3B3B3"><p align=center style='text-align:center'><b><span
  style='color:white'>Турниры</span></b></p></td>
    </tr>
    <tr>
      <td width="28%" colspan=3 valign=top><p><b><span style='font-size:12.0pt;  color:blue'><a href="2009\Chempionat2009\Reglament.htm">Регламент
          соревнований</a></span></b></p></td>
      <td width="28%" valign=top><p class=MsoHeader><span
  style='font-size:12.0pt;'><a
  href="2009\Kubok2009\Kubok-16.htm">Результаты 1/16 финала</a></span></p></td>
      <td width="43%" valign=top><p><span style='font-size:12.0pt;  color:windowtext'><a href="2009\Snegovik2009\Snegovik2009.htm">Турнир
          «Снеговик»</a></span></p></td>
    </tr>
    <tr>
      <td width="28%" colspan=3 valign=top><p><b><span style='font-size:12.0pt;  color:windowtext'><a href="2009\Chempionat2009\Sostav\2009zk.htm">Заявки
          команд</a></span></b></p></td>
      <td width="28%" valign=top><p><span style='font-size:12.0pt;  color:windowtext'><a href="2009\Kubok2009\Kubok-08.htm">Результаты 1/8 финала</a></span></p></td>
      <td width="43%" valign=top><p><span style='font-size:12.0pt;  color:windowtext'><a href="2009\Turnir2009\Belev2009.htm">Турнир в Белеве</a></span></p></td>
    </tr>
----вырезано----
</body>
</html>

вот такого типа что то получается на выходе
цитата
09/09/09 в 22:02
 alex.raven
ibiz писал:

нет, именно оплата/затраты труда, 60вмз это 2-3-4 часа работы нормального прогера...


поддерживаю. но можно ли эту задачу впихнуть в 2-3-4 часа?
цитата
10/09/09 в 04:12
 -puika-
http://textkit.ru/download/

Работа с textKit Free подразумевает три стадии.
Стадия импорта:
простой импорт html файлов
простой импорт html Word
простой импорт xml файлов (RSS/Atom)
простой импорт WXR (Wordpress)
простой импорт txt файлов
очистка контента от мусора (полезна при импорте из Word)
гибкая настраиваемая очистка грязного html кода (можно указать, что чистить, а что нет и т.д.)
удобные поиск и замена на стадии импорта
поддержка метода Drag&Drop для импортируемых файлов
запуск с командной строки
ассоциация файлов проектов с программой
простой, но умный текстовый редактор записей/страниц (только часто используемые теги)
кнопка форматирования html кода (удаление лишних пробелов, перенос строк, свободного пространства, там где оно не нужно)
окно быстрого визуального просмотра проделанной работы
простая вставка картинок в редактор записей (с возможностью изменить размер картинки с сохранением пропорции, указать выравнивание и мета теги)
простое управление списком записей
два вида записей: посты и страницы
неограниченная вложенность рубрик и страниц
возможность добавлять новые рубрики, посты и страницы на стадии редактирования
случайный разброс постов по указанным рубрикам (очень полезно, если категорий нет, но их надо быстро добавить)
возможность переносить записи из рубрики в рубрику методом Drag&Drop
возможность вставлять рубрику в рубрику методом Drag&Drop (неограниченная вложенность для рубрик)
простой разброс записей по диапазону дат (автодата)
планирование записей на будущее (создание автонаполняемых проектов)
простое добавление меток для записей
перелинковка записей
удаление всех меток одной кнопкой
автоматически настраиваемая вставка тега <!--more-->
возможность сохранять и загружать проект
сохранение всех основных настроек
подробная статистика (сколько статей, рубрик, меток, количество знаков, среднее количество знаков)
Стадия экспорта:
экспорт в Wordpress
экспорт в RSS 2.0
экспорт в HTML
экспорт в Zebrum Lite

в платной
экспорт в Joomla
удалённая публикация, экспорт в Blogger и Rumba
неограниченный импорт любых файлов (пакетный или массовый импорт HTML, TXT, XML, Word HTML)!
полная автоматизация процесса вёрстки сайта (релевантные автометки, продвинутая автодата с множеством настроек, релевантные автокатегории, продвинутые автокартинки)!
экспорт практически в любой движок!
цитата
10/09/09 в 06:28
 W
Чистильщиков кода валом, но если внимательнее прочитать тз, о становится понятно, почему они не подходят.

Для нормально проггера останется из 2-3-4 часов еще время книжку почитать и кофе выпить. Другое дело, как правило "толковые проггеры" на такие вещи отвлекаться не будут. Думаю нужно глянуть в сторону фрилансеров с таким бюджетом.
цитата
10/09/09 в 07:07
 pns
тема закрыта, кодер найден.


Эта страница в полной версии