LeXik
ну скажем так - если только на примере этого файлика удалять ненужное (кста ненужное все понимают по разному ;) ), писать пачку замен строк (кстати надеюсь в остальных файликах это ненужное такое же, а не измененное), то это просто... а вот когда начинаются изменения - тут придется поломать не только голову ;) так что насчет сложности можно и поспорить... пиши в пм если у тебя все однотипное, но писать универсалку по чистке хтмл... эт будет достаточно дороже ;) особенно если придерживаться какого либо конкретного стандарта ;)
зы. от балды попробовал macromedia dreamweaver - чистку хтмл - получается почти прилично ;) посмотри в эту сторону и экономь деньги ;)
Код:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv=Content-Type content="text/html; charset=windows-1251">
<link rel=Edit-Time-Data href="./index.files/editdata.mso">
<title></title>
<style>
----вырезано--------
<body bgcolor="#FFFFFF" link=gray vlink=purple lang=RU>
<div class=Section1>
<table border=1 cellspacing=0 cellpadding=0 width="100%">
<tr>
<td width="100%" valign=top><p align=center style='text-align:center;'><span
style='font-size:28.0pt;'><img width=780 height=356
src="./index.files/image001.jpg" v:shapes="_x0000_i1025"></span></p></td>
</tr>
</table>
<p align=center style='text-align:center'><b><span
style='font-size:18.0pt;color:blue'>СЕЗОН 2009 ГОДА</span></b></p>
<p align=center style='text-align:center'><b><span
style='color:red'>Мужчины</span></b></p>
<table border=0 cellspacing=0 cellpadding=0 width="100%">
<tr>
<td width="28%" colspan=3 valign=top bgcolor="#B3B3B3"><p align=center style='text-align:center'><b><span
style='color:white'>Чемпионат</span></b></p></td>
<td width="28%" valign=top bgcolor="#B3B3B3"><p align=center style='text-align:center'><b><span
style='color:white'>Кубок</span></b></p></td>
<td width="43%" valign=top bgcolor="#B3B3B3"><p align=center style='text-align:center'><b><span
style='color:white'>Турниры</span></b></p></td>
</tr>
<tr>
<td width="28%" colspan=3 valign=top><p><b><span style='font-size:12.0pt; color:blue'><a href="2009\Chempionat2009\Reglament.htm">Регламент
соревнований</a></span></b></p></td>
<td width="28%" valign=top><p class=MsoHeader><span
style='font-size:12.0pt;'><a
href="2009\Kubok2009\Kubok-16.htm">Результаты 1/16 финала</a></span></p></td>
<td width="43%" valign=top><p><span style='font-size:12.0pt; color:windowtext'><a href="2009\Snegovik2009\Snegovik2009.htm">Турнир
«Снеговик»</a></span></p></td>
</tr>
<tr>
<td width="28%" colspan=3 valign=top><p><b><span style='font-size:12.0pt; color:windowtext'><a href="2009\Chempionat2009\Sostav\2009zk.htm">Заявки
команд</a></span></b></p></td>
<td width="28%" valign=top><p><span style='font-size:12.0pt; color:windowtext'><a href="2009\Kubok2009\Kubok-08.htm">Результаты 1/8 финала</a></span></p></td>
<td width="43%" valign=top><p><span style='font-size:12.0pt; color:windowtext'><a href="2009\Turnir2009\Belev2009.htm">Турнир в Белеве</a></span></p></td>
</tr>
----вырезано----
</body>
</html>
вот такого типа что то получается на выходе
-puika-
http://textkit.ru/download/
Работа с textKit Free подразумевает три стадии.
Стадия импорта:
простой импорт html файлов
простой импорт html Word
простой импорт xml файлов (RSS/Atom)
простой импорт WXR (Wordpress)
простой импорт txt файлов
очистка контента от мусора (полезна при импорте из Word)
гибкая настраиваемая очистка грязного html кода (можно указать, что чистить, а что нет и т.д.)
удобные поиск и замена на стадии импорта
поддержка метода Drag&Drop для импортируемых файлов
запуск с командной строки
ассоциация файлов проектов с программой
простой, но умный текстовый редактор записей/страниц (только часто используемые теги)
кнопка форматирования html кода (удаление лишних пробелов, перенос строк, свободного пространства, там где оно не нужно)
окно быстрого визуального просмотра проделанной работы
простая вставка картинок в редактор записей (с возможностью изменить размер картинки с сохранением пропорции, указать выравнивание и мета теги)
простое управление списком записей
два вида записей: посты и страницы
неограниченная вложенность рубрик и страниц
возможность добавлять новые рубрики, посты и страницы на стадии редактирования
случайный разброс постов по указанным рубрикам (очень полезно, если категорий нет, но их надо быстро добавить)
возможность переносить записи из рубрики в рубрику методом Drag&Drop
возможность вставлять рубрику в рубрику методом Drag&Drop (неограниченная вложенность для рубрик)
простой разброс записей по диапазону дат (автодата)
планирование записей на будущее (создание автонаполняемых проектов)
простое добавление меток для записей
перелинковка записей
удаление всех меток одной кнопкой
автоматически настраиваемая вставка тега <!--more-->
возможность сохранять и загружать проект
сохранение всех основных настроек
подробная статистика (сколько статей, рубрик, меток, количество знаков, среднее количество знаков)
Стадия экспорта:
экспорт в Wordpress
экспорт в RSS 2.0
экспорт в HTML
экспорт в Zebrum Lite
в платной
экспорт в Joomla
удалённая публикация, экспорт в Blogger и Rumba
неограниченный импорт любых файлов (пакетный или массовый импорт HTML, TXT, XML, Word HTML)!
полная автоматизация процесса вёрстки сайта (релевантные автометки, продвинутая автодата с множеством настроек, релевантные автокатегории, продвинутые автокартинки)!
экспорт практически в любой движок!