Master-X
Форум | Новости | Статьи
Главная » Форум » Программинг, Скрипты, Софт, Сервисы » 
Тема: PHP работа с текстом
цитата
06/07/10 в 19:07
 FXIX
Есть 10 статей с одного источника. Внутри статей есть одинаковые куски текста (ну всякое дерьмо типа имя автора\постовые\релатед линк\ иконки на социалки, закладки \ прочие левые линки). Как на основе сравнительного анализа (накладываем друг на друга как полупрозрачные слои) текстов понять какие именно куски одинаковы и их удалить?
цитата
06/07/10 в 20:34
 Sterx
разбей текст на части
текст[1][part1]
текст[1][part2]

потом прогоняй куски на совпадение
если хоть 1 есть - удаляй из всех
цитата
06/07/10 в 21:56
 FXIX
разбить на части ничего не даст icon_rolleyes.gif

1. мама мыла раму <p>ссылка тут</p> <span>постовой<span>
2. карл у мамы клары украл кларнет и раму вымыл <p>ссылка тут</p> <span>постовой<span>

разбиваем на слова по пробелу, находим первое слово "мама" и находим маму во втором предложении, с рамой тоже самое.
по 2 слова:
1. {мама мыла} {раму <p>ссылка} {тут</p>} {<span>постовой<span>}
2. {карл у} {мамы клары} {украл кларнет} {и раму} {вымыл <p>ссылка} {тут</p>}

и ничего не находим
причем ни к позиции ни к тегам я прицепиться не могу. произвольная структура

Такой вариант наверно:
-разбиваем текст на слова. все слова одного текста прогоняем по второму тексту. у совпадающих слов у второго текста - цепляем следующее слово за ним. цепляем следующее за ним - у первого текста. и словосочетания прогоняем. но...хлебные крошки и релатед пост разные на всех страницах. верстка (в произвольном случае) вброшена инлайн прямо в тело поста
цитата
06/07/10 в 22:42
 Sterx
а как то strip_tags заюзать, не ...?
цитата
07/07/10 в 15:22
 FXIX
да не. так хоть я могу к span[last] \ p[last] на крайняк прицепиться (если допустить что верстка меняться не будет (а если вдруг сменится то алерты бросать)). если теги убрать то вообще труба...


Эта страница в полной версии