PHP работа с текстом

Главная » Форум » Программинг, Скрипты, Софт, Сервисы »

Тема: PHP работа с текстом

цитата
06/07/10 в 19:07

FXIX
Есть 10 статей с одного источника. Внутри статей есть одинаковые куски текста (ну всякое дерьмо типа имя автора\постовые\релатед линк\ иконки на социалки, закладки \ прочие левые линки). Как на основе сравнительного анализа (накладываем друг на друга как полупрозрачные слои) текстов понять какие именно куски одинаковы и их удалить?

цитата
06/07/10 в 20:34

Sterx
разбей текст на части
текст[1][part1]
текст[1][part2]

потом прогоняй куски на совпадение
если хоть 1 есть - удаляй из всех

цитата
06/07/10 в 21:56

FXIX
разбить на части ничего не даст

1. мама мыла раму ссылка тут постовой
2. карл у мамы клары украл кларнет и раму вымыл ссылка тут постовой

разбиваем на слова по пробелу, находим первое слово "мама" и находим маму во втором предложении, с рамой тоже самое.
по 2 слова:
1. {мама мыла} {раму ссылка} {тут} {постовой}
2. {карл у} {мамы клары} {украл кларнет} {и раму} {вымыл ссылка} {тут}

и ничего не находим
причем ни к позиции ни к тегам я прицепиться не могу. произвольная структура

Такой вариант наверно:
-разбиваем текст на слова. все слова одного текста прогоняем по второму тексту. у совпадающих слов у второго текста - цепляем следующее слово за ним. цепляем следующее за ним - у первого текста. и словосочетания прогоняем. но...хлебные крошки и релатед пост разные на всех страницах. верстка (в произвольном случае) вброшена инлайн прямо в тело поста

цитата
06/07/10 в 22:42

Sterx
а как то strip_tags заюзать, не ...?

цитата
07/07/10 в 15:22

FXIX
да не. так хоть я могу к span[last] \ p[last] на крайняк прицепиться (если допустить что верстка меняться не будет (а если вдруг сменится то алерты бросать)). если теги убрать то вообще труба...

Новая тема Ответить

Эта страница в полной версии