FXIX
Есть 10 статей с одного источника. Внутри статей есть одинаковые куски текста (ну всякое дерьмо типа имя автора\постовые\релатед линк\ иконки на социалки, закладки \ прочие левые линки). Как на основе сравнительного анализа (накладываем друг на друга как полупрозрачные слои) текстов понять какие именно куски одинаковы и их удалить?
FXIX
разбить на части ничего не даст
1. мама мыла раму <p>ссылка тут</p> <span>постовой<span>
2. карл у мамы клары украл кларнет и раму вымыл <p>ссылка тут</p> <span>постовой<span>
разбиваем на слова по пробелу, находим первое слово "мама" и находим маму во втором предложении, с рамой тоже самое.
по 2 слова:
1. {мама мыла} {раму <p>ссылка} {тут</p>} {<span>постовой<span>}
2. {карл у} {мамы клары} {украл кларнет} {и раму} {вымыл <p>ссылка} {тут</p>}
и ничего не находим
причем ни к позиции ни к тегам я прицепиться не могу. произвольная структура
Такой вариант наверно:
-разбиваем текст на слова. все слова одного текста прогоняем по второму тексту. у совпадающих слов у второго текста - цепляем следующее слово за ним. цепляем следующее за ним - у первого текста. и словосочетания прогоняем. но...хлебные крошки и релатед пост разные на всех страницах. верстка (в произвольном случае) вброшена инлайн прямо в тело поста