Master-X
Регистрация
|
Вход
Форум
|
Новости
|
Статьи
Главная
»
Форум
»
Программинг, Скрипты, Софт, Сервисы
»
Тема:
Как вырезать нечитаемые символы из текста
Новая тема
Ответить
цитата
01/12/07 в 02:31
Sterx
вот такие скажем
Код:
”“““
Цитата:
“
короче в исходнике они не мнемоники, а квадратики
цитата
01/12/07 в 03:34
Formator
Это ковычки левые и правые, в юникоде. У тебя просто неверная кодировка стоит в html или сам документ сохранён в неверной кодировке. Поставь правильную и будет показываться всё как надо.
А если всё же надо вырезать, то ты не уточнил что именно. Конкретно эти символы или вообще все которые могут отображаться квадратиками или что?
цитата
01/12/07 в 10:20
Sterx
CJLOG:
не могу исправить, потому что документ отдается в UTF-8 и среди нормального текста эта фигня.
заранее неизвестно какой будет документ
цитата
01/12/07 в 11:42
Heavy
убрать можно по разному - если вообще - то регуляркой отрезать все лишнее, если убрать="привести в нормальный вид" то можно, например так:
html_entity_decode(текст с хтмл сущностями,0,'UTF-8')
хз возьмет ли все форматы, но в сетке есть примеры (правда ручные) перевода всех в нормальный вид.
&1020;&1032;
ϼЈ
&#u1020;&#u1032; или как-то там еше
цитата
01/12/07 в 11:46
Heavy
Sterx писал:
CJLOG:
документ отдается в UTF-8 и среди нормального текста эта фигня.
заранее неизвестно какой будет документ
как правило эта фигня приходит от некоторых браузеров юзеров постящих коменты, или админов - пишущих новости и все это не смотря на то что делается в документа с объявленной кодировкой UTF-8... ужас вообщем
да и РРС-ы многие таким грешат и некоторые скрипты... а если такой текст еще и в базу кто-то впихнул, то 100% уже править не будет, так что боротся нужно.
цитата
01/12/07 в 20:58
Sterx
спасибо за функцию, почитал, попробовал.
она работает с мнемониками (&xxx)
а в коде именно квадратики, а на странице A с черточками
короче не режет ниче.
цитата
01/12/07 в 23:17
-=Faraon=-
Код:
<?
$str='Text ”“““ Text';
echo preg_replace("/&#(\d+);/","",$str);
?>
Может я конечно что то не так понял! покажи пример если что. !
цитата
01/12/07 в 23:38
Sterx
там xml данные
смотришь source - нет мнемоник, есть квадратики
про &# это даже мне понятно
цитата
02/12/07 в 00:00
-=Faraon=-
Кодировка глючит или что.... кинь на мыло кусок тех данных.. постараюсь помочь!
kornevar(delete)@gmail.com
цитата
02/12/07 в 01:10
Heavy
Sterx писал:
в коде именно квадратики, а на странице A с черточками
короче не режет ниче.
поясни как к тебе этот xml попадает - идет с твоей страницы аяксом например, грабится какой-то ррс или дергается какое-то апи, берется из какого склада уже готовых хмл-ей...
какая стоит кодировка в хмл-е? получается ли вместо квадратиков увидеть нормальные символы при принудительном указании utf-8 или unicode... ?
если просто тупо резать все лишнее - то возможно поможет регулярки с помощью библиотек iconv или mbstring... либо может вот так вырежет preg_replace('/[^\w\d\s...]/u',...) (т.е. строка будет обработана в юникоде и попросить регуляркой вырезать все что не буквы, цифры, знаки)...
цитата
21/12/07 в 21:12
Cinestar
Использую для этого редактор Aditor. В опциях есть искать и заменить. В искать (одна строка) вводишь свои символы, в заменить (вторая строка) ничего не вводишь или вводишь пробел (бывало прога глючила). Здесь же кнопка =все=. Тогда она пакетом вырезает все твои символы. Ещё в прожке есть опции, чтобы поиграться с кодировками. Там можно прочесть твои символы, если повезёт
Весит всего 1мг.
Проверил только что, Штирлицем твои кракозябры, прав был CJLOG, кавычки это ”“““. Адитор спёкся, зато режет классно.
цитата
22/12/07 в 00:22
allendale
тоже в своё время думал как вырезать. только из урла.
решилось вырезанием всего кроме цифр и букв типа
/([^0-9a-z]+)/$1/i
пс. регексп на память написал, может кривой быть, но думаю смысл понятен.
цитата
29/12/07 в 16:04
financ
Была аналогичная проблема "очиски" кода от постороннего.
Справился частично в WORD
Там есть такая фигня с поиском
цитата
13/01/08 в 09:45
Sterx
причем тут Ворд? речь о замене на лету была
Новая тема
Ответить
Эта страница в полной версии