Master-X
Форум | Новости | Статьи
Главная » Форум » Программинг, Скрипты, Софт, Сервисы » 
Тема: Как вырезать нечитаемые символы из текста
цитата
01/12/07 в 02:31
 Sterx
вот такие скажем
Код:
”“““

Цитата:
“

короче в исходнике они не мнемоники, а квадратики
цитата
01/12/07 в 03:34
 Formator
Это ковычки левые и правые, в юникоде. У тебя просто неверная кодировка стоит в html или сам документ сохранён в неверной кодировке. Поставь правильную и будет показываться всё как надо.
А если всё же надо вырезать, то ты не уточнил что именно. Конкретно эти символы или вообще все которые могут отображаться квадратиками или что?
цитата
01/12/07 в 10:20
 Sterx
CJLOG:
не могу исправить, потому что документ отдается в UTF-8 и среди нормального текста эта фигня.
заранее неизвестно какой будет документ
цитата
01/12/07 в 11:42
 Heavy
убрать можно по разному - если вообще - то регуляркой отрезать все лишнее, если убрать="привести в нормальный вид" то можно, например так:
html_entity_decode(текст с хтмл сущностями,0,'UTF-8')
хз возьмет ли все форматы, но в сетке есть примеры (правда ручные) перевода всех в нормальный вид.
&1020;&1032;
ϼЈ
&#u1020;&#u1032; или как-то там еше
цитата
01/12/07 в 11:46
 Heavy
Sterx писал:
CJLOG:
документ отдается в UTF-8 и среди нормального текста эта фигня.
заранее неизвестно какой будет документ

как правило эта фигня приходит от некоторых браузеров юзеров постящих коменты, или админов - пишущих новости и все это не смотря на то что делается в документа с объявленной кодировкой UTF-8... ужас вообщем icon_smile.gif да и РРС-ы многие таким грешат и некоторые скрипты... а если такой текст еще и в базу кто-то впихнул, то 100% уже править не будет, так что боротся нужно. icon_smile.gif
цитата
01/12/07 в 20:58
 Sterx
спасибо за функцию, почитал, попробовал.
она работает с мнемониками (&xxx)
а в коде именно квадратики, а на странице A с черточками
короче не режет ниче.
цитата
01/12/07 в 23:17
 -=Faraon=-
Код:
<?
$str='Text &#148;&#147;&#147;&#147; Text';
echo preg_replace("/&#(\d+);/","",$str);
?>

Может я конечно что то не так понял! покажи пример если что. !
цитата
01/12/07 в 23:38
 Sterx
там xml данные
смотришь source - нет мнемоник, есть квадратики
про &# это даже мне понятно
цитата
02/12/07 в 00:00
 -=Faraon=-
Кодировка глючит или что.... кинь на мыло кусок тех данных.. постараюсь помочь!
kornevar(delete)@gmail.com
цитата
02/12/07 в 01:10
 Heavy
Sterx писал:
в коде именно квадратики, а на странице A с черточками
короче не режет ниче.

поясни как к тебе этот xml попадает - идет с твоей страницы аяксом например, грабится какой-то ррс или дергается какое-то апи, берется из какого склада уже готовых хмл-ей...
какая стоит кодировка в хмл-е? получается ли вместо квадратиков увидеть нормальные символы при принудительном указании utf-8 или unicode... ?
если просто тупо резать все лишнее - то возможно поможет регулярки с помощью библиотек iconv или mbstring... либо может вот так вырежет preg_replace('/[^\w\d\s...]/u',...) (т.е. строка будет обработана в юникоде и попросить регуляркой вырезать все что не буквы, цифры, знаки)...
цитата
21/12/07 в 21:12
 Cinestar
Использую для этого редактор Aditor. В опциях есть искать и заменить. В искать (одна строка) вводишь свои символы, в заменить (вторая строка) ничего не вводишь или вводишь пробел (бывало прога глючила). Здесь же кнопка =все=. Тогда она пакетом вырезает все твои символы. Ещё в прожке есть опции, чтобы поиграться с кодировками. Там можно прочесть твои символы, если повезёт icon_smile.gif Весит всего 1мг.

Проверил только что, Штирлицем твои кракозябры, прав был CJLOG, кавычки это ”“““. Адитор спёкся, зато режет классно.
цитата
22/12/07 в 00:22
 allendale
тоже в своё время думал как вырезать. только из урла.
решилось вырезанием всего кроме цифр и букв типа
/([^0-9a-z]+)/$1/i

пс. регексп на память написал, может кривой быть, но думаю смысл понятен.
цитата
29/12/07 в 16:04
 financ
Была аналогичная проблема "очиски" кода от постороннего.

Справился частично в WORD
Там есть такая фигня с поиском
цитата
13/01/08 в 09:45
 Sterx

причем тут Ворд? речь о замене на лету была


Эта страница в полной версии