Как вырезать нечитаемые символы из текста

Master-X

Регистрация | Вход

Форум | Новости | Статьи

Главная » Форум » Программинг, Скрипты, Софт, Сервисы »

Тема: Как вырезать нечитаемые символы из текста

Новая тема Ответить

цитата
01/12/07 в 02:31

Sterx
вот такие скажем
Код:

Цитата:

короче в исходнике они не мнемоники, а квадратики

цитата
01/12/07 в 03:34

Formator
Это ковычки левые и правые, в юникоде. У тебя просто неверная кодировка стоит в html или сам документ сохранён в неверной кодировке. Поставь правильную и будет показываться всё как надо.
А если всё же надо вырезать, то ты не уточнил что именно. Конкретно эти символы или вообще все которые могут отображаться квадратиками или что?

цитата
01/12/07 в 10:20

Sterx
CJLOG:
не могу исправить, потому что документ отдается в UTF-8 и среди нормального текста эта фигня.
заранее неизвестно какой будет документ

цитата
01/12/07 в 11:42

Heavy
убрать можно по разному - если вообще - то регуляркой отрезать все лишнее, если убрать="привести в нормальный вид" то можно, например так:
html_entity_decode(текст с хтмл сущностями,0,'UTF-8')
хз возьмет ли все форматы, но в сетке есть примеры (правда ручные) перевода всех в нормальный вид.
&1020;&1032;
ϼЈ
&#u1020;&#u1032; или как-то там еше

цитата
01/12/07 в 11:46

Heavy
Sterx писал:

CJLOG:
документ отдается в UTF-8 и среди нормального текста эта фигня.
заранее неизвестно какой будет документ

как правило эта фигня приходит от некоторых браузеров юзеров постящих коменты, или админов - пишущих новости и все это не смотря на то что делается в документа с объявленной кодировкой UTF-8... ужас вообщем

да и РРС-ы многие таким грешат и некоторые скрипты... а если такой текст еще и в базу кто-то впихнул, то 100% уже править не будет, так что боротся нужно.

цитата
01/12/07 в 20:58

Sterx
спасибо за функцию, почитал, попробовал.
она работает с мнемониками (&xxx)
а в коде именно квадратики, а на странице A с черточками
короче не режет ниче.

цитата
01/12/07 в 23:17

-=Faraon=-
Код:

<?
$str='Text  Text';
echo preg_replace("/&#(\d+);/","",$str);
?>

Может я конечно что то не так понял! покажи пример если что. !

цитата
01/12/07 в 23:38

Sterx
там xml данные
смотришь source - нет мнемоник, есть квадратики
про &# это даже мне понятно

цитата
02/12/07 в 00:00

-=Faraon=-
Кодировка глючит или что.... кинь на мыло кусок тех данных.. постараюсь помочь!
kornevar(delete)@gmail.com

цитата
02/12/07 в 01:10

Heavy
Sterx писал:

в коде именно квадратики, а на странице A с черточками
короче не режет ниче.

поясни как к тебе этот xml попадает - идет с твоей страницы аяксом например, грабится какой-то ррс или дергается какое-то апи, берется из какого склада уже готовых хмл-ей...
какая стоит кодировка в хмл-е? получается ли вместо квадратиков увидеть нормальные символы при принудительном указании utf-8 или unicode... ?
если просто тупо резать все лишнее - то возможно поможет регулярки с помощью библиотек iconv или mbstring... либо может вот так вырежет preg_replace('/[^\w\d\s...]/u',...) (т.е. строка будет обработана в юникоде и попросить регуляркой вырезать все что не буквы, цифры, знаки)...

цитата
21/12/07 в 21:12

Cinestar
Использую для этого редактор Aditor. В опциях есть искать и заменить. В искать (одна строка) вводишь свои символы, в заменить (вторая строка) ничего не вводишь или вводишь пробел (бывало прога глючила). Здесь же кнопка =все=. Тогда она пакетом вырезает все твои символы. Ещё в прожке есть опции, чтобы поиграться с кодировками. Там можно прочесть твои символы, если повезёт

Весит всего 1мг.

Проверил только что, Штирлицем твои кракозябры, прав был CJLOG, кавычки это ”“““. Адитор спёкся, зато режет классно.

цитата
22/12/07 в 00:22

allendale
тоже в своё время думал как вырезать. только из урла.
решилось вырезанием всего кроме цифр и букв типа
/([^0-9a-z]+)/$1/i

пс. регексп на память написал, может кривой быть, но думаю смысл понятен.

цитата
29/12/07 в 16:04

financ
Была аналогичная проблема "очиски" кода от постороннего.

Справился частично в WORD
Там есть такая фигня с поиском

цитата
13/01/08 в 09:45

Sterx

причем тут Ворд? речь о замене на лету была

Новая тема Ответить

Эта страница в полной версии