Master-X
Форум | Новости | Статьи
Главная » Форум » Поисковые Системы » 
Тема: Десктопный синонимайзер
цитата
11/01/11 в 14:58
 Sergeyka
Есть в природе?
Я ему базу синонимов, вставляю текст нажимаю кнопку - получаю синонимизированный текст.
цитата
11/01/11 в 15:25
 Yacc
Если речь идёт о банальной замене слов их синонимами из "базы", то такой "синонимайзер" я тебе напишу на раз в следующий перерыв. icon_smile.gif
цитата
11/01/11 в 15:58
 alexpotemkin
русских на сёрче штук пять минимум
инглиша не видел
цитата
11/01/11 в 16:15
 thespace
smartrewriterpro вроде так называется, работает с инглиш и ру базами, если не найдешь в сети могу залить куда-нибудь
цитата
11/01/11 в 16:42
 Sergeyka
Yacc: да, банальная замена icon_smile.gif

забиваешь текст, програмуля проходит его находит аналоги в базе синонимов и заменяет
цитата
11/01/11 в 16:43
 Sergeyka
thespace: залей плиз, чтобы не ибаца не искать
цитата
11/01/11 в 17:05
 Yacc
Sergeyka писал:
Yacc: да, банальная замена icon_smile.gif
забиваешь текст, програмуля проходит его находит аналоги в базе синонимов и заменяет

Ясно. Если умный реврайтер не поможет - обращайся. icon_smile.gif
цитата
11/01/11 в 17:44
 coder-code
и мне залейте!
цитата
11/01/11 в 18:06
 kodek
thespace писал:
smartrewriterpro вроде так называется

Он же щас платный вроде.
Вы же не хотите тут варез распространять icon_smile.gif
цитата
11/01/11 в 18:58
 thespace
ога, и правда платный, ну 22 бакса не такие большие деньги

Последний раз редактировалось: thespace (24/01/11 в 13:25), всего редактировалось 2 раз(а)
цитата
11/01/11 в 19:41
 FXIX
Yacc: так давно бы написал. Можно сообща прям тут в топике и набросать. Непристало мастер-иксу не иметь синнонимайзер трастовый smail101.gif. AWMMaiZer.
ТЗ:
база синнонимов представляет из себя совокупность прямых и обратых синнонимов (нет рутового слова и нет дочерних. все слова в строке равнозначны, что позволяет избежать случая базы:
кушетка табуретка
табуретка

в предложении "Моя табуретка" не нашло синнонимов. А добавляя синноним к одному множеству - требуется добавить обратные синнонимы из других множеств (вот это главный косяк и платных и бесплатных синнонимайзеров.)
На входе текст, разбивается на предложения по точка+пробел. Найденые слова заменяются последовательностью {слово|синноним1|...|синнонимN}. ну и потом косяки правятся, и прогоняется. предложения можно местами поменять смежные. сравнение по шинглам добавить. даже опций не надо, строгача врубил (длинна 5 слов. схожесть 20%.) так чтобы лишнего не прогать). Тут людей то умных дохуя. поднаторевших. сделать такое чего блядь ни у кого нет

alexpotemkin: на серче их не пяток а десяток. бесплатных три. неделю гонял тестил - спорный функционал у многих. к тому же нет нужных опций. зато дохуя ненужных. серверный один только видел. но там нет удобной пре- и после- валидации
цитата
11/01/11 в 20:07
 Sergeyka
Yacc: Напишешь?
цитата
11/01/11 в 20:14
 kodek
FXIX, так ведь проблема не в алгоритмах и софте, а в базах для этого дела.
Базы - самый важный момент, кто их будет составлять?
цитата
11/01/11 в 20:16
 Yacc
FXIX писал:
Yacc: так давно бы написал. Можно сообща прям тут в топике и набросать. Непристало мастер-иксу не иметь синнонимайзер трастовый.

Написать "трастовый" синонимайзер невозможно принципиально в силу теоремы Райса, которая в вольной интерпретации звучит так: "По синтаксису ничего нельзя сказать о семантике."

То, что ты описываешь это не синонимайзер, а банальная замена. Такое пишется за 10 минут в 5 строк. Кому надо пишите в ПМ.
цитата
11/01/11 в 20:19
 Yacc
kodek писал:
FXIX, так ведь проблема не в алгоритмах и софте, а в базах для этого дела.
Базы - самый важный момент, кто их будет составлять?

Нет. Главное именно алгоритм.
Базы не проблема - в сети полно всевозможных тезаурусов - парси-нехочу.

Sergeyka: Легко, при условии, что ты понял, что именно я готов написать. icon_smile.gif
цитата
11/01/11 в 21:05
 FXIX
Да. баз много. и платных и бесплатных и txt\cvs\sql. К тому же базу можно держать на одном хосте и ее можно будет собирать-поправлять-дополнять. Чем больше народа юзает - тем адекватнее и шире база. Вот кит хотел же трафф на форум smail101.gif. Такая тема всю школоту с searchengines соберет. Вместо того чтобы систему рейтингов править, - часть людей отрядить на вот такой факультатив. Нормально только к делу подойти. Выделить одну ветку для обсуждений, код на github выбросить (люди будут тестить итд. багтрекер). Одни придумывают новые возможности, другие прогают. замутить полноценый опенсорс smail101.gif. Неспеша месяца за 2-3 можно сделать ахуительный продукт. Который в жопу засунет все эти поделки на коленке. один хуй тут многие сидят по бестолковке мусолят пустые темы в трепе.

Yacc писал:
Написать "трастовый" синонимайзер невозможно принципиально в силу теоремы Райса, которая в вольной интерпретации звучит так: "По синтаксису ничего нельзя сказать о семантике."
То, что ты описываешь это не синонимайзер, а банальная замена. Такое пишется за 10 минут в 5 строк. Кому надо пишите в ПМ.

пусть будет пока "банальная замена". При таком подходе - все дело в качестве базы. при неограниченном числе пользователей - синнонимизация будет вполне сносная (кол-во слов с явно двойным смыслом). к тому же при превалидации все косяки можно поправить. Я и не предлагаю полный автомат. Но предлагаю на основе простейшей технологии сделать комфортный удобный продукт. так чтобы работа с ним занимала минимум времени.
цитата
11/01/11 в 21:31
 kodek
Ну тут дело хозяйское конечно. Есть маза, что у вас всё будет круто =) Но на мой взгляд, тут в самой идее изначально противоречение кроется: либо это качественные базы для узкого круга, либо это посредственные базы, которые собираются "всем миром". Аналогичные проекты были уже, и все благополучно загнулись.
цитата
11/01/11 в 21:41
 kodek
А бесплатные синонимайзеры есть, если поискать.
Вот Говноклёп например можно заюзать =)
http://code.highspec.ru/gk_about.htm
цитата
11/01/11 в 21:43
 FXIX
ну вот из верхних постов линк на базу http://sbfactory.ru/?p=36. чел сам собирал. почему бы и нет. он один - и собрал. а нас...войско smail101.gif. войско блядь которое тут сидит обсуждает всякую хуйню. а так разззз...и плюсик. каждый строчку написал - в итоге прога написана. я наверно мечтатель
доступ к базе будут иметь...ядро. активисты. база версионная. с логированием изменений.
цитата
11/01/11 в 22:09
 Yacc
FXIX писал:
я наверно мечтатель

Молодой наверно ещё. Я по молодости лет тоже пытался решать нерешаемое, пока не узнал про Тьюринга и Гёделя, неразрешимость и неполноту. icon_smile.gif

Однако я вижу ты настырный, поэтому даю подсказку: фхг + статистика = эвристика. icon_smile.gif
цитата
11/01/11 в 23:03
 FXIX
Yacc: да какой я молодой. тридцатник smail101.gif.
Про тьюринга не надо. Я и предлагаю простейший вариант. Из деревянной сохи сделать...металлическую соху с ручкам. со всеми удобствами и колесиками. и подстаканником. на самом деле кто работал плотно с таким софтом - есть дохуя (пусть мелких, но целый ряд) улучшающих юзабилити штучек, которые могут ускорить (практически удевешить до скана) процесс обработки текста. Я все паблик фри и триал решения попробовал мельком (но в рабочем порядке. не просто "потыкал кнопки") - и то у меня накопились претензии. которые можно реализовать и "вперед вытолкнуть" этот процесс.

Последний раз редактировалось: FXIX (26/02/11 в 20:13), всего редактировалось 1 раз
цитата
11/01/11 в 23:28
 Yacc
Охуеть. icon_smile.gif
Удачи конечно, но, имхо, две строчки качественного (в смысле маркетинга), рукописного текста, лучше, чем тонны генеренного полу-бреда.
цитата
11/01/11 в 23:55
 FXIX
соглашусь.
но я также подозреваю что нормальный оптимизированный подход к синнонимизированию с удобной тулзой - дает удельный профит на единицу текста больше чем полностью ручной труд. и больше чем бредотекст. и больше чем мучения с 25-баксовой приблудой на коленке.
банально даже по кликам. файл открыть - 2 клика. файл сохранить - 1 клик. новый файл открыть - еще 2 клика. кнопка "расставить синнонимы" - 1 клик. добавить синноним в базу - 3 клика. обернуть новое слово в {скобки} - 2 клика. удалить из ряда синноним - 1 клик. Сохранения проекта...нет. в одной тулзе видел. пакетное размножение - в двух тулзах видел. опции нужные - мало где видел. Комфортный просмотр результата (diff оригинала и просмативаемой конкретной статьи из 100 сгенеренных) - нигде нет.

Последний раз редактировалось: FXIX (26/02/11 в 20:13), всего редактировалось 1 раз
цитата
12/01/11 в 15:37
 Sergeyka
Yacc: Отправил ПМ smail54.gif
цитата
18/01/11 в 12:41
 cyberxxx
Yacc писал:
Охуеть. icon_smile.gif
Удачи конечно, но, имхо, две строчки качественного (в смысле маркетинга), рукописного текста, лучше, чем тонны генеренного полу-бреда.

Кому как. Гуглю похуй, а серферы эти текста вообще не читают, они картинки кликать любят icon_smile.gif
Стр. 1, 2  >  последняя »


Эта страница в полной версии