Master-X
Регистрация
|
Вход
Форум
|
Новости
|
Статьи
Главная
»
Форум
»
Поисковые Системы
»
Тема:
Десктопный синонимайзер
Новая тема
Ответить
цитата
11/01/11 в 14:58
Sergeyka
Есть в природе?
Я ему базу синонимов, вставляю текст нажимаю кнопку - получаю синонимизированный текст.
цитата
11/01/11 в 15:25
Yacc
Если речь идёт о банальной замене слов их синонимами из "базы", то такой "синонимайзер" я тебе напишу на раз в следующий перерыв.
цитата
11/01/11 в 15:58
alexpotemkin
русских на сёрче штук пять минимум
инглиша не видел
цитата
11/01/11 в 16:15
thespace
smartrewriterpro вроде так называется, работает с инглиш и ру базами, если не найдешь в сети могу залить куда-нибудь
цитата
11/01/11 в 16:42
Sergeyka
Yacc:
да, банальная замена
забиваешь текст, програмуля проходит его находит аналоги в базе синонимов и заменяет
цитата
11/01/11 в 16:43
Sergeyka
thespace:
залей плиз, чтобы не ибаца не искать
цитата
11/01/11 в 17:05
Yacc
Sergeyka писал:
Yacc:
да, банальная замена
забиваешь текст, програмуля проходит его находит аналоги в базе синонимов и заменяет
Ясно. Если умный реврайтер не поможет - обращайся.
цитата
11/01/11 в 17:44
coder-code
и мне залейте!
цитата
11/01/11 в 18:06
kodek
thespace писал:
smartrewriterpro вроде так называется
Он же щас платный вроде.
Вы же не хотите тут варез распространять
цитата
11/01/11 в 18:58
thespace
ога, и правда платный, ну 22 бакса не такие большие деньги
Последний раз редактировалось: thespace (
24/01/11 в 13:25
), всего редактировалось 2 раз(а)
цитата
11/01/11 в 19:41
FXIX
Yacc:
так давно бы написал. Можно сообща прям тут в топике и набросать. Непристало мастер-иксу не иметь синнонимайзер трастовый
. AWMMaiZer.
ТЗ:
база синнонимов представляет из себя совокупность прямых и обратых синнонимов (нет рутового слова и нет дочерних. все слова в строке равнозначны, что позволяет избежать случая базы:
кушетка табуретка
табуретка
в предложении "Моя табуретка" не нашло синнонимов. А добавляя синноним к одному множеству - требуется добавить обратные синнонимы из других множеств (
вот это главный косяк и платных и бесплатных синнонимайзеров.
)
На входе текст, разбивается на предложения по точка+пробел. Найденые слова заменяются последовательностью {слово|синноним1|...|синнонимN}. ну и потом косяки правятся, и прогоняется. предложения можно местами поменять смежные. сравнение по шинглам добавить. даже опций не надо, строгача врубил (длинна 5 слов. схожесть 20%.) так чтобы лишнего не прогать). Тут людей то умных дохуя. поднаторевших. сделать такое чего блядь ни у кого нет
alexpotemkin:
на серче их не пяток а десяток. бесплатных три. неделю гонял тестил - спорный функционал у многих. к тому же нет нужных опций. зато дохуя ненужных. серверный один только видел. но там нет удобной пре- и после- валидации
цитата
11/01/11 в 20:07
Sergeyka
Yacc:
Напишешь?
цитата
11/01/11 в 20:14
kodek
FXIX, так ведь проблема не в алгоритмах и софте, а в базах для этого дела.
Базы - самый важный момент, кто их будет составлять?
цитата
11/01/11 в 20:16
Yacc
FXIX писал:
Yacc:
так давно бы написал. Можно сообща прям тут в топике и набросать. Непристало мастер-иксу не иметь синнонимайзер трастовый.
Написать "трастовый" синонимайзер невозможно принципиально в силу теоремы Райса, которая в вольной интерпретации звучит так: "По синтаксису ничего нельзя сказать о семантике."
То, что ты описываешь это не синонимайзер, а банальная замена. Такое пишется за 10 минут в 5 строк. Кому надо пишите в ПМ.
цитата
11/01/11 в 20:19
Yacc
kodek писал:
FXIX, так ведь проблема не в алгоритмах и софте, а в базах для этого дела.
Базы - самый важный момент, кто их будет составлять?
Нет. Главное именно алгоритм.
Базы не проблема - в сети полно всевозможных тезаурусов - парси-нехочу.
Sergeyka:
Легко, при условии, что ты понял, что именно я готов написать.
цитата
11/01/11 в 21:05
FXIX
Да. баз много. и платных и бесплатных и txt\cvs\sql. К тому же базу можно держать на одном хосте и ее можно будет собирать-поправлять-дополнять. Чем больше народа юзает - тем адекватнее и шире база. Вот кит хотел же трафф на форум
. Такая тема всю школоту с searchengines соберет. Вместо того чтобы систему рейтингов править, - часть людей отрядить на вот такой факультатив. Нормально только к делу подойти. Выделить одну ветку для обсуждений, код на github выбросить (люди будут тестить итд. багтрекер). Одни придумывают новые возможности, другие прогают. замутить полноценый опенсорс
. Неспеша месяца за 2-3 можно сделать ахуительный продукт. Который в жопу засунет все эти поделки на коленке. один хуй тут многие сидят по бестолковке мусолят пустые темы в трепе.
Yacc писал:
Написать "трастовый" синонимайзер невозможно принципиально в силу теоремы Райса, которая в вольной интерпретации звучит так: "По синтаксису ничего нельзя сказать о семантике."
То, что ты описываешь это не синонимайзер, а банальная замена. Такое пишется за 10 минут в 5 строк. Кому надо пишите в ПМ.
пусть будет пока "банальная замена". При таком подходе - все дело в качестве базы. при неограниченном числе пользователей - синнонимизация будет вполне сносная (кол-во слов с явно двойным смыслом). к тому же при превалидации все косяки можно поправить. Я и не предлагаю полный автомат. Но предлагаю на основе простейшей технологии сделать комфортный удобный продукт. так чтобы работа с ним занимала минимум времени.
цитата
11/01/11 в 21:31
kodek
Ну тут дело хозяйское конечно. Есть маза, что у вас всё будет круто =) Но на мой взгляд, тут в самой идее изначально противоречение кроется: либо это качественные базы для узкого круга, либо это посредственные базы, которые собираются "всем миром". Аналогичные проекты были уже, и все благополучно загнулись.
цитата
11/01/11 в 21:41
kodek
А бесплатные синонимайзеры есть, если поискать.
Вот Говноклёп например можно заюзать =)
http://code.highspec.ru/gk_about.htm
цитата
11/01/11 в 21:43
FXIX
ну вот из верхних постов линк на базу
http://sbfactory.ru/?p=36.
чел сам собирал. почему бы и нет. он один - и собрал. а нас...войско
. войско блядь которое тут сидит обсуждает всякую хуйню. а так разззз...и плюсик. каждый строчку написал - в итоге прога написана. я наверно мечтатель
доступ к базе будут иметь...ядро. активисты. база версионная. с логированием изменений.
цитата
11/01/11 в 22:09
Yacc
FXIX писал:
я наверно мечтатель
Молодой наверно ещё. Я по молодости лет тоже пытался решать нерешаемое, пока не узнал про Тьюринга и Гёделя, неразрешимость и неполноту.
Однако я вижу ты настырный, поэтому даю подсказку: фхг + статистика = эвристика.
цитата
11/01/11 в 23:03
FXIX
Yacc:
да какой я молодой. тридцатник
.
Про тьюринга не надо. Я и предлагаю простейший вариант. Из деревянной сохи сделать...металлическую соху с ручкам. со всеми удобствами и колесиками. и подстаканником. на самом деле кто работал плотно с таким софтом - есть дохуя (пусть мелких, но целый ряд) улучшающих юзабилити штучек, которые могут ускорить (практически удевешить до скана) процесс обработки текста. Я все паблик фри и триал решения попробовал мельком (но в рабочем порядке. не просто "потыкал кнопки") - и то у меня накопились претензии. которые можно реализовать и "вперед вытолкнуть" этот процесс.
Последний раз редактировалось: FXIX (
26/02/11 в 20:13
), всего редактировалось 1 раз
цитата
11/01/11 в 23:28
Yacc
Охуеть.
Удачи конечно, но, имхо, две строчки качественного (в смысле маркетинга), рукописного текста, лучше, чем тонны генеренного полу-бреда.
цитата
11/01/11 в 23:55
FXIX
соглашусь.
но я также подозреваю что нормальный оптимизированный подход к синнонимизированию с удобной тулзой - дает удельный профит на единицу текста больше чем полностью ручной труд. и больше чем бредотекст. и больше чем мучения с 25-баксовой приблудой на коленке.
банально даже по кликам. файл открыть - 2 клика. файл сохранить - 1 клик. новый файл открыть - еще 2 клика. кнопка "расставить синнонимы" - 1 клик. добавить синноним в базу - 3 клика. обернуть новое слово в {скобки} - 2 клика. удалить из ряда синноним - 1 клик. Сохранения проекта...нет. в одной тулзе видел. пакетное размножение - в двух тулзах видел. опции нужные - мало где видел. Комфортный просмотр результата (diff оригинала и просмативаемой конкретной статьи из 100 сгенеренных) - нигде нет.
Последний раз редактировалось: FXIX (
26/02/11 в 20:13
), всего редактировалось 1 раз
цитата
12/01/11 в 15:37
Sergeyka
Yacc:
Отправил ПМ
цитата
18/01/11 в 12:41
cyberxxx
Yacc писал:
Охуеть.
Удачи конечно, но, имхо, две строчки качественного (в смысле маркетинга), рукописного текста, лучше, чем тонны генеренного полу-бреда.
Кому как. Гуглю похуй, а серферы эти текста вообще не читают, они картинки кликать любят
Стр.
1
,
2
>
последняя »
Новая тема
Ответить
Эта страница в полной версии