Master-X
Форум | Новости | Статьи
Главная » Форум » Программинг, Скрипты, Софт, Сервисы » 
Тема: Срочно ищется тестер синонимизатора
цитата
27/01/08 в 16:35
 SEOcar
Срочно ищется один(1) тестер мощного англоязычного синонимизатора, оставляющего текст читабельным.

Требования:
1. Хорошее знание английского.
2. Хорошая известность на форумах Umax/Master-X/Armada
3. Наличие опыта работы с другими синонимизаторами.

Задача:
1. Потестировать сервис, а затем высказать свое мнение относительно него.
2. Описать свое мнение относительно синонимизатора на форумах (Umax/Master/Armada)

Бонус:
Хорошая скидка на дальнейшее приобретение этого синонимизатора.

ICQ: 66-0-272
цитата
27/01/08 в 17:46
 alexf2000
А можно принцип работы синонимизатора описать? Думаю я тогда сразу смогу сказать своё квалифицированное мнение по качеству текста. icon_smile.gif
цитата
27/01/08 в 19:20
 SEOcar
1. Система синонимизации для каждого слова в предложении определяет его часть речи (существительное/прилагательное/глагол/и т.д.), а также число, время и другие параметры.
2. Далее система определяет смысловое значение слова. Тоесть в каком смысле используется это слово в конкретном данном предложении.
3. Затем ищутся сходные по смыслу слова-синонимы.
4. Если такие слова существуют, то выбирается одно случайное слово.
5. Далее это слово морфологически модифицируется с целью придания ему тех же параметров первоначального слова (время/число/и т.д.)
6. Первоначальное слово заменяется полученным словом.
цитата
27/01/08 в 19:42
 Netmask
del

Последний раз редактировалось: Netmask (07/02/14 в 14:45), всего редактировалось 1 раз
цитата
27/01/08 в 19:47
 SEOcar
Netmask писал:
Гы. Описание это одно, а как оно будет реализовано - дело совсем другое. ТОпегстартер... а публичного тестинга не планируется ли? Я бы потестил, даже могу гарантировать положительный отзыв... скорее всего... за вклад в научные достижения, так сказать...

Стукнись в асю.
цитата
27/01/08 в 20:12
 alexf2000
Для английского языка морфологию можно смело убрать, её там почти нет. icon_smile.gif Как ищутся сходные по смыслу слова, по какому словарю? Свой словарь или один из этих: http://alexf.name/2007-08-15/sinonimajzer/ ?
Как решается проблема, если найденное в словаре слово считается синонимом заменяемого но никогда не используется в данном конкретном контексте? Как выбирается, какие слова будут заменяться, а какие нет?
цитата
27/01/08 в 20:28
 SEOcar
alexf2000 писал:
Для английского языка морфологию можно смело убрать, её там почти нет. icon_smile.gif

Ок. Вот такой "адалтовый" пример:
Слово "fucking".
Это может быть существительное (название процесса).
Это может быть прилагательное (Какой? ебн#тый)
Это может быть глагол (present participle от fuck)
У существительного - свой набор синонимов. У прилагательного - свой. У глагола - свой. И как прикажете быть без морфологии?
alexf2000 писал:
Как ищутся сходные по смыслу слова, по какому словарю? Свой словарь или один из этих: http://alexf.name/2007-08-15/sinonimajzer/ ?

Одним из исходных словарей был WordNet. Остальные палить не буду. Да и нет их в открытом доступе в нете. Процесс определения смысла слов и поиска сходных по смыслу синонимов - это мое "ноухау". Да и не поместится все объяснение в рамках форума. Нужны картинки, графики и тд.
alexf2000 писал:
Как решается проблема, если найденное в словаре слово считается синонимом заменяемого но никогда не используется в данном конкретном контексте?

Приведите пример.
alexf2000 писал:
Как выбирается, какие слова будут заменяться, а какие нет?

Те слова, к которым были найдены полноценные смысловые синонимы - заменяются. Существует также возможность указания слов-исключений, которые ни при каких обстоятельствах не будут заменены на синонимы.
цитата
27/01/08 в 20:31
 xenator
Представляю как в скорости интернет заполнят тексты со старословянскими словами, специальными или диалектными выражениями icon_smile.gif

Умные люди мыслят в одинаковом направлении icon_smile.gif
цитата
27/01/08 в 21:33
 begemot
здесь про прилатательное и глагол то никогда не слышали, а ты сразу синонимизатор синонимизатор, загрузил icon_smile.gif
цитата
27/01/08 в 21:34
 Man
Это для того который ты уже продавал и скидки раздавал? icon_smile.gif
PRавильная синонимизация
цитата
27/01/08 в 21:45
 SEOcar
begemot писал:
здесь про прилатательное и глагол то никогда не слышали, а ты сразу синонимизатор синонимизатор, загрузил icon_smile.gif

Я сам не особо во всем этом разбирался, пока не взялся за этот синонимизатор ;)
цитата
27/01/08 в 21:46
 Netmask
del

Последний раз редактировалось: Netmask (07/02/14 в 14:45), всего редактировалось 1 раз
цитата
27/01/08 в 21:48
 SEOcar
Man писал:
Это для того который ты уже продавал и скидки раздавал? icon_smile.gif
PRавильная синонимизация


Именно он icon_smile.gif
Решил еще немного доработать. А тут новая база данных подоспела. Пришлось все базы заново пересобирать. А тут новый год. Все мы люди icon_smile.gif

А вообще доработка софта во славу его качества еще не вредила.
цитата
27/01/08 в 21:49
 Man
Netmask писал:
Ну, я посмотрел предварительную версию - достаточно интерестно. Типа продукт вырисовывается неплохой. Так что не гоните на топегстартера особо, когда все будет работать как часы вы увидите восход новой звезды синонимайзинга, убийцу гугла! smail40.gif
Не на самом деле - мне уже интерестно/ icon_smile.gif

Да, ТС мыслит в верном направлении имхо, во всяком случае явно вник в проблематику, к которой другие продукты даже близко пока не подошли.
Но учитывыя предновогоднюю лажу с несостоявщейся продажей того что теперь оказывается требует тестирования, как-то теперь поубавилось желания покупать при таком несерьезном отношении к делу... Хотя поглядим.... Мысли, повторюсь, верные...

Последний раз редактировалось: Man (27/01/08 в 21:51), всего редактировалось 1 раз
цитата
27/01/08 в 21:50
 Man
SEOcar писал:
Именно он icon_smile.gif
Решил еще немного доработать. А тут новая база данных подоспела. Пришлось все базы заново пересобирать. А тут новый год. Все мы люди icon_smile.gif

А вообще доработка софта во славу его качества еще не вредила.

Говно вопрос icon_smile.gif
Смотреть когда можно будет?
цитата
27/01/08 в 21:52
 SEOcar
Man писал:
Смотреть когда можно будет?

Результаты или готовую версию?
цитата
27/01/08 в 22:09
 Man
SEOcar писал:
Результаты или готовую версию?

То что можно будет купить icon_smile.gif
цитата
27/01/08 в 22:16
 alexf2000
Ок, если нельзя сказать как именно ищутся слова, поставлю вопрос по другому. icon_smile.gif В синонимайзере число синонимов для какого-нибудь произвольного слова больше чем их есть в ворднете или меньше?
Пример когда слово являющееся синонимом, неправильно заменяется в контексте:
director on the board - что-то вроде председатель правления
director on the card - бред, несмотря на то, что board в значении "карты" является синонимом слова card как карта
цитата
27/01/08 в 22:20
 SEOcar
Man писал:
То что можно будет купить icon_smile.gif

Меня сейчас очень интересует уровень качества. Если он является приемлемым, то очень скоро icon_smile.gif
цитата
27/01/08 в 22:37
 SEOcar
alexf2000 писал:
Ок, если нельзя сказать как именно ищутся слова, поставлю вопрос по другому. icon_smile.gif В синонимайзере число синонимов для какого-нибудь произвольного слова больше чем их есть в ворднете или меньше?

Столько же. Потому что Wordnet является эталоном для подобных систем.
alexf2000 писал:
Пример когда слово являющееся синонимом, неправильно заменяется в контексте:
director on the board - что-то вроде председатель правления
director on the card - бред, несмотря на то, что board в значении "карты" является синонимом слова card как карта

Здесь все очень просто.

Слово "board" имеет 9 значений как существительное и 4 значения как прилагательное. Мы определяем, что в предложении "director on the board" board является существительным.

Далее мы определяем, что в данном предложении под словом "board" подразумевается следующий смысл: a committee having supervisory powers; "the board has seven members"

Далее смотрим синонимы этого смысла:
В данном случае это только одно слово "board".
Значит мы не можем заменить это слово на какое либо другое, поскольку их просто напросто нет (нет в словаре, хотя могут существовать в реальности).
цитата
27/01/08 в 23:12
 alexf2000
SEOcar писал:
Столько же. Потому что Wordnet является эталоном для подобных систем.

Ок, ответ понятен.
SEOcar писал:
Далее мы определяем, что в данном предложении под словом "board" подразумевается следующий смысл: a committee having supervisory powers; "the board has seven members"

Интересно каким образом определяется, что смысл именно этот, а не какой-то другой из 9 возможных?
цитата
27/01/08 в 23:15
 SEOcar
alexf2000 писал:
Интересно каким образом определяется, что смысл именно этот, а не какой-то другой из 9 возможных?

А вот это и есть главная задача, которую я решил icon_smile.gif
цитата
27/01/08 в 23:20
 alexf2000
Тогда по идее должно хорошо заменять. icon_smile.gif Но если число возможных синонимов строго соответствует тому что есть в воднете, то может всё равно работать не вполне правильно, например заменяя слова на какие-то странные синонимы, типа поэтических или устаревших слов, хотя и имеющие тот же смысл.
цитата
27/01/08 в 23:24
 SEOcar
alexf2000 писал:
Тогда по идее должно хорошо заменять. icon_smile.gif

ИМХО это единственно правильный путь.
alexf2000 писал:
Но если число возможных синонимов строго соответствует тому что есть в воднете, то может всё равно работать не вполне правильно, например заменяя слова на какие-то странные синонимы, типа поэтических или устаревших слов, хотя и имеющие тот же смысл.

Есть такая проблема. Но все эти "поэтические" синонимы просто со временем будут помечены как не учавствующие в выборе синонимов. Тоесть нормальное слово не может быть синонимизировано на "поэтическое", но "поэтическое" может быть синонимизированно на нормальное.
цитата
27/01/08 в 23:38
 SEOcar
Концепция и политика распространения

Данный синонимайзер я создавал преимущественно для собственных нужд. Однако принял решение о продаже нескольких его копий. База данных синонимайзера и сам алгоритм синонимизации содержат многие мелкие косяки, которые я буду со временем устранять. Устранить их все в сжатые сроки просто не реально, поскольку база данных содержит сотни тысяч слов, которые очень тесно связанны друг с другом различными связями. Сам алгоритм синонимизации имеет очень много эвристических моментов, поэтому оттестировать его на различных текстах также довольно сложно. Со временем я буду фиксить все эти моменты для себя. Все обновления (как базы данных, так и самого алгоритма) будут бесплатно доступны для тех, кто приобретет сие творение.

Поскольку количество синонимов на каждое слово ограничено, то при росте количества синонимизированных вариантов одного и того же текста начинает расти и вероятность появления дублей. Причем вероятность роста дублей будет одинакова для всех владельцев синонимизатора. В связи с этим будет применяться "сдерживающая" политика распространения: чем больше копий будет продано, тем выше будет цена.
Стр. 1, 2  >  последняя »


Эта страница в полной версии