Нужен синомайзер

1 234
maxstepan
На сайте с 27.10.2008
Offline
142
#31
malls:

Простой пример, одно из самых часто употребляемых слов языка: "быть".
1. Те кто просто передрал словарь синонимов из Яндекс.Словарей - отдыхают.
2. Те кто догадался его ручками переработать (несчастные глупцы), обычно подставляют что-нибудь в духе "быть -> являться".
3. Остальные смотрят на бред который получается в результате синонимайзинга, фразы: "Как быть?" и поменяв в словаре "быть -> существовать" - потирают руки и спешат сообщить всему СЕО сообществу о выходе нового, уникального програмного продукта, за смешные деньги.
4. Те, кого увлек успех предыдущих, на фоне продаж ихнего бредогенератора, пробуя синонимизировать фразу "Быть в курсе событий!", понимают что третий вариант не катит и заменяют в словаре №3 пару на: "быть -> находиться" и конечно сразу же заявляют о релизе новейшего синонимайзера всех времен и народов, напрочь устраняющего конкурентов.
5. Пятые покупают продукт у 4-х, и сталкиваясь со словосочетанием "Быть самим собой", тихо стонут, скрипят зубами, и меняют в словаре пару на "быть -> являться"... Что именно они делают после этого - думаю уже понятно...

Я с вами не много ни согласен. Мне кажется нельзя забывать, что русский язык очень обширный и не очень простой в плане понимания его иностранцами. Одно слово в нём может трактоваться по разному. Поэтому просто не стоит составлять синонимы к тем словам, которые могут нести разные смысловые понятия.

Hkey
На сайте с 30.09.2006
Offline
222
#32
maxstepan:
Я с вами не много ни согласен. Мне кажется нельзя забывать, что русский язык очень обширный и не очень простой в плане понимания его иностранцами. Одно слово в нём может трактоваться по разному. Поэтому просто не стоит составлять синонимы к тем словам, которые могут нести разные смысловые понятия.

Счас работаю над автоматическим синомайзингом. Несмотря на 30 вариантов пометов словарной замены. В среднем на одну замену необходимо написать 40 исключений. Это во первых из-за сочетаемости слов (Если в инете кто-то видел словарь сочетаемости - скажите). Во вторых из-за множественных значений слова. Например слово работа имеет 10 значений по вики-словарю.

http://ru.wiktionary.org/wiki/%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%B0.

Если все эти вариации значения не имеют одинаковой замены (далее вариации замены), то либо из контекста следует определить, что есть 90% процентная вероятность, что это вариацию замены, либо исключить 90% неправильных вариантов замены. Звучит сложно, но например, слово ШТУКА. Может означать:

1. вещь (жизнь - сложная штука)

2. Один рулон ткани. (Штука Ситца)

3. Тысяча. сленг (штука баксов)

Прямой метод. Мы включаем только контексты 1. (Далее в фигурных скобках контекст)

{сложная|нелегкая|непростая|и так далее} ШТУКА-> {...} Вещь

Обратный метод - мы исключаем контексты 2 и 3

ШТУКА->ВЕЩЬ

ШТУКА {СИТЦА|БАРХАТА|ТКАНИ|БАКСОВ|КРАСНОЙ|СИНЕЙ| и так далее}==ИСКЛЮЧЕНИЯ

При наличии хорошей абстрактной модели вместо второй строки можно написать

ШТУКА {?ЧЕГО?}==ИСКЛЮЧЕНИЯ

Слово рассмотренное - довольно простое. Я привел не кусок своей базы по нему, а упрощенную ее часть. Например, стилистику портит замена "сложная штука"->"сложная вещь", лучше по стилистике "довольно сложная вещь".

И последняя, третья причина, множества исключений это установившиеся выражения. Я просто их собираю отдельно...

Есть и другие причины исключения замены. Например, есть главное слово, есть зависимые слова в словосочетании (Далее ГС и ЗС). Например, "красная(ЗС) машина(ГС) быстро ехала(ЗС) по улице." Если мы заменяем ГС, но не можем установить точно род или число (мы имеем несколько возможных сочетаний) Синонима и написание ЗС в этих возможных сочетаниях разное, то мы не можем проводить замену. Поскольку она может произвести к потере сочетаемости по роду или падежу ГС и ЗС. Если в программе нет возможности автоматического приведения рода и падежа ЗС к роду и падежу главного, то программа может заменять только если синонимы имеют одинаковый род и падеж или нет ЗС.

Если кому-то интересно, то я расскажу как полуавтоматом строить контекстные ограничения. В статье на блоге...

HTraffic.ru (http://HTraffic.ru/) - удобная система для управления контекстной рекламой. тема на форуме (/ru/forum/810827) HTracer (http://htracer.ru/) - скрипт для автопродвижения сайтов по НЧ и СЧ запросам. Для больших сайтов от 100 страниц. (тема на форуме (/ru/forum/676867))
1 234

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий