Ура. Дописал свой синонимайзер.

discman13
На сайте с 16.07.2007
Offline
91
#71
garem:
Вообще-то, все дело в необходимости и достаточности, для дорвеев это конечно многовато, а для каталога статей или банка рефератов вполне достаточно, если же вы желаете ХОРОШОЧИТАЕМую УНИКАЛЬНую статью, Вам придется написать ее самому, или использовать совсем другие вычислительные мощности и абсолютно другие алгоритмы, думаю и людских ресурсов надо раз в 10-15 больше.

Ну я не прошу синтез речи, я всего лишь прошу грамотную замену :)

snoopckuu не останавливается на достигнутом, так что подождем... 🚬

snoopckuu
На сайте с 26.02.2006
Offline
34
#72

discman13, продолжение следует... :)

Разработчик поисковых систем и алгоритмов. Я умнее яндекса. Мой синонимайзер. (http://se.o0o.ru)
garem
На сайте с 08.06.2006
Offline
35
#73

Гы, с самооценкой у тебя все нормально, если не дурак хорошенько просмотри, что выдает май скрипт, там все на ладони, я проходил эти этапы, понадобиться совет стукни в личку.

Удачи тебе и всех благ.

СССР - Семантический Серверный Синонимайзер Рерайтер. (http://www.blogka.ru)
antono
На сайте с 12.07.2004
Offline
285
#74

Довольно неплохой результат, но база синонимов нуждается в доработке, так как иногда синонимы подставляет не подходящие ни под какие предложения.

Порадовало преобразование: "добро пожаловать" в "идти припереться" :)

sergek
На сайте с 04.08.2007
Offline
109
#75
antiplagiat.ru нашел по итоговому тексту нашел источники, 72% совпадений.

посмотрел, прикинул... 15-20 процентов текста ещё можно заменить без значительной потери смысла, но на большее... надо человека или сильно раскорячиться.

подпись как подпись
john2007
На сайте с 26.03.2007
Offline
173
#76

Задумка не плохая.

Но, что бы реализовать более менее приличный синонимайзер, ИМХО, требуется не месяцы, а годы упорной работы, еще желательно силами команды.

Вот список проблем Вашего прототипа, которые я вижу на вскидку:

1) Для задач синонимайзера у Вас не база синонимов, а сплошной мусор.

Собственно говоря, база Lingvo базируется на словаре ASIS(r), Тришина, которая тоже для таких задач - сборник мусора.

На данный момент подходящих словарей синонимов просто нет, ни в электронном ни в печатном виде.

Даже в самых лучших словарях указанные слова не являются 100% синонимами, а синонимами, так сказать в зависимости от контекста.

Т.е. в определенном контексте их можно использовать, а в определенном нет. И процент семантических ошибок будет даже не 10% :)

Например, для "быстрый", синонимы - "беглый", "скорый". И получится, например, из "быстрого бегуна" "беглый бегун" :)

2) Помимо базы синонимов у Вас должна быть база фразеологизмов (идиом, устоявшихся выражений), что бы Вы не начали синонимизировать "железная дорога", например.

И не получили в результате "стальная дорога", например.

Кроме того, нужна база всяких пословиц, крылатых фраз и т.д.

3) Проблемы с малым количеством 100% синонимов побуждают расширять их количество за счет синонимичных глаголов, в частности.

Это в свою очередь (впрочем, как и без этого, Вы и без глаголов, как я вижу, с этим столкнулись) влечет необходимость синтаксического разбора.

Морфологический и синтаксический разборы, кроме, собственно говоря, трудозатрат на реализацию несут множество проблем - морфологическая и синтаксическая омонимия, проблемы с именами собственными и т.д.

Еще одна проблема - запятые, без которых правильный синтаксический разбор затруднителен. А кто же Вам в исходных текстах правильную расстановку запятых предоставит.

Ну, и конечно, зарабатывать на этом нужно не 10 000$ в год, выпуская программный продукт, а сотни тысяч долларов, организовывая сервис постатейного перевода, с оплатой 1$ за 2500 знаков, например.

А, учтя еще и семантические связи, можно на выходе получить уже рерайтер. Задача в разы сложнее, но и дохода дающая в разы больше.

Идея заманчивая, и для умных людей вполне реализуемая, правда, как я уже говорил, не в очень короткие сроки.

Я бы и сам, думаю, с успехом, в этом поучаствовал и на уровне организации и на уровне реализации, но проект, так сказать, сильно венчурный.

Я и на более простые вещи, как-то не решаюсь :)

А Вам удачи, на этом не легком пути!

Совершая ошибки, мы не только учимся их не повторять, но и учимся прощать такие же ошибки другим... (с)
V
На сайте с 10.06.2007
Offline
26
#77

john2007, все верно написал... прямо ТЗ на разработку... и архисложнейшая из описанных задач - омономия и даже не синтаксическая, а морфо...

а имена собственные - туфта на самом деле...

вот сокращения - это да!!!

Одно "Лидера БЮТ Юлию Тимошенко..." чего стоит... попробуйте расшифровать и с глузу не съехать ни разу - "Лидера Блока Юлии Тимошенко Юлию Тимошенко"... брр-р-р...

А ещё "мать любит дочь" - хде здесь подлежащее????

john2007
На сайте с 26.03.2007
Offline
173
#78
Videoson:

а имена собственные - туфта на самом деле...

На самом деле, не такая простая задача. Если говорить про имена и фамилии, например, не забывая, что они не толко русские бывают.

Как определить какого рода?

Как определить склоняется или нет?

База имен собственных нужна.

Или корпус русского языка, желательно постоянно пополняемый новостями.

Вообще, корпус от многих проблем спасает. Опять же, с учетом того, что сервис делать, а не программный оффлайновый продукт, проблема больших объемов особенно не волнует 🚬

V
На сайте с 10.06.2007
Offline
26
#79
john2007:
На самом деле, не такая простая задача. Если говорить про имена и фамилии, например, не забывая, что они не толко русские бывают.
Как определить какого рода?
Как определить склоняется или нет?
База имен собственных нужна.
Или корпус русского языка, желательно постоянно пополняемый новостями.
Вообще, корпус от многих проблем спасает. Опять же, с учетом того, что сервис делать, а не программный оффлайновый продукт, проблема больших объемов особенно не волнует 🚬

правда есть одно маленькое, но красивое решение...

ЗЫ и не только база собственных... там дафига чего ещё нужна...

та ну его...

john2007
На сайте с 26.03.2007
Offline
173
#80
Videoson:
правда есть одно маленькое, но красивое решение...

Делимся! :)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий