MorfoDubl - Морфологический фильтр ключей и не только!

1 2345 6
NBSerG
На сайте с 04.09.2010
Offline
134
#31

По ли..

я отобрал все до 6 словников включительно получилось 10841 после обработки 9335.

не густо конечно но это из за того что ключи с кейколлектора...

Изготовление сайтов на Joomla (/ru/forum/726795) Такие деньги можно заработать только здесь!!! (http://goo.gl/k1oTJ) Выиграй Porsche Cayenne! (http://goo.gl/RqHaU)
NBSerG
На сайте с 04.09.2010
Offline
134
#32
burunduk:
тогда интересен немного другой вариант работы:
обработка массива фраз с составлением словаря массива с указанием частоты повтора слов :)

если можно будет юзать как консольное приложение вообще классно :)

а где и как это можно применить?

[Удален]
#33
NBSerG:
а где и как это можно применить?

в своём приложении :)

SS
На сайте с 02.02.2009
Offline
116
#34

NBSerG, на сколько помню всего две крупные разработки для морфологического анализа есть, первая от aot вторая от яндекса. Первая в большинстве идет под LGPL, вторая запрещена к использованию в коммерческой версии ПО.

Так как на счет лицензионности данной программы?

Удивительно
На сайте с 07.07.2009
Offline
215
#35

specialist-seo, есть еще phpMorphy

И, поскольку это софтина от phpsin, то, скорее всего, phpMorphy и используется - он пишет на каком-то жутком костыле PHP для Windows ))

Качественная семантика недорого ( https://moab.tools/ )
SS
На сайте с 02.02.2009
Offline
116
#36
Удивительно:
phpMorphy
И, поскольку это софтина от phpsin, то, скорее всего, phpMorphy и используется

phpMorphy распространяется под лицензией GNU LESSER GENERAL PUBLIC LICENSE

GNU GPL требует распространения с двоичными файлами (в том числе неизменными) исходного кода или письменного обязательства его предоставить (своего или чужого; способы зависят от версии лицензии). Некоторые авторы считают, что это требование непривычно для отдельных пользователей и разработчиков, и не является для них очевидным и понятным.

Интересные факты

Microsoft распространяет для владельцев нетбуков USB-ключи с программой установки Windows 7. Однако выяснилось, что программа содержит код, находящийся под GPL. В ноябре 2009 года Microsoft извинилась перед покупателями и пообещала открыть код программы[11][12]. 10 декабря 2009 года Microsoft окончательно открыла исходные коды Windows 7 USB/DVD Download Tool под лицензией GPLv2

источник wikipedia

p.s.

не юрист, так что если где-то ошибаюсь, поправляйте

Abrupt
На сайте с 13.01.2011
Offline
117
#37
specialist-seo:
на сколько помню всего две крупные разработки для морфологического анализа есть, первая от aot вторая от яндекса.

А если свою собственную разработать? Разве нельзя? Или это невозможно?

Удивительно
На сайте с 07.07.2009
Offline
215
#38

В законодательстве нет четкого определения всех этих лицензий и обозначения ответственности за их несоблюдение. Поэтому, если закрыть глаза, то можно и mystem юзать в коммерческих программах и ничего за это не будет юридически.

Если проверяющие органы захотят придраться к чему-то - они найдут к чему и без вникания в тонкости GPL.

Abrupt:
А если свою собственную разработать? Разве нельзя? Или это невозможно?

Можно, но довольно трудно и затратно по времени. Кроме того, требует досконального знания языка на уровне морфологии.

SS
На сайте с 02.02.2009
Offline
116
#39

Abrupt, возможно, но очень долго один словарь для конечных автоматов ни один год займет

По лицензии самому интересно, может найдутся юристы пояснят, вот еще что нашел про LGPL

GNU LGPL позволяет линковать с данной библиотекой или программой программы под любой лицензией, несовместимой с GNU GPL, при условии, что такая программа не является производной от объекта, распространяемого под (L)GPL, кроме как путём линкования.

http://ru.wikipedia.org/wiki/LGPL

Удивительно, но есть об авторском праве, в данном случае оно AOT принадлежит, который вроде бы сейчас вошел в Яндекс.

---------- Добавлено 07.06.2012 в 17:53 ----------

NBSerG:
Например есть строка: " быстро купить новый камаз" , для поиска дублей программа переберет все возможные варианты:
купить быстро новый камаз, быстро новый купить камаз, новый быстро купить камаз, купить новый быстро камаз, новый купить быстро камаз, быстро купить камаз новый, купить быстро камаз новый, быстро камаз купить новый, камаз быстро купить новый, купить камаз быстро новый, камаз купить быстро новый, быстро новый камаз купить, новый быстро камаз купить, быстро камаз новый купить, камаз быстро новый купить, новый камаз быстро купить, камаз новый быстро купить, купить новый камаз быстро, новый купить камаз быстро, купить камаз новый быстро, камаз купить новый быстро, новый камаз купить быстро, камаз новый купить быстро.
Во всех их словоформах
Максимальное количество слов в словосочетании для анализа всех его вариантов не должно превышать 7ми. Так как количество вариантов растет в геометрической прогрессии и для словосочетания из 7ми слов оно составляет 5040 вариантов.

Как программист программисту, зачем такие сложности, там алгоритм простейший без переборов, хотя не знаю сколько это на php занимает, на питоне это две строки кода

alfalaval
На сайте с 15.10.2010
Offline
64
#40
burunduk:
в своём приложении :)

алексей, а почем не используете яззл? там это есть, мы давным давно используем его. практически единственный и реально работающий публичный составитель частотных словарей с поддержкой русского и английского языка. Хотя конечно для производственнной необходимости все равно приходится делать собственное решение(

---------- Добавлено 12.06.2012 в 13:52 ----------

NBSerG:
а где и как это можно применить?

о, это отдельный разговор...тут такое поле непаханое)

1 2345 6

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий