- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Это стемминг называется. Прямо скажем, решение не совсем удачное, но когда вообще ничего нет и в прикладной лингвистике не разбираешься, на первое время сойдет. Хотя тогда начинают возникать интересные казусы. Например, по запросу 'лес' начинает находиться 'лесби' и т.д. (вон Keva хорошо знает, это его любимый запрос )
</font>
А если делат это по аналогу ispell? я мельком глянул, какая у них оргганизация данны - по моему очень подходит... и казусов таких не будет кстати в "лесби" корень разве "лес"?
А вообще собрать морфологию просто так, на ровном месте, очень трудно, даже если ты семи пядей во лбу - там одних только морфологических таблиц должно быть не менее 700 и взять их можно только у лингвистов или пытаться как-то синтезировать из подручных средств.
</font>
Все мои знакомые филологи занимаются не русским и на комп косо смотрят.... Про веб слышали только от меня. работа у них такая...
Хотя мне, в принципе, уже удалось создать довольно работоспособный
морфологический анализатор для существительных и прилагательных, который, правда, учитывает пока не все аспекты русского языка.
Слово "лес" не испохабил
но вот это не съел:
Парадигма для слова морфий:
морф морфы морфа морфов морфу морфам морф морфы морфом морфами морфе морфах
</font>
В общем, морфология - это куча хлопот и времени, так что если ее предлагают почти бесплатно, берите
это точно. Но мне интереснее самому в этом разобраться в комплекте с организацией данных.
Я так понимаю, что мне выпала честь общаться лично с автором? Очень приятно.....
Я на самом деле готов подписать этот договор... особенно после уточнения что же называть коммерческим использованием.
правда есть шанс, что у меня вообще не получится полученный материал использовать. Жизнь - сложная штука....</font>
Действительно с автором :-) А под некоммерческим использованием надо понимать использование в исследовательских и научных целях или в некоммерческих продуктах. Например, если Вы хотите выставить свой продукт, использующий этот морфоанализатор, в Сеть, то на этих страницах не должно быть баннеров :-) Короче, никакого извлечения денег :-)
Здорово все....
А есть ли менее комерческие реализации?
или более простые решения - по типу того, что я говорил - отбрасывать окончания и возможно суффикс за компанию....
</font>
Это стемминг называется. Прямо скажем, решение не совсем удачное, но когда вообще ничего нет и в прикладной лингвистике не разбираешься, на первое время сойдет. Хотя тогда начинают возникать интересные казусы. Например, по запросу 'лес' начинает находиться 'лесби' и т.д. (вон Keva хорошо знает, это его любимый запрос )
А вообще собрать морфологию просто так, на ровном месте, очень трудно, даже если ты семи пядей во лбу - там одних только морфологических таблиц должно быть не менее 700 и взять их можно только у лингвистов или пытаться как-то синтезировать из подручных средств.
Хотя мне, в принципе, уже удалось создать довольно работоспособный
морфологический анализатор для существительных и прилагательных, который, правда, учитывает пока не все аспекты русского языка.
В общем, морфология - это куча хлопот и времени, так что если ее предлагают почти бесплатно, берите
Знаешь, ты, похоже, что-то перепутал :-) "лес" и "лесби" - это не мой любимый запрос :-) Хотя у меня их много. Например, "скотоложство" :-)
Кстати, посмотрел твою морфологию по ссылке. Работает, однако подтверждает твои слова о том, что это - куча хлопот и времени. Я свой нынешний любимый запрос скормил туда - и получил формы множественного числа, т. е. "скотоложствами" :-)
Кстати, в морфологии для использования в поисковых системах имеет смысл решить и еще один вопрос - вопрос альтернативного начертания. Например, обсуждаемое слово имеет альтернативное начертание "скотоложество", которое было бы неплохо тоже находить по моему нынешнему любимому запросу :-)
А в Рамблере мы уже довольно используем для нераспознанных морфологическим анализатором слов "нечеткую", т. е. вероятностную морфологию, но поиск не находит "лес" по запросу "лесби" :-)))
Короче, никакого извлечения денег :-)</font>
Так не бывает
а такой вопрос - на сколько он быстро работает? (к чему стремиться)
Так не бывает
а такой вопрос - на сколько он быстро работает? (к чему стремиться)</font>
Бывает-бывает
Производительность я давно не мерил, однако в свое время на Пентиуме ("первом") она молотила около десяти тысяч слов в секунду в режиме проверки орфографии и около пяти - в режиме лемматизации, то есть вытаскивания всех отождествлений, всех омонимов, и построения нормальных форм.
Бывает-бывает
Производительность я давно не мерил, однако в свое время на Пентиуме ("первом") она молотила около десяти тысяч слов в секунду в режиме проверки орфографии и около пяти - в режиме лемматизации, то есть вытаскивания всех отождествлений, всех омонимов, и построения нормальных форм.</font>
Звучит впечатляюще. Надо будет повнимательнее почитать о технологии. а то в превые 2 раза я не очень понял....
Пока что я доделываю поиск по словарю с обычным бинарным деревом думаю что тормозить сильно не будет... но лингвистикой конечно такие "математические" алгоритмы не очень дружат.
Какой прогноз специалиста?
...
Пока что я доделываю поиск по словарю с обычным бинарным деревом думаю что тормозить сильно не будет... но лингвистикой конечно такие "математические" алгоритмы не очень дружат.
</font>
Ты знаешь, есть несколько способов, а именно - много , организовать словарь. Я использую описанное на сайте дерево (кстати, через пару лет после того, как я сделал этот анализатор, такой подход был описан какими-то итальянцами или испанцами).
Поспрошай еще Илью (iseg) - у него словарь, насколько я помню, организован совсем по-другому, на разреженной хэш-таблице.
Можно даже на банальной дихотомии строить, только там придется несколько итераций проводить, постепенно уменьшая длину вероятной основы.
Поспрошай еще Илью (iseg) - у него словарь, насколько я помню, организован совсем по-другому, на разреженной хэш-таблице.
</font>
да, он поделился этим на 1 странице форума:
Дихотомия - это и есть бинарное дерево?
[This message has been edited by baranov (edited 05-10-2001).]
[Хотя мне, в принципе, уже удалось создать довольно работоспособный
морфологический анализатор для существительных и прилагательных, который, правда, учитывает пока не все аспекты русского языка.
В общем, морфология - это куча хлопот и времени, так что если ее предлагают почти бесплатно, берите </font>
вот парадигма слова стул на твоем анализаторе
Парадигма для слова стул:
стул стулы стула стулов стулу стулам стул стулы стулом стулами стуле стулах стул стулы стула стулов стулу стулам стул стулы стулом стулами стуле стулах
Знаешь, ты, похоже, что-то перепутал :-) "лес" и "лесби" - это не мой любимый запрос :-) </font>
Я имел в виду только "лес" - полгода назад серьезно за него получил по рукам Стемминг у меня тогда дал баг и давал шаблончик вроде "лес\w+", по которому я и пролетел По тому, как профессионально меня потом в форуме распекли и какой был ник, я и подумал... в общем, сорри, значит ошибся.
Кстати, в морфологии для использования в поисковых системах имеет смысл решить и еще один вопрос - вопрос альтернативного начертания. Например, обсуждаемое слово имеет альтернативное начертание "скотоложество", которое было бы неплохо тоже находить по моему нынешнему любимому запросу :-)
</font>
Для этого нужен хороший большой словарь. А пока нету
А в Рамблере мы уже довольно используем для нераспознанных морфологическим анализатором слов "нечеткую", т. е. вероятностную морфологию, но поиск не находит "лес" по запросу "лесби" :-)))</font>
Тут нужно хотя бы попытаться нормальную четкую морфологию родить