- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Это стемминг называется. Прямо скажем, решение не совсем удачное, но когда вообще ничего нет и в прикладной лингвистике не разбираешься, на первое время сойдет. Хотя тогда начинают возникать интересные казусы. Например, по запросу 'лес' начинает находиться 'лесби' и т.д. (вон Keva хорошо знает, это его любимый запрос
</font>
А если делат это по аналогу ispell? я мельком глянул, какая у них оргганизация данны - по моему очень подходит... и казусов таких не будет
кстати в "лесби" корень разве "лес"?
А вообще собрать морфологию просто так, на ровном месте, очень трудно, даже если ты семи пядей во лбу - там одних только морфологических таблиц должно быть не менее 700 и взять их можно только у лингвистов или пытаться как-то синтезировать из подручных средств.
</font>
Все мои знакомые филологи занимаются не русским и на комп косо смотрят.... Про веб слышали только от меня.
работа у них такая...
Хотя мне, в принципе, уже удалось создать довольно работоспособный
морфологический анализатор для существительных и прилагательных, который, правда, учитывает пока не все аспекты русского языка.
Слово "лес" не испохабил
но вот это не съел:
Парадигма для слова морфий:
морф морфы морфа морфов морфу морфам морф морфы морфом морфами морфе морфах
</font>
В общем, морфология - это куча хлопот и времени, так что если ее предлагают почти бесплатно, берите
это точно. Но мне интереснее самому в этом разобраться в комплекте с организацией данных.
Я так понимаю, что мне выпала честь общаться лично с автором? Очень приятно.....
Я на самом деле готов подписать этот договор... особенно после уточнения что же называть коммерческим использованием.
правда есть шанс, что у меня вообще не получится полученный материал использовать. Жизнь - сложная штука....</font>
Действительно с автором :-) А под некоммерческим использованием надо понимать использование в исследовательских и научных целях или в некоммерческих продуктах. Например, если Вы хотите выставить свой продукт, использующий этот морфоанализатор, в Сеть, то на этих страницах не должно быть баннеров :-) Короче, никакого извлечения денег :-)
Здорово все....
А есть ли менее комерческие реализации?
или более простые решения - по типу того, что я говорил - отбрасывать окончания и возможно суффикс за компанию....
</font>
Это стемминг называется. Прямо скажем, решение не совсем удачное, но когда вообще ничего нет и в прикладной лингвистике не разбираешься, на первое время сойдет. Хотя тогда начинают возникать интересные казусы. Например, по запросу 'лес' начинает находиться 'лесби' и т.д. (вон Keva хорошо знает, это его любимый запрос
А вообще собрать морфологию просто так, на ровном месте, очень трудно, даже если ты семи пядей во лбу - там одних только морфологических таблиц должно быть не менее 700 и взять их можно только у лингвистов или пытаться как-то синтезировать из подручных средств.
Хотя мне, в принципе, уже удалось создать довольно работоспособный
морфологический анализатор для существительных и прилагательных, который, правда, учитывает пока не все аспекты русского языка.
В общем, морфология - это куча хлопот и времени, так что если ее предлагают почти бесплатно, берите
Знаешь, ты, похоже, что-то перепутал :-) "лес" и "лесби" - это не мой любимый запрос :-) Хотя у меня их много. Например, "скотоложство" :-)
Кстати, посмотрел твою морфологию по ссылке. Работает, однако подтверждает твои слова о том, что это - куча хлопот и времени. Я свой нынешний любимый запрос скормил туда - и получил формы множественного числа, т. е. "скотоложствами" :-)
Кстати, в морфологии для использования в поисковых системах имеет смысл решить и еще один вопрос - вопрос альтернативного начертания. Например, обсуждаемое слово имеет альтернативное начертание "скотоложество", которое было бы неплохо тоже находить по моему нынешнему любимому запросу :-)
А в Рамблере мы уже довольно используем для нераспознанных морфологическим анализатором слов "нечеткую", т. е. вероятностную морфологию, но поиск не находит "лес" по запросу "лесби" :-)))
Короче, никакого извлечения денег :-)</font>
Так не бывает
а такой вопрос - на сколько он быстро работает? (к чему стремиться)
Так не бывает
а такой вопрос - на сколько он быстро работает? (к чему стремиться)</font>
Бывает-бывает
Производительность я давно не мерил, однако в свое время на Пентиуме ("первом") она молотила около десяти тысяч слов в секунду в режиме проверки орфографии и около пяти - в режиме лемматизации, то есть вытаскивания всех отождествлений, всех омонимов, и построения нормальных форм.
Бывает-бывает
Производительность я давно не мерил, однако в свое время на Пентиуме ("первом") она молотила около десяти тысяч слов в секунду в режиме проверки орфографии и около пяти - в режиме лемматизации, то есть вытаскивания всех отождествлений, всех омонимов, и построения нормальных форм.</font>
Звучит впечатляюще. Надо будет повнимательнее почитать о технологии. а то в превые 2 раза я не очень понял....
Пока что я доделываю поиск по словарю с обычным бинарным деревом
думаю что тормозить сильно не будет... но лингвистикой конечно такие "математические" алгоритмы не очень дружат.
Какой прогноз специалиста?
...
Пока что я доделываю поиск по словарю с обычным бинарным деревом
</font>
Ты знаешь, есть несколько способов, а именно - много
, организовать словарь. Я использую описанное на сайте дерево (кстати, через пару лет после того, как я сделал этот анализатор, такой подход был описан какими-то итальянцами или испанцами).
Поспрошай еще Илью (iseg) - у него словарь, насколько я помню, организован совсем по-другому, на разреженной хэш-таблице.
Можно даже на банальной дихотомии строить, только там придется несколько итераций проводить, постепенно уменьшая длину вероятной основы.
Поспрошай еще Илью (iseg) - у него словарь, насколько я помню, организован совсем по-другому, на разреженной хэш-таблице.
</font>
да, он поделился этим на 1 странице форума:
Дихотомия - это и есть бинарное дерево?
[This message has been edited by baranov (edited 05-10-2001).]
[Хотя мне, в принципе, уже удалось создать довольно работоспособный
морфологический анализатор для существительных и прилагательных, который, правда, учитывает пока не все аспекты русского языка.
В общем, морфология - это куча хлопот и времени, так что если ее предлагают почти бесплатно, берите
вот парадигма слова стул на твоем анализаторе
Парадигма для слова стул:
стул стулы стула стулов стулу стулам стул стулы стулом стулами стуле стулах стул стулы стула стулов стулу стулам стул стулы стулом стулами стуле стулах
Знаешь, ты, похоже, что-то перепутал :-) "лес" и "лесби" - это не мой любимый запрос :-) </font>
Я имел в виду только "лес" - полгода назад серьезно за него получил по рукам
Стемминг у меня тогда дал баг и давал шаблончик вроде "лес\w+", по которому я и пролетел
По тому, как профессионально меня потом в форуме распекли и какой был ник, я и подумал... в общем, сорри, значит ошибся.
Кстати, в морфологии для использования в поисковых системах имеет смысл решить и еще один вопрос - вопрос альтернативного начертания. Например, обсуждаемое слово имеет альтернативное начертание "скотоложество", которое было бы неплохо тоже находить по моему нынешнему любимому запросу :-)
</font>
Для этого нужен хороший большой словарь. А пока нету
А в Рамблере мы уже довольно используем для нераспознанных морфологическим анализатором слов "нечеткую", т. е. вероятностную морфологию, но поиск не находит "лес" по запросу "лесби" :-)))</font>
Тут нужно хотя бы попытаться нормальную четкую морфологию родить