Походу только ИИ ? :)

12
DI
На сайте с 03.01.2007
Offline
123
#11
T.R.O.N:
Но это уже совсем иная история.

Да, это как раз реализуется стеммингом (вычленение основы слова). Функцию сходу не подскажу, но во многих CMS, поисковых скриптах ее можно позаимствовать за 5 минут:)

Высказывание идиотского утверждения требует на порядок меньше усилий, чем его последовательное и обоснованное опровержение и более того, иногда это опровержение вообще невозможно. © (http://zhurnal.lib.ru/s/shapiro_m_a/raspidiota.shtml)
T.R.O.N
На сайте с 18.05.2004
Offline
314
#12
DenIT:
Функцию сходу не подскажу, но во многих CMS, поисковых скриптах ее можно позаимствовать за 5 минут

улыбнуло...

Из реально работающих и доступных видел только яшин http://company.yandex.ru/technology/mystem/ . А на счет CMS - это слишком любительские продукты для того, чтобы иметь внутри себя что-то серьезное.

От воздержания пока никто не умер. Хотя никто и не родился! Prototype.js был написан теми, кто не знает JavaScript, для тех, кто не знает JavaScript (Richard Cornford)
DI
На сайте с 03.01.2007
Offline
123
#13
T.R.O.N:
улыбнуло...

Взаимно:)

Морфологический анализ и Стемминг - это разные вещи, причем последний реализуется достаточно простыми алгоритмами, и словари для этого совершенно ни к чему. Разумеется, результаты тоже разные, но у стемминга и не стоит задача полного морфологического анализа, он используется как раз для таких случаев.

Николай В.
На сайте с 07.09.2006
Offline
62
#14

Вставлю свои пять копеек. У меня нужный ТС алгоритм используется при выводе сниппетов.

Реализуется все достаточно просто:

RuMor — дешевый и сердитый морфологический анализатор, включает в себя словарь в семь мегабайт, пхп и перл-скрипты для работы, неплохо подходит для извлечения основ слов и построения индексов. Для слов, которые РуМор не в состоянии осилить, использую «классический» стеммер Портера (в качестве примера подойдет версия Котерова).

SJ
На сайте с 16.03.2008
Offline
78
#15
T.R.O.N:
улыбнуло...
Из реально работающих и доступных видел только яшин http://company.yandex.ru/technology/mystem/ . А на счет CMS - это слишком любительские продукты для того, чтобы иметь внутри себя что-то серьезное.

Ай, не все так сложно.

У меня на diff.biz.ua/keywords.php и стемминг, и морфология юзается. И ничего сложного там нет...

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?
T.R.O.N
На сайте с 18.05.2004
Offline
314
#16

DenIT, sokol_jack, просто привык если делать, то делать. А то получаются очень кривые вещи. Когда используется простая форма стемминга - получается все хорошо, ровно до тех пор, пока тексты написанны без особых изощрений. Попробуйте вспомнить скольок путаницы было на тойже вики лет 5-7 назад. Видимо тоже использовались упрощенные алгоритмы...

sokol_jack:
У меня на diff.biz.ua/keywords.php и стемминг, и морфология юзается. И ничего сложного там нет...

прикольно. действительно, для большинства обшетематических сайтов подойдет

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий