Морфологический поиск

rubb
На сайте с 30.05.2007
Offline
38
603

Достаточно интересная задача встала передомной. Необходимо сделать поиск, причем морфологический поиск по базе статеек. Эти статейки взяты из периодических новостных изданий.

За 2 дня перечитал много всякой информации по поиску и его реализации, но ничего конкретного по алгоритмам реализации не нашел :(

Может кто-нибудь, что-нибудь уже делал или сделал? Посоветуйте, подскажите плиз.

rubb
На сайте с 30.05.2007
Offline
38
#1

Пишу на PHP, использую rumor для нахождения словоформ.

I
На сайте с 02.12.2005
Offline
99
#2

на этом подфоруме поищите информацию.

Динамика изменения курса евро и бакса (http://valuta.itemp.ru/)
MiRaj
На сайте с 03.07.2006
Offline
509
#3

rubb, здесь смотрели?

Муркетолог. 100 пресс-релизов с прямыми ссылками за 150 баксов? Легко! (http://b2blogger.com) Статейный маркетинг - лучшее лекарство от Минусинска! (http://miralinks.ru)
aspnet
На сайте с 17.09.2005
Offline
68
#4

Важно знать где ваши статейки - в базе, в хтмл.

В любом случае можно попробовать Yandex.Server - причем совершенно бесплатно - искать в технологиях яндекса

john2007
На сайте с 26.03.2007
Offline
173
#5

Когда-то делал простенький поисковик с учетом морфологии.

Берем список окончаний, список слов исключений (у которых конец слова может совпадать с каким-то окончанием, но реально это не окончание)

Эти списки брал у "Ищейки".

И вперед к индексации!

Делаем разбор текста, помещаем в индекс остатки слов без окончаний. Ну а формулу релевантности на сколько фантазия позволит :)

Можно даже как у Яндекса на РОМИП описано, пассажи, мягкость и все такое.

Совершая ошибки, мы не только учимся их не повторять, но и учимся прощать такие же ошибки другим... (с)
progress
На сайте с 11.07.2006
Offline
125
#6
john2007:
Когда-то делал простенький поисковик с учетом морфологии.
Берем список окончаний, список слов исключений (у которых конец слова может совпадать с каким-то окончанием, но реально это не окончание)

Эти списки брал у "Ищейки".

И вперед к индексации!
Делаем разбор текста, помещаем в индекс остатки слов без окончаний. Ну а формулу релевантности на сколько фантазия позволит :)
Можно даже как у Яндекса на РОМИП описано, пассажи, мягкость и все такое.

Это стемминг - поищите, есть готовые модули и для русского. Перловым могу поделится :)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий