Морфологический поиск

38

rubb

20 июня 2007, 00:13

608

Достаточно интересная задача встала передомной. Необходимо сделать поиск, причем морфологический поиск по базе статеек. Эти статейки взяты из периодических новостных изданий.

За 2 дня перечитал много всякой информации по поиску и его реализации, но ничего конкретного по алгоритмам реализации не нашел :(

Может кто-нибудь, что-нибудь уже делал или сделал? Посоветуйте, подскажите плиз.

38

rubb

20 июня 2007, 00:20

#1

Пишу на PHP, использую rumor для нахождения словоформ.

I

99

iDrum

20 июня 2007, 05:19

#2

на этом подфоруме поищите информацию.

Динамика изменения курса евро и бакса (http://valuta.itemp.ru/)

509

MiRaj

20 июня 2007, 05:24

#3

rubb, здесь смотрели?

Муркетолог. 100 пресс-релизов с прямыми ссылками за 150 баксов? Легко! (http://b2blogger.com) Статейный маркетинг - лучшее лекарство от Минусинска! (http://miralinks.ru)

68

aspnet

20 июня 2007, 05:52

#4

Важно знать где ваши статейки - в базе, в хтмл.

В любом случае можно попробовать Yandex.Server - причем совершенно бесплатно - искать в технологиях яндекса

173

john2007

20 июня 2007, 06:15

#5

Когда-то делал простенький поисковик с учетом морфологии.

Берем список окончаний, список слов исключений (у которых конец слова может совпадать с каким-то окончанием, но реально это не окончание)

Эти списки брал у "Ищейки".

И вперед к индексации!

Делаем разбор текста, помещаем в индекс остатки слов без окончаний. Ну а формулу релевантности на сколько фантазия позволит :)

Можно даже как у Яндекса на РОМИП описано, пассажи, мягкость и все такое.

Совершая ошибки, мы не только учимся их не повторять, но и учимся прощать такие же ошибки другим... (с)

125

progress

20 июня 2007, 07:52

#6

john2007:
Когда-то делал простенький поисковик с учетом морфологии.
Берем список окончаний, список слов исключений (у которых конец слова может совпадать с каким-то окончанием, но реально это не окончание)

Эти списки брал у "Ищейки".

И вперед к индексации!
Делаем разбор текста, помещаем в индекс остатки слов без окончаний. Ну а формулу релевантности на сколько фантазия позволит :)
Можно даже как у Яндекса на РОМИП описано, пассажи, мягкость и все такое.

Это стемминг - поищите, есть готовые модули и для русского. Перловым могу поделится :)

Переиграть и победить: как анализировать конкурентов для продвижения сайта

Дзен реализовал для авторов возможность вывода денег через СПБ