Сервис обновили.
http://vface.controlstyle.ru/ns.php
Михаил, я уже нашел простое решение... "Алгоритм эвристического извлечения корня слова" (Стеммер Портер). Сегодня проапдейтим. Алгоритм несовершен, но, думаю этого будет вполне достаточно.
A/lekceu', там одна формула - та, которую топикстартер озвучил в 1-м посте. Все остальное простая статистика... пока что :).
Inoff, вы бы лучше привели url мне в личку :).
ХренРедькиНеСлаще, и все же по комбинациям самый интересный момент это момент подсчета слов в разных формах:
смешной йода
смешного йода
йода 2 раза
смешной - 2 или 1 раз?
MiRaj, уже поправлено, я синхронизировал данные по эксперименту ХРНС и теперь вроде бы более-менее совпадает. Вообще надо переписать с сортировкой по тегам, как Вы писали. Пока это вообще написано так, для себя ;).
ХренРедькиНеСлаще, ок, понятно.
ХренРедькиНеСлаще, а насколько верно считать инициалы с точкой союзом "и"? Я на http://vface.controlstyle.ru/ns.php не учитываю такие буквы. У меня там на 74-м документе ровно 12 штук "и" без инициалов.
MiRaj, была идея, может подскажите где можно почитать интересную информацию о морфологическом анализе?
не знаю о чем Вы, у меня там ровно 14 союзов "и".