Раз уж разговор зашел о проверке работы поисковых алгоритмов - то где можно взять более-менее универсальный тест для оценки работы поисковой системы?
Приношу свои извинения, за вопрос...
Наверное, я не совсем хорошо понимаю методов индексации.
Спасибо
Я, наверное, задал вопрос не совсем корректно, вопрос касается поисковых технологий и индексации текстов, попробую пояснить - необходимо для каждого входного слова поставить в соответствие некий идентификатор(число) который бы однозначно характиризовал это слово, в связи с этим возникает вопрос с каким объемом русских лемм сталкиваются/работают существующие поисковые системы. Какую размерность индекса используют. Спасибо.
Почему?
Вопрос вполне простой - сколько бит нужно отвести для индексации, чтобы охватить как можно больше лемм.
Т.е. при поиске пользователю выдается список уточнений - основанный на таких цепочках, и остальной поиск происходит через уточнение в каком именно контексте (окружении слов) он желает получить ответ?
Хех...
Большое спасибо, приступаю
Слишком много слов, которые в результате набора статистики не будут упомянуты. Много ручной работы.
Основная цель - сделать более менее эталонный "Зализняк", покрытие словаря - не очень интерисует.
У меня словарь Зализняка подчистился до 83 тыс. слов - прогон на текстах выявляет лишь отсутствие словоформы в словаре. Но - при получении парадигмы из словарной статьи у меня могли быть ошибки, хоть и руками все выверял. Вот например, глагол ИСКАТЬ - у меня сгенерировалась форма прич. наст. "ищомый" по всем правилам - естественно никакой прогон не выявит, что это ошибка. А вот сравнение с другим солварем - сразу покажет что такой формы нет.
2 bvd,
А можно ли просто сравнить мой словарь с вашим?
По принципу: парадигма на парадигму? И Вам проверка и мне.