Ken

Рейтинг
31
Регистрация
22.04.2003

Раз уж разговор зашел о проверке работы поисковых алгоритмов - то где можно взять более-менее универсальный тест для оценки работы поисковой системы?

Приношу свои извинения, за вопрос...

Наверное, я не совсем хорошо понимаю методов индексации.

Спасибо

Я, наверное, задал вопрос не совсем корректно, вопрос касается поисковых технологий и индексации текстов, попробую пояснить - необходимо для каждого входного слова поставить в соответствие некий идентификатор(число) который бы однозначно характиризовал это слово, в связи с этим возникает вопрос с каким объемом русских лемм сталкиваются/работают существующие поисковые системы. Какую размерность индекса используют. Спасибо.

Почему?

Вопрос вполне простой - сколько бит нужно отвести для индексации, чтобы охватить как можно больше лемм.

Т.е. при поиске пользователю выдается список уточнений - основанный на таких цепочках, и остальной поиск происходит через уточнение в каком именно контексте (окружении слов) он желает получить ответ?

Как писал Keva а вот этот анализатор, на голом, нечищенном словаре Зализняка, объемом 96 тышш основ, можно сразу выбросить

Хех...

Большое спасибо, приступаю

Vyacheslav Tikhonov
И для этого нужен другой словарь? Почему нельзя прогнать программу на тех же текстах и посчитать статистику использования каждой словоформы? Неверные формы отпадут сами собой.

Слишком много слов, которые в результате набора статистики не будут упомянуты. Много ручной работы.

Основная цель - сделать более менее эталонный "Зализняк", покрытие словаря - не очень интерисует.

У меня словарь Зализняка подчистился до 83 тыс. слов - прогон на текстах выявляет лишь отсутствие словоформы в словаре. Но - при получении парадигмы из словарной статьи у меня могли быть ошибки, хоть и руками все выверял. Вот например, глагол ИСКАТЬ - у меня сгенерировалась форма прич. наст. "ищомый" по всем правилам - естественно никакой прогон не выявит, что это ошибка. А вот сравнение с другим солварем - сразу покажет что такой формы нет.

2 bvd,

А можно ли просто сравнить мой словарь с вашим?

По принципу: парадигма на парадигму? И Вам проверка и мне.

Всего: 49