Комментарии - Ken - Профиль вебмастера - Форум об интернет-маркетинге

9 марта 2004, 13:22

Раз уж разговор зашел о проверке работы поисковых алгоритмов - то где можно взять более-менее универсальный тест для оценки работы поисковой системы?

Сколько слов в русском языке?

1 марта 2004, 08:58

Приношу свои извинения, за вопрос...

Наверное, я не совсем хорошо понимаю методов индексации.

Спасибо

Сколько слов в русском языке?

29 февраля 2004, 07:29

Я, наверное, задал вопрос не совсем корректно, вопрос касается поисковых технологий и индексации текстов, попробую пояснить - необходимо для каждого входного слова поставить в соответствие некий идентификатор(число) который бы однозначно характиризовал это слово, в связи с этим возникает вопрос с каким объемом русских лемм сталкиваются/работают существующие поисковые системы. Какую размерность индекса используют. Спасибо.

Сколько слов в русском языке?

28 февраля 2004, 15:30

Почему?

Вопрос вполне простой - сколько бит нужно отвести для индексации, чтобы охватить как можно больше лемм.

Поисковая машина нового поколения

16 января 2004, 12:35

Т.е. при поиске пользователю выдается список уточнений - основанный на таких цепочках, и остальной поиск происходит через уточнение в каком именно контексте (окружении слов) он желает получить ответ?

Тестирование словаря

13 января 2004, 09:39

Как писал Keva а вот этот анализатор, на голом, нечищенном словаре Зализняка, объемом 96 тышш основ, можно сразу выбросить

Хех...

Тестирование словаря

13 января 2004, 09:12

Большое спасибо, приступаю

Тестирование словаря

12 января 2004, 13:55

Vyacheslav Tikhonov
И для этого нужен другой словарь? Почему нельзя прогнать программу на тех же текстах и посчитать статистику использования каждой словоформы? Неверные формы отпадут сами собой.

Слишком много слов, которые в результате набора статистики не будут упомянуты. Много ручной работы.

Тестирование словаря

12 января 2004, 11:33

Основная цель - сделать более менее эталонный "Зализняк", покрытие словаря - не очень интерисует.

У меня словарь Зализняка подчистился до 83 тыс. слов - прогон на текстах выявляет лишь отсутствие словоформы в словаре. Но - при получении парадигмы из словарной статьи у меня могли быть ошибки, хоть и руками все выверял. Вот например, глагол ИСКАТЬ - у меня сгенерировалась форма прич. наст. "ищомый" по всем правилам - естественно никакой прогон не выявит, что это ошибка. А вот сравнение с другим солварем - сразу покажет что такой формы нет.

Тестирование словаря

12 января 2004, 09:11

2 bvd,

А можно ли просто сравнить мой словарь с вашим?

По принципу: парадигма на парадигму? И Вам проверка и мне.

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

Ken