- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Добрый день!
Сколько слов(лемм, графически разных) в русском языке? Каков примерный объем, какова разрядность (бит) индесов у существующих систем?
Какая рыба в океане плавает быстрее всех... Абсурд какой-то...
Почему?
Вопрос вполне простой - сколько бит нужно отвести для индексации, чтобы охватить как можно больше лемм.
Ламер, признаю, умею признавать свои ошибки ;)
А зачем охватывать все леммы? Достаточно взять 100-130 тысяч наиболее распространенных. Насколько я могу судить, все так и делают.
BUFO, устное замечание. Для подобных высказываний есть курилка.
А сколько слов в русском языке?
В русском языке около 500 тыс.слов. Но наиболее употребительных слов всего от 2000 до 2500. Даже у Пушкина, великого знатока и мастера русского языка, в литературной речи были не все полмиллиона слов, а всего 21197. Ученые обнаружили, что 100 наиболее часто встречающихся слов составляют 20% устной и письменной речи. 1500-2000 слов - это уже 85%. У выпускника средней школы словарный запас составляет от 1500 до 4000 слов. У человека с высшим образованием - до 8000 слов.
Я, наверное, задал вопрос не совсем корректно, вопрос касается поисковых технологий и индексации текстов, попробую пояснить - необходимо для каждого входного слова поставить в соответствие некий идентификатор(число) который бы однозначно характиризовал это слово, в связи с этим возникает вопрос с каким объемом русских лемм сталкиваются/работают существующие поисковые системы. Какую размерность индекса используют. Спасибо.
Всё равно не понятно. То ли Вы спрашиваете, во сколько бит можно упаковать каждое слово, то ли подразумеваете, что индекс устроен по принципу реляционной БД... Ведь слова - это мизерная часть индекса.
И причём тут русский язык? Вы думаете, существуют поисковики, индексирующие только слова русского языка?
Приношу свои извинения, за вопрос...
Наверное, я не совсем хорошо понимаю методов индексации.
Спасибо
Добрый день! Сколько слов в русском языке?
Если слово "Кен" и слово "Яндекс" - считать словами (а что же это еще?), и их язык считать русским (а какой, если не руский?), то думаю, что примерно пропорционально числу русских людей, скажем, миллионов 100-200-500. Примерно ~ закон Хипса (еще одно русское слово, кстати), только документом следует считать человека. Хотя кажется этот вопрос никто никогда не исследовал. :)
Что касается числа бит, то 64 бит (если пользоваться контрольной суммой) должно хватить на все, включая опечатки.