Обратите внмиание что только верхние ссылки (вы правы, "худшие") имеют признак совпадение фразы.
В большинстве случае это правильная эвристика. В данном случае сработало неудачно.
Вообще, спасибо за баг-репорт.
P.S.
Про все запросы, которые мы отрабатываем плохо, пишите смелей на форуме Яндекса. Или мне личным письмом.
Спасибо,
Илья
Если слово "Кен" и слово "Яндекс" - считать словами (а что же это еще?), и их язык считать русским (а какой, если не руский?), то думаю, что примерно пропорционально числу русских людей, скажем, миллионов 100-200-500. Примерно ~ закон Хипса (еще одно русское слово, кстати), только документом следует считать человека. Хотя кажется этот вопрос никто никогда не исследовал. :)
Что касается числа бит, то 64 бит (если пользоваться контрольной суммой) должно хватить на все, включая опечатки.
Смысл в том, что Вас зовут поучаствовать. :)
Чем больше хороших систем, тем выше качеством получается пулинг и точнее оценки.
Я сейчас не в Москве -- найти не смогу. В любом случае она не сильно отличается от западной
Точнее O(число_позиций)*log(число_слов), если выбирать очередную минимальную позицию не полным перебором по всем словам, а при помощи пирамиды (pop_heap/push_heap или priority_queue в STL).
Когда слов больше 3-4, это актуально.
С удовольствием.
Это значит, что алгоритм, (скажем stemka в глубоком варианте отсечения), считает что формы "завод" и "заводь" являются морфологическим вариантами (формами одного слова/основы или что-то в этом роде), а "области" и "областью" - нет.
При этом, если судить по в(полу)ручную размеченному и проверенному глазами корпусу, "завод" и "заводь" не являются парой морфологических вариантов, тогда как "области" и "областью", напротив, являются.
"Добавленные" и "потерянные" пары и есть промежуточный (хотя и не безынтересный) результат, который затем "прозванивался" на качество при помощи Гугля.
Как и обещал, привожу верхушки списков ассоциациативных групп.
Для каждого алгоритма перечислены по убыванию частоты первого слова 10 ассоциативных групп, добавленных и потерянных соответствующим алгоритмом по сравнению с каноническими ассоциациями, установленными из морфологически размеченного корпуса, отредактированного вручную.
ПРИМЕЧАНИЕ: Для каждой группы пришлось оставить несколько самых характерных слов, чтобы влезло в данный постинг.
ПРИМЕЧАНИЕ 2: Все равно таблицы сюда не влезли, поэтому пришлось выложить на отдельную страничку, сорри.
http://iseg.narod.ru/summary.html
Почем одна? Моему списку уже полтора года, и он требует конечно обновления, но все же их как минимум 24.
http://www.dialog-21.ru/direction_fulltext.asp?dir_id=15156
Потому что никто не понимает, почему вы не можете взять какой-нибудь zlib и жать им все "универсальное". На чем вы экономите? На усилиях выигрыш.
Логично предположить, что перед вами поставили задачу, уложить весь код в двадцать килобайт, так как в чипе боеголовки больше не осталось места для сегмента кода. :)
Я не понял, вы что пишете для PDA или ракетоносителей? У вас что, дефицит простарнства для сегмента кода?
Если это не так, то вам нужно взять два РАЗНЫХ алгоритма, и не морочить людям голову.