iseg

Рейтинг
80
Регистрация
15.12.2000
Должность
Search Engine Department Manager, Yandex
Интересы
Search Engine Development
Почувствовал разницу?

Обратите внмиание что только верхние ссылки (вы правы, "худшие") имеют признак совпадение фразы.

В большинстве случае это правильная эвристика. В данном случае сработало неудачно.

Вообще, спасибо за баг-репорт.

P.S.

Про все запросы, которые мы отрабатываем плохо, пишите смелей на форуме Яндекса. Или мне личным письмом.

Спасибо,

Илья

Как писал Ken
Добрый день! Сколько слов в русском языке?

Если слово "Кен" и слово "Яндекс" - считать словами (а что же это еще?), и их язык считать русским (а какой, если не руский?), то думаю, что примерно пропорционально числу русских людей, скажем, миллионов 100-200-500. Примерно ~ закон Хипса (еще одно русское слово, кстати), только документом следует считать человека. Хотя кажется этот вопрос никто никогда не исследовал. :)

Что касается числа бит, то 64 бит (если пользоваться контрольной суммой) должно хватить на все, включая опечатки.

Как писал Vyacheslav Tikhonov
А в чем смысл-то - нужны новые идеи?

Смысл в том, что Вас зовут поучаствовать. :)

Чем больше хороших систем, тем выше качеством получается пулинг и точнее оценки.

Я сейчас не в Москве -- найти не смогу. В любом случае она не сильно отличается от западной

Как писал AlexA
Увы, не вижу, как можно улучшить этот алгоритм принципиально, т.е. сделать лучше, чем O(суммы позиций).

Точнее O(число_позиций)*log(число_слов), если выбирать очередную минимальную позицию не полным перебором по всем словам, а при помощи пирамиды (pop_heap/push_heap или priority_queue в STL).

Когда слов больше 3-4, это актуально.

Как писал bvd
Илья, не могли бы пояснить

С удовольствием.

Это значит, что алгоритм, (скажем stemka в глубоком варианте отсечения), считает что формы "завод" и "заводь" являются морфологическим вариантами (формами одного слова/основы или что-то в этом роде), а "области" и "областью" - нет.

При этом, если судить по в(полу)ручную размеченному и проверенному глазами корпусу, "завод" и "заводь" не являются парой морфологических вариантов, тогда как "области" и "областью", напротив, являются.

"Добавленные" и "потерянные" пары и есть промежуточный (хотя и не безынтересный) результат, который затем "прозванивался" на качество при помощи Гугля.

Как писал iseg
Могу привести в отдельном постинге частотные верхушки списков для каждого "несловарного" русского "стеммера"

Как и обещал, привожу верхушки списков ассоциациативных групп.

Для каждого алгоритма перечислены по убыванию частоты первого слова 10 ассоциативных групп, добавленных и потерянных соответствующим алгоритмом по сравнению с каноническими ассоциациями, установленными из морфологически размеченного корпуса, отредактированного вручную.

ПРИМЕЧАНИЕ: Для каждой группы пришлось оставить несколько самых характерных слов, чтобы влезло в данный постинг.

ПРИМЕЧАНИЕ 2: Все равно таблицы сюда не влезли, поэтому пришлось выложить на отдельную страничку, сорри.

http://iseg.narod.ru/summary.html

Как писал Pavelkq
Есть еще одна фирма

Почем одна? Моему списку уже полтора года, и он требует конечно обновления, но все же их как минимум 24.

http://www.dialog-21.ru/direction_fulltext.asp?dir_id=15156

Илья

Как писал trink

Я понимаю что такое сегмент кода
Мне просто было не совсем понятно причем тут это?

Потому что никто не понимает, почему вы не можете взять какой-нибудь zlib и жать им все "универсальное". На чем вы экономите? На усилиях выигрыш.

Логично предположить, что перед вами поставили задачу, уложить весь код в двадцать килобайт, так как в чипе боеголовки больше не осталось места для сегмента кода. :)

Как писал trink
Для меня критична независимость алгоритма сжатия от структуры данных так как я сжимаю не только обычный инвертированный позиционный индекс описанный в первой предложенной вам книге но и другие структуры данных которые нужны для других задач
Просто хотелось одолеть эту проблему малыми силами

Я не понял, вы что пишете для PDA или ракетоносителей? У вас что, дефицит простарнства для сегмента кода?

Если это не так, то вам нужно взять два РАЗНЫХ алгоритма, и не морочить людям голову.

Всего: 442