Rusl

Рейтинг
37
Регистрация
29.04.2003

В принципе мне как раз и нужно отловить дубли на выборке. Выборка довольно большая (какая именно пока сказать трудно, еще не окончательно сформирована).

ОЧЕНЬ ВАЖНО расчитать вероятность коллизий. Но пока не совсем понимаю с какого конца к этому подступиться.

Как писал AlexA
Верно, как и для многих других хэш-функций.
Другое дело, насколько это важно для поставленной задачи, декодирование в нее, кажется, не входило.

Вы правы. В этом нет совершенно никакой необходимости. Просто необходимо сравнивать один кусок текста с другим, по принципу: тот же самый - другой. Можно конечно сравнивать и просто куски символьного текста, но зачем хранить информацию такого гигантского объема, если более легкий путь?

Оказалось легче сделать через CRC32. Но вот толкового описания не могу найти. :(

Может кто-нибудь даст ссылочку на разбор метода CRC32?

А где можно было бы почитать о CRC32? Особенно интересны вероятностные выкладки.

Как писал Scaramush
Rusl, на буквы и знаки можно разбить.

Не пойдет. Нужно получить для фразы уникальное (под уникальным понимаю число, позволяющее однозначно (или с небольшой (не более 5%) погрешностью) идентифицировать фразу.

Можно например всем словам языка (в аглицком их предположим 300 000) присвоить свой ID и потом составить число из ID слов: 245678 016747 145578 005311 245568, но уж больно оно большое...

Спасибо большое!

Теперь принципы реализации гораздо яснее. Пожалуй так действительно можно создать эффективный нормализатор.

Еще раз спасибо.

С файлами я кажется разобрался.

Спасибо за разъяснения. :)

Тоесть Вы хотите сказать, что надо взять *.idx файлы и написать программку, с использованием "12 или 17 основных, всем известных, правил", которая приводит слова к начальной форме? А иначе никак?

Посмотрел на исключения в verb.exc. Все глаголы почему то имеют только две формы, например: seen see или sent send. А где еще одна?

P.s. Кстати, спасибо за разъяснение понятия "другие". Теперь буду им правильно пользоваться. :)

Как писал bvd


Вы, я вижу, издеваетесь...
В WN указанные данные в ТЕКСТОВЫХ файлах простым списком.

Вы правы. Я поначалу не обратил на это внимание.

Рискую показаться туповатым, но все ссылки о подробной работе с базой ведут на печатную книгу. Данные в текстовых файлах представлены в таком виде:

00073662 29 v 01 play 4 001 @ 00073208 v 0000 01 + 08 00 | exhaust by allowing to pull on the line; "play a hooked fish"

00073785 29 v 03 overtire 0 overweary 0 overfatigue 0 001 @ 00072813 v 0000 02 + 09 00 + 10 00 | tire excessively

00073901 29 v 05 tire 0 pall 0 weary 1 fatigue 1 jade 0 005 @ 00089731 v 0000 + 02295758 n 0502 + 07075951 n 0401 ~ 00096774 v 0000 ~ 01716002 v 0000 01 + 02 00 | get tired of something or somebody

А как интерпретировать данные в этом файле?

Всего: 62