В принципе мне как раз и нужно отловить дубли на выборке. Выборка довольно большая (какая именно пока сказать трудно, еще не окончательно сформирована).
ОЧЕНЬ ВАЖНО расчитать вероятность коллизий. Но пока не совсем понимаю с какого конца к этому подступиться.
Вы правы. В этом нет совершенно никакой необходимости. Просто необходимо сравнивать один кусок текста с другим, по принципу: тот же самый - другой. Можно конечно сравнивать и просто куски символьного текста, но зачем хранить информацию такого гигантского объема, если более легкий путь?
Оказалось легче сделать через CRC32. Но вот толкового описания не могу найти. :(
Может кто-нибудь даст ссылочку на разбор метода CRC32?
А где можно было бы почитать о CRC32? Особенно интересны вероятностные выкладки.
Не пойдет. Нужно получить для фразы уникальное (под уникальным понимаю число, позволяющее однозначно (или с небольшой (не более 5%) погрешностью) идентифицировать фразу.
Можно например всем словам языка (в аглицком их предположим 300 000) присвоить свой ID и потом составить число из ID слов: 245678 016747 145578 005311 245568, но уж больно оно большое...
Спасибо большое!
Теперь принципы реализации гораздо яснее. Пожалуй так действительно можно создать эффективный нормализатор.
Еще раз спасибо.
С файлами я кажется разобрался.
Спасибо за разъяснения. :)
Тоесть Вы хотите сказать, что надо взять *.idx файлы и написать программку, с использованием "12 или 17 основных, всем известных, правил", которая приводит слова к начальной форме? А иначе никак?
Посмотрел на исключения в verb.exc. Все глаголы почему то имеют только две формы, например: seen see или sent send. А где еще одна?
P.s. Кстати, спасибо за разъяснение понятия "другие". Теперь буду им правильно пользоваться. :)
Вы правы. Я поначалу не обратил на это внимание.
Рискую показаться туповатым, но все ссылки о подробной работе с базой ведут на печатную книгу. Данные в текстовых файлах представлены в таком виде:
00073662 29 v 01 play 4 001 @ 00073208 v 0000 01 + 08 00 | exhaust by allowing to pull on the line; "play a hooked fish"
00073785 29 v 03 overtire 0 overweary 0 overfatigue 0 001 @ 00072813 v 0000 02 + 09 00 + 10 00 | tire excessively
00073901 29 v 05 tire 0 pall 0 weary 1 fatigue 1 jade 0 005 @ 00089731 v 0000 + 02295758 n 0502 + 07075951 n 0401 ~ 00096774 v 0000 ~ 01716002 v 0000 01 + 02 00 | get tired of something or somebody
А как интерпретировать данные в этом файле?