baranov

Рейтинг
42
Регистрация
25.09.2001
Должность
webmaster

<font face="Verdana" size="2">Originally posted by Vyacheslav Tikhonov:

Насчет 'почти' - для циклической суммы нереально. Я здесь привел термин 'почти' для того, чтобы показать, что у каждого слова должен быть свой уникальный код, иначе возникают коллизии. Реально же уникальный код получить сложно и больше для этого подойдет какая-нибудь хэш-функция типа MD5. Или придется разрешать коллизии.
</font>

Мда.... хотя это и ускоряет/и упрощает все - помоему не очень подходит.... как например с синонимами и словоформами быть?

А был ли опыт реализации со словарем и учетом морфологии?

PS спасибо за код....

<font face="Verdana" size="2">Originally posted by Vyacheslav Tikhonov:

Насчет 'почти' - для циклической суммы нереально. Я здесь привел термин 'почти' для того, чтобы показать, что у каждого слова должен быть свой уникальный код, иначе возникают коллизии. Реально же уникальный код получить сложно и больше для этого подойдет какая-нибудь хэш-функция типа MD5. Или придется разрешать коллизии.
</font>

Мда.... хотя это и ускоряет/и упрощает все - помоему не очень подходит.... как например с синонимами и словоформами быть?

А был ли опыт реализации со словарем и учетом морфологии?

PS спасибо за код....

<font face="Verdana" size="2">Originally posted by Vyacheslav Tikhonov:
Циклический код - используется для нахождения контрольной суммы. В данной версии поисковика по слову определяется его почти(!) уникальный числовой код и заносится в базу. Поиск потом идет не по самому слову, а по его коду, что проще.</font>

А на сколько почти? Я что-то не знаком с ним - чайник все-таки.

Есть ли дока, или кому-нибудь не лень сюда будет реализацию на С вставить.

<font face="Verdana" size="2">Originally posted by Vyacheslav Tikhonov:
Циклический код - используется для нахождения контрольной суммы. В данной версии поисковика по слову определяется его почти(!) уникальный числовой код и заносится в базу. Поиск потом идет не по самому слову, а по его коду, что проще.</font>

А на сколько почти? Я что-то не знаком с ним - чайник все-таки.

Есть ли дока, или кому-нибудь не лень сюда будет реализацию на С вставить.

<font face="Verdana" size="2">Originally posted by mikek:
Господа, это не читать. Глупый был когда писал. Умирает буквально на паре гигов.
</font>

собственно много то и не надо......

<font face="Verdana" size="2">
Я рекомендую почитать Кнута. У него целый том есть - Сортировка и Поиск (2-ой, если я не ошибаюсь) а особенно про Б-Деревья.
</font>

Кнут тяжеловат в чтении на мой вкус. Есть более простые книжки и доки, по тем же деревьям с реализацией на С (которую я переделал в шаблон С++), например:

http://www.niit.ru/docs/sorting/sr_bin.htm

<font face="Verdana" size="2">
Я считал CRC32 слова и использовал их, как ключ в Б-Дереве, а слова я вообще не использовал.
</font>

А что это за CRC32?

<font face="Verdana" size="2">Originally posted by mikek:
Господа, это не читать. Глупый был когда писал. Умирает буквально на паре гигов.
</font>

собственно много то и не надо......

<font face="Verdana" size="2">
Я рекомендую почитать Кнута. У него целый том есть - Сортировка и Поиск (2-ой, если я не ошибаюсь) а особенно про Б-Деревья.
</font>

Кнут тяжеловат в чтении на мой вкус. Есть более простые книжки и доки, по тем же деревьям с реализацией на С (которую я переделал в шаблон С++), например:

http://www.niit.ru/docs/sorting/sr_bin.htm

<font face="Verdana" size="2">
Я считал CRC32 слова и использовал их, как ключ в Б-Дереве, а слова я вообще не использовал.
</font>

А что это за CRC32?

Сам шучу, сам смеюсь.........

нашел кое-что, для заинтересованных:

http://www.codenet.ru/progr/other/search/

примитивно, но хоть что-то по руссски

Сам шучу, сам смеюсь.........

нашел кое-что, для заинтересованных:

http://www.codenet.ru/progr/other/search/

примитивно, но хоть что-то по руссски

Видимо придется книги читать, а их фиг достанешь - 10-20 лет назад изданы. А OCR есть, может кто встречал?

Видимо придется книги читать, а их фиг достанешь - 10-20 лет назад изданы. А OCR есть, может кто встречал?

Всего: 138