Алгоритмы

B
На сайте с 25.09.2001
Offline
42
3340

Проскальзовала по форуму тема про алгормы индексирования хранения и поиска информации. Хотелось бы узнать побольше, с "средне-научным" подходом к изложению, адаптировано для полугуманитария

Может кто поможет ссылочками или собственным опытом?

Baranov Evgeny
wolf
На сайте с 13.03.2001
Offline
1183
#1

<font face="Verdana" size="2">Originally posted by baranov:
Проскальзовала по форуму тема про алгормы индексирования хранения и поиска информации. Хотелось бы узнать побольше, с "средне-научным" подходом к изложению, адаптировано для полугуманитария

Может кто поможет ссылочками или собственным опытом?
</font>

Вот про Гугловский алгоритм на основе PageRank (написано не по-русски):

http://www7.scu.edu.au/programme/fullpapers/1921/com1921.htm

Похожие алгоритмы используют в настоящее время наши Яндекс и Апорт.

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
V
На сайте с 20.06.2001
Offline
24
vs
#2

<font face="Verdana" size="2">Originally posted by baranov:
Проскальзовала по форуму тема про алгормы индексирования хранения и поиска информации. Хотелось бы узнать побольше, с "средне-научным" подходом к изложению, адаптировано для полугуманитария

Может кто поможет ссылочками или собственным опытом?
</font>

Есть такой автор - Солтон (G. Salton).

Он лет 25 назад много про обработку текстов

написал. Поищите в Гугле "Salton information retrieval"

Вот несколько старых книжек, в которых,

тем не менее, все есть:

Солтон Дж. Динамические библиотечно-информационные системы.: М. «Мир», 1979, 550 с.;

Белоногов Г. Г. Богатырев В. И. Автоматизированные информационные системы.: М. «Советское радио», 1973, 325 с.;

А еще сходите на

http://citeseer.nj.nec.com - там огромная

куча всего.

С уважением,

Влад Шабанов

С уважением, Влад Шабанов vs@rambler-co.ru
B
На сайте с 25.09.2001
Offline
42
#3

А на русском языке есть информация?

VT
На сайте с 27.01.2001
Offline
130
#4

<font face="Verdana" size="2">Originally posted by baranov:
А на русском языке есть информация?</font>

Г.Г. Белоногов, А.П.Новоселов "Автоматизация процессов накопления, поиска и обобщения информации", Москва, 1979

Г.Г. Белоногов, Б.А.Кузнецов "Языковые средства автоматизированных информационных систем", Москва, 1983

B
На сайте с 25.09.2001
Offline
42
#5

Видимо придется книги читать, а их фиг достанешь - 10-20 лет назад изданы. А OCR есть, может кто встречал?

B
На сайте с 25.09.2001
Offline
42
#6

Сам шучу, сам смеюсь.........

нашел кое-что, для заинтересованных:

http://www.codenet.ru/progr/other/search/

примитивно, но хоть что-то по руссски

M
На сайте с 23.08.2001
Offline
74
#7

Господа, это не читать. Глупый был когда писал. Умирает буквально на паре гигов.

Я рекомендую почитать Кнута. У него целый том есть - Сортировка и Поиск (2-ой, если я не ошибаюсь) а особенно про Б-Деревья.

Я считал CRC32 слова и использовал их, как ключ в Б-Дереве, а слова я вообще не использовал.

C уважением, Михаил. http://mike.nov.ru/ (http://mike.nov.ru/)
B
На сайте с 25.09.2001
Offline
42
#8

<font face="Verdana" size="2">Originally posted by mikek:
Господа, это не читать. Глупый был когда писал. Умирает буквально на паре гигов.
</font>

собственно много то и не надо......

<font face="Verdana" size="2">
Я рекомендую почитать Кнута. У него целый том есть - Сортировка и Поиск (2-ой, если я не ошибаюсь) а особенно про Б-Деревья.
</font>

Кнут тяжеловат в чтении на мой вкус. Есть более простые книжки и доки, по тем же деревьям с реализацией на С (которую я переделал в шаблон С++), например:

http://www.niit.ru/docs/sorting/sr_bin.htm

<font face="Verdana" size="2">
Я считал CRC32 слова и использовал их, как ключ в Б-Дереве, а слова я вообще не использовал.
</font>

А что это за CRC32?

VT
На сайте с 27.01.2001
Offline
130
#9

<font face="Verdana" size="2">Originally posted by baranov:
А что это за CRC32?</font>

Циклический код - используется для нахождения контрольной суммы. В данной версии поисковика по слову определяется его почти(!) уникальный числовой код и заносится в базу. Поиск потом идет не по самому слову, а по его коду, что проще.

Широко используется в основном в криптографии наряду с другими подобными хэш-функциями. В поисковых системах я встречал его в HTDig, если не ошибаюсь.

[This message has been edited by Vyacheslav Tikhonov (edited 02-10-2001).]

B
На сайте с 25.09.2001
Offline
42
#10

<font face="Verdana" size="2">Originally posted by Vyacheslav Tikhonov:
Циклический код - используется для нахождения контрольной суммы. В данной версии поисковика по слову определяется его почти(!) уникальный числовой код и заносится в базу. Поиск потом идет не по самому слову, а по его коду, что проще.</font>

А на сколько почти? Я что-то не знаком с ним - чайник все-таки.

Есть ли дока, или кому-нибудь не лень сюда будет реализацию на С вставить.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий