vs

Рейтинг
24
Регистрация
20.06.2001
Должность
разработчик

Про хэши:

CRC32: (исходников - миллион на любом языке,

поищите, например, в google).

Для 30 миллионов слов CRC32 дает примерно

тысяч 50 коллизий. Максимальное количество

слипаний в одной коллизии ~ 150.

MD5 (исходников - тоже миллион. Я видел

даже на Smalltalk) генерит 16-байтные

ключи. Использование этого алгоритма в

поисковике - не самый лучший выбор, так как

MD5 медленный, а в 16 байт само слово обычно

влезает. Если брать первые 4 байта от MD5,

коллизий получается чуть больше, чем с CRC32.

Можно еще представить слово как число в 75-

ричной системе исчисления (33 русские

буквы+26 латинских+10 цифр + '_', апострофы

и т. д.), то в 16 байт примерно 20 букв. В

четыре байта, соответственно, 5 букв.

Поисковая машины Следопыт

(http://www.multilex.ru/sledopyt.htm)

использовала примерно такой вариант

хэширования (ну, там еще переполнение

обрабатывалось правильно).

Рамблер неизвестные слова тоже хэширует,

но очень хитро. Как - долго рассказывать.

Коллизии - бывают, не часто, но есть. Хотя

пока особо никто не жаловался, постараемся

починить в близком будущем.

С уважением,

Влад Шабанов

P.S. Если интересно, посмотрите еще

http://burtleburtle.net/bob/hash/

[This message has been edited by vs (edited 03-10-2001).]

Про хэши:

CRC32: (исходников - миллион на любом языке,

поищите, например, в google).

Для 30 миллионов слов CRC32 дает примерно

тысяч 50 коллизий. Максимальное количество

слипаний в одной коллизии ~ 150.

MD5 (исходников - тоже миллион. Я видел

даже на Smalltalk) генерит 16-байтные

ключи. Использование этого алгоритма в

поисковике - не самый лучший выбор, так как

MD5 медленный, а в 16 байт само слово обычно

влезает. Если брать первые 4 байта от MD5,

коллизий получается чуть больше, чем с CRC32.

Можно еще представить слово как число в 75-

ричной системе исчисления (33 русские

буквы+26 латинских+10 цифр + '_', апострофы

и т. д.), то в 16 байт примерно 20 букв. В

четыре байта, соответственно, 5 букв.

Поисковая машины Следопыт

(http://www.multilex.ru/sledopyt.htm)

использовала примерно такой вариант

хэширования (ну, там еще переполнение

обрабатывалось правильно).

Рамблер неизвестные слова тоже хэширует,

но очень хитро. Как - долго рассказывать.

Коллизии - бывают, не часто, но есть. Хотя

пока особо никто не жаловался, постараемся

починить в близком будущем.

С уважением,

Влад Шабанов

P.S. Если интересно, посмотрите еще

http://burtleburtle.net/bob/hash/

[This message has been edited by vs (edited 03-10-2001).]

<font face="Verdana" size="2">Originally posted by baranov:
Проскальзовала по форуму тема про алгормы индексирования хранения и поиска информации. Хотелось бы узнать побольше, с "средне-научным" подходом к изложению, адаптировано для полугуманитария

Может кто поможет ссылочками или собственным опытом?
</font>

Есть такой автор - Солтон (G. Salton).

Он лет 25 назад много про обработку текстов

написал. Поищите в Гугле "Salton information retrieval"

Вот несколько старых книжек, в которых,

тем не менее, все есть:

Солтон Дж. Динамические библиотечно-информационные системы.: М. «Мир», 1979, 550 с.;

Белоногов Г. Г. Богатырев В. И. Автоматизированные информационные системы.: М. «Советское радио», 1973, 325 с.;

А еще сходите на

http://citeseer.nj.nec.com - там огромная

куча всего.

С уважением,

Влад Шабанов

<font face="Verdana" size="2">Originally posted by baranov:
Проскальзовала по форуму тема про алгормы индексирования хранения и поиска информации. Хотелось бы узнать побольше, с "средне-научным" подходом к изложению, адаптировано для полугуманитария

Может кто поможет ссылочками или собственным опытом?
</font>

Есть такой автор - Солтон (G. Salton).

Он лет 25 назад много про обработку текстов

написал. Поищите в Гугле "Salton information retrieval"

Вот несколько старых книжек, в которых,

тем не менее, все есть:

Солтон Дж. Динамические библиотечно-информационные системы.: М. «Мир», 1979, 550 с.;

Белоногов Г. Г. Богатырев В. И. Автоматизированные информационные системы.: М. «Советское радио», 1973, 325 с.;

А еще сходите на

http://citeseer.nj.nec.com - там огромная

куча всего.

С уважением,

Влад Шабанов

<font face="Verdana" size="2">Originally posted by hungry:
Создается впечатление, что рамблер продает первые места в выдаче запросов поисковой системой. Обьясняю откуда я это взял...

...

Во такие дела...
ЧТо скажете???

</font>

Довольно сильное обвинение. Вы бы, прежде

чем делать такие выводы, спросили в

Рамблеровской техподдержке, Вам бы все

подробно объяснили.

Итак, в качестве весов подмешиваемых

документов используется их посещаемость,

причем общая, с момента регистрации в

рейтинге.

У Вас посетителей пока меньше, чем у

auto.ru/porsche (42867 против 48344).

см.

http://top100.rambler.ru/cgi-bin/stats_top100.cgi?id=41095&page=1

и

http://top100.rambler.ru/cgi-bin/stats_top100.cgi?id=78450&page=1

С уважением,

Владислав Шабанов

2 iseg

Илья, спасибо за информацию.

Кстати, можно ли в Яндексе поискать только

документы, находимые по ссылкам (ну, вроде

www.nyse.com)? Я нашел только косвенный

способ: $anchor (New York Stock Exchange),

но это не совсем то, что надо.

На указанные в таблице словах ссылочных

документов почти нет (или вообще нет,

я до конца все списки не просматривал), а

вот когда мне захотелось посмотреть другие

запросы, тут я и попал - показываются

документы, где была ссылка, и плюс к ним

документы, куда эта ссылка вела.

С уважением,

Влад Шабанов

[This message has been edited by vs (edited 07-09-2001).]

<font face="Verdana" size="2">Originally posted by Nicholas:
2vs: а по поводу приоритетности статики над динамикой? Раньше вроде такого не замечал.</font>

нету приоритетов.

Влад

<font face="Verdana" size="2">Originally posted by mager:

1)Ссылки с других сайтов

Не учитываются или учитываются,но очень мало.
Большой простор для дорвеев, не имеющих на себя ссылок.

3)Метатеги

Не учитываются совсем

4)Частота слов на странице

Учитывается достаточно сильно.
Неизвестно придаётся ли значение расстоянию между ключевыми словами(если
их в запросе несколько) и расположению ключевых слов (в смысле чем ближе к началу
страницы тем лучше)

6)Интеграция с Top100

По-моему её уже нет

</font>

1) в той версии, которая сейчас выкачена

"в бой" ссылки действительно не учитываются.

3) действительно не учитываются. И это правильно

4) расстояние от начала текста сейчас на

результаты не влияет. Расстояние между словами - обязательно.

6) да есть она, и никуда не девалась :-)

Если Вы посмотрите внимательнее, увидите,

что у первых нескольких документов списка

показывается внятная аннотация, причем она

не всегда совпадает с текстом страницы.

Это аннотация из top100.

С уважением,

Владислав Шабанов

2 Gray: Про новый дизайн.

Хотелось бы (я понимаю, что это

программирование, но все таки), чтобы

сообщения, которые я читал, отличались

(цветом? картинкой?) от тех, которые я еще

не читал. Определить это можно по дате моего

последнего посещения, а ее, в свою очередь,

взять/положить из/в куки. Сделайте пож-ста,

если Вас это не затруднит.

С уважением,

Влад Шабанов

<font face="Verdana" size="2">Originally posted by AiK:
Предложение по усовершенствованию:
не плохо бы было получить все ключевые слова на странице, по которым удаётся попасть в определённый диапазон.
Конечно, нагрузка на сервер будет гораздо больше, но зато и смысла будет больше
Как получить на perl список всех слов могу подсказать...
</font>

У меня есть другое предложение:

возьмите логи Вашего сервера, посмотрите, по

каким запросам к Вам приходят (ну, для

интереса, еще и с каких поисковиков).

Затем напустите программу с этими словами.

Это будет, пожалуй, поточнее, чем слова

со страницы брать - Вы будете видеть

позицию по тем словам, по которым вас

действительно ищут.

Вообще, от сопоставления может много

интересного получиться: например, с какого

поисковика дают более длинные запросы,

как соотносятся слова из запросов со словами

страниц web-сервера, и т. д.

Кстати, в приходах от любого поисковика

можно сразу увидеть, с какой страницы списка

найденного пришли. Например, в Рамблере:


Всего: 129