Про хэши:
CRC32: (исходников - миллион на любом языке,
поищите, например, в google).
Для 30 миллионов слов CRC32 дает примерно
тысяч 50 коллизий. Максимальное количество
слипаний в одной коллизии ~ 150.
MD5 (исходников - тоже миллион. Я видел
даже на Smalltalk) генерит 16-байтные
ключи. Использование этого алгоритма в
поисковике - не самый лучший выбор, так как
MD5 медленный, а в 16 байт само слово обычно
влезает. Если брать первые 4 байта от MD5,
коллизий получается чуть больше, чем с CRC32.
Можно еще представить слово как число в 75-
ричной системе исчисления (33 русские
буквы+26 латинских+10 цифр + '_', апострофы
и т. д.), то в 16 байт примерно 20 букв. В
четыре байта, соответственно, 5 букв.
Поисковая машины Следопыт
(http://www.multilex.ru/sledopyt.htm)
использовала примерно такой вариант
хэширования (ну, там еще переполнение
обрабатывалось правильно).
Рамблер неизвестные слова тоже хэширует,
но очень хитро. Как - долго рассказывать.
Коллизии - бывают, не часто, но есть. Хотя
пока особо никто не жаловался, постараемся
починить в близком будущем.
С уважением,
Влад Шабанов
P.S. Если интересно, посмотрите еще
http://burtleburtle.net/bob/hash/
[This message has been edited by vs (edited 03-10-2001).]
Есть такой автор - Солтон (G. Salton).
Он лет 25 назад много про обработку текстов
написал. Поищите в Гугле "Salton information retrieval"
Вот несколько старых книжек, в которых,
тем не менее, все есть:
Солтон Дж. Динамические библиотечно-информационные системы.: М. «Мир», 1979, 550 с.;
Белоногов Г. Г. Богатырев В. И. Автоматизированные информационные системы.: М. «Советское радио», 1973, 325 с.;
А еще сходите на
http://citeseer.nj.nec.com - там огромная
куча всего.
Довольно сильное обвинение. Вы бы, прежде
чем делать такие выводы, спросили в
Рамблеровской техподдержке, Вам бы все
подробно объяснили.
Итак, в качестве весов подмешиваемых
документов используется их посещаемость,
причем общая, с момента регистрации в
рейтинге.
У Вас посетителей пока меньше, чем у
auto.ru/porsche (42867 против 48344).
см.
http://top100.rambler.ru/cgi-bin/stats_top100.cgi?id=41095&page=1
и
http://top100.rambler.ru/cgi-bin/stats_top100.cgi?id=78450&page=1
Владислав Шабанов
2 iseg
Илья, спасибо за информацию.
Кстати, можно ли в Яндексе поискать только
документы, находимые по ссылкам (ну, вроде
www.nyse.com)? Я нашел только косвенный
способ: $anchor (New York Stock Exchange),
но это не совсем то, что надо.
На указанные в таблице словах ссылочных
документов почти нет (или вообще нет,
я до конца все списки не просматривал), а
вот когда мне захотелось посмотреть другие
запросы, тут я и попал - показываются
документы, где была ссылка, и плюс к ним
документы, куда эта ссылка вела.
[This message has been edited by vs (edited 07-09-2001).]
нету приоритетов.
Влад
1) в той версии, которая сейчас выкачена
"в бой" ссылки действительно не учитываются.
3) действительно не учитываются. И это правильно
4) расстояние от начала текста сейчас на
результаты не влияет. Расстояние между словами - обязательно.
6) да есть она, и никуда не девалась :-)
Если Вы посмотрите внимательнее, увидите,
что у первых нескольких документов списка
показывается внятная аннотация, причем она
не всегда совпадает с текстом страницы.
Это аннотация из top100.
2 Gray: Про новый дизайн.
Хотелось бы (я понимаю, что это
программирование, но все таки), чтобы
сообщения, которые я читал, отличались
(цветом? картинкой?) от тех, которые я еще
не читал. Определить это можно по дате моего
последнего посещения, а ее, в свою очередь,
взять/положить из/в куки. Сделайте пож-ста,
если Вас это не затруднит.
У меня есть другое предложение:
возьмите логи Вашего сервера, посмотрите, по
каким запросам к Вам приходят (ну, для
интереса, еще и с каких поисковиков).
Затем напустите программу с этими словами.
Это будет, пожалуй, поточнее, чем слова
со страницы брать - Вы будете видеть
позицию по тем словам, по которым вас
действительно ищут.
Вообще, от сопоставления может много
интересного получиться: например, с какого
поисковика дают более длинные запросы,
как соотносятся слова из запросов со словами
страниц web-сервера, и т. д.
Кстати, в приходах от любого поисковика
можно сразу увидеть, с какой страницы списка
найденного пришли. Например, в Рамблере: