После чего (1998 г.) ребята из Гугля плотно замолчали, а вот альтавистовские как раз каждый год чего-нибудь стали рассказывать.
Рекомендую почитать Марка Найорка про Меркатор (1999) и у него же про Atrax (2001)
Ссылок не даю - искать здесь все умеют. :)
Berkeley DB
Илья
А вообще, топику место в разделе "Поисковые технологии".
Запоминается первое встреченное написание. Предположительно самое красивое.
Функции сравнения URL при этом игнорируют регистр в имени хостов. Таким образом второе встреченное написание, отличающееся от первого только регистром, в базу не попадет.
Этот принцип часто называют "case preserving" в отличие от "case sensitive" или "case insensitive".
Для остальной части URL регистр, конечно же, отрабатывается как "case sensitive"
Проверить сейчас не могу (работаю под мозиллой), но видел это и потому написал.
На один и тот же запрос редиректы появлялись именно в зависимости от того, _откуда делался запрос_ (тулбар vs google)
С другой стороны, сейчас вспоминаю, наблюдался эффект, что на какой-то запрос редиректы появлялись, а на другом (совершенно аналогичном) их не было. (скажем первый запрос "виверра", а второй - "цивета")
На этом ломалась автолюба.
Тогда возникало ощущение, что если хеш текста запроса делится на какое-нибудь волшебное число, включаются редиректы.
Думаю, что Садовский мог бы нас окончательно просветить в этом вопросе.
все поиски из тулбара - с редиректами. Эта тема обсуждалась в данном форуме - поищите.
NOTEBOOKS vs. notebook
Это не регистр, а морфология :)
Что касается разных регистров в имени серверов: это сделано для большей красоты написаний типа AllNotebooks.
Сравниваются имена, естественно по RFC
При чем тут рекурсивное скачивание?
Программа addurl (Yandex с флажком D) этим не занимается, он скачивает только 1 (_один_) URL, явно указанный _человеком_ в форме
Скачивать страницу и делать запрос по форме из этой страницы - это не одно и то же. Запрет должен распространяться не на адрес:
http://www.yandex.ru/addurl.html
а на адрес:
http://www.yandex.ru/cgi-bin/publicaddurl
На каковой он и распространяется:
http://www.yandex.ru/robots.txt
User-Agent: *
...
Disallow: /cgi-bin/
Так что формально мы ведем себя впоне корректно.
Вряд ли стоит вступать в дискуссию надо считать ли "автодобавлялки" роботами. Она довольно бесплодная. К тому же агрессивные автодобавлялки мы, конечно же, запрещаем.
Сам вопрос возник потому, что пользователи часто понимают robots.txt не как список запрещенных для автоматических агентов зон на своем сайте, а как отображение своего сайта в базе поисковых систем. Очевидно, что это не совсем одно и то же.
Впрочем, может быть стоит и нам трактовать robots.txt именно во втором смысле. Надо подумать на эту тему.
Уточнение:
Если вы написали "робота-добавляльщика", который использует наш AddURL и игнорирует robots.txt, сообщите его IP адрес, мы его немедленно запретим. Причем запретим, даже если он не игнорирует robots.txt
Всякие автоматические обращение к AddUrl явно запрещены. Это сервис для людей.
D - это не робот. Так же как и translate.ru и масса других сервисов, в которых пользователь явно просит обработать явно заданный URL
Еще примеры: транслитераторы, конвертеры из html в wml, сервисы поиска плагиата, поиска похожих документов и т.д. и т.п.