iseg

Рейтинг
80
Регистрация
15.12.2000
Должность
Search Engine Department Manager, Yandex
Интересы
Search Engine Development
Как писал kostik
Самое подробное, что я видел - это дипломная работа ребят из Google (http://www7.scu.edu.au/programme/fullpapers/1921/com1921.htm).

После чего (1998 г.) ребята из Гугля плотно замолчали, а вот альтавистовские как раз каждый год чего-нибудь стали рассказывать.

Рекомендую почитать Марка Найорка про Меркатор (1999) и у него же про Atrax (2001)

Ссылок не даю - искать здесь все умеют. :)

Berkeley DB

Илья

А вообще, топику место в разделе "Поисковые технологии".

Как писал wolf
WWW.Derrick.ru - здесь-то какая красота?

Запоминается первое встреченное написание. Предположительно самое красивое.

Функции сравнения URL при этом игнорируют регистр в имени хостов. Таким образом второе встреченное написание, отличающееся от первого только регистром, в базу не попадет.

Этот принцип часто называют "case preserving" в отличие от "case sensitive" или "case insensitive".

Для остальной части URL регистр, конечно же, отрабатывается как "case sensitive"

Проверить сейчас не могу (работаю под мозиллой), но видел это и потому написал.

На один и тот же запрос редиректы появлялись именно в зависимости от того, _откуда делался запрос_ (тулбар vs google)

С другой стороны, сейчас вспоминаю, наблюдался эффект, что на какой-то запрос редиректы появлялись, а на другом (совершенно аналогичном) их не было. (скажем первый запрос "виверра", а второй - "цивета")

На этом ломалась автолюба.

Тогда возникало ощущение, что если хеш текста запроса делится на какое-нибудь волшебное число, включаются редиректы.

Думаю, что Садовский мог бы нас окончательно просветить в этом вопросе.

все поиски из тулбара - с редиректами. Эта тема обсуждалась в данном форуме - поищите.

NOTEBOOKS vs. notebook

Это не регистр, а морфология :)

Что касается разных регистров в имени серверов: это сделано для большей красоты написаний типа AllNotebooks.

Сравниваются имена, естественно по RFC

Как писал Cherny
Программа wget, которая используется в юникс-системах для скачивания информации, имеет опцию рекурсивного скачивания...

При чем тут рекурсивное скачивание?

Программа addurl (Yandex с флажком D) этим не занимается, он скачивает только 1 (_один_) URL, явно указанный _человеком_ в форме

Скачивать страницу и делать запрос по форме из этой страницы - это не одно и то же. Запрет должен распространяться не на адрес:

http://www.yandex.ru/addurl.html

а на адрес:

http://www.yandex.ru/cgi-bin/publicaddurl

На каковой он и распространяется:

http://www.yandex.ru/robots.txt

User-Agent: *

...

Disallow: /cgi-bin/

...

Так что формально мы ведем себя впоне корректно.

Вряд ли стоит вступать в дискуссию надо считать ли "автодобавлялки" роботами. Она довольно бесплодная. К тому же агрессивные автодобавлялки мы, конечно же, запрещаем.

Сам вопрос возник потому, что пользователи часто понимают robots.txt не как список запрещенных для автоматических агентов зон на своем сайте, а как отображение своего сайта в базе поисковых систем. Очевидно, что это не совсем одно и то же.

Впрочем, может быть стоит и нам трактовать robots.txt именно во втором смысле. Надо подумать на эту тему.

Илья

Уточнение:

Если вы написали "робота-добавляльщика", который использует наш AddURL и игнорирует robots.txt, сообщите его IP адрес, мы его немедленно запретим. Причем запретим, даже если он не игнорирует robots.txt

Всякие автоматические обращение к AddUrl явно запрещены. Это сервис для людей.

D - это не робот. Так же как и translate.ru и масса других сервисов, в которых пользователь явно просит обработать явно заданный URL

Еще примеры: транслитераторы, конвертеры из html в wml, сервисы поиска плагиата, поиска похожих документов и т.д. и т.п.

Всего: 442