Ну, типичный договор оферты - robots.txt.
Что характерно, роботы его выполняют.
Влад
Ну, наш рекорд - полная переиндексация
примерно 450 Гб HTML на 10 машинах за 4
суток (время выкачивания из Инета сюда не
входит, паук качает примерно по 40-50 Гб
в сутки). При этом и ссылки извлечены и
дубли поклеены - осталось результаты этих
индексаций объединить и "закатать" на
поисковики. Только вот из-за проблем с
местом на серверах это напоминает игру в 15.
С уважением,
Влад Шабанов
Да нет, Артем, проблемы поиска нас еще как
волнуют. Задержки с обновлением базы у нас
действительно большие. Дело в том, что
последние полгода мы были вынуждены
"впихивать" непрерывно разрастающуюся базу в
имеющиеся у нас 15 серверов (в Yandex, если
не ошибаюсь, их 40). В результате
"перестройки", о которой Вы говорите, должно
случиться обновление техники, а как только
оно произойдет (прогноз - 2-3 недели), мы
сможем обновлять индекс раз в 2 недели.
Очень меня удивил вопрос про морфологию
(tsv, Сергей Тырин). Что, собственно, не
нравится? Приведите, пож-ста, примеры.
Изменение в top100 - мы отошли от идеи
упроядочивания первой пятерки исключительно
по посещаемости. Сейчас при ранжировании
учитывается и посещаемость и релевантность.
Подробно описывать, как выполяется
смешивание, сейчас не хотелось бы - оно еще
несколько раз может измениться.
Учет ссылок при поиске у нас уже готов,
сейчас эта технология обкатывается внутри
компании. Как только мы решим проблемы с
серверами, опубликуем ее "в бой".
Вообще-то, ссылочное ранжирование, как и
подмешивание top100, штука специфическая,
и может давать странные результаты. Поищите,
например, Яндексом слово "тут". Или "казлы"
(Найдете Бритни Спирс :-). Таких примеров
много можно привести.
Владислав Шабанов
[This message has been edited by vs (edited 12-10-2001).]
Посмотрите, например, книжку Белоногова
(название было выше) - там написано, как
это программировать, все таблицы есть. Хотя,
конечно же, чтобы серьезно всем этим
заниматься, надо почитать вступительную
статью к словарю Зализняка, сам словарь, и
еще сколько-то книжек про русский язык
(Розенталь, ...)
Ну, накрутить top100 мало у кого получается.
Для многих, накрутить top100 так, чтобы
попасть в первую десятку, - предел мечтаний.
Так что, вряд ли наше изменение в
подмешивании такой уж сильный дополнительный
стимул.
А про функции - мы возьмем top100, индекс,
логи и еще пару технологий, мелко пошинкуем,
помешаем, посолим и т. д. :-) Короче -
когда сделаем, ни от кого скрывать не будем.
[This message has been edited by vs (edited 03-10-2001).]
Морфология имени А. Коваленко.
См. http://linguist.nm.ru
Ощущение странное. Наверное, Илья имеет
какое-то отношение к Яндексу :-)
Про подмешивание top100.
В нынешнем виде подмешивание, скорее всего,
проживет недолго. Уж очень мноие стали
пользоваться аннотациями указанным выше
способом. На днях появится лимит
посещаемости, ниже которого сайт в принципе
не подмешивается. Ну, и еще мы собираемся в
ближайшее время сделать поиск по этим самым
аннотациям более строгим.
Еще чуть позже мы подмешивание заменим
другими функциями.