Учет ссылок - это PageRank плюс построение специального индекса с текстами гиперссылок.
А про каталогизацию - у нас есть несколько разных способов сказать, какой рубрике принадлежит сайт, какой тип сайта (персональная страница, корпоративный сайт и т. д.). Ну, а раз есть способ, надо его в поиск "вкрутить". Как минимум, покажем название рубрики около найденного ресурса. Потом попробуем сделать группировку по темам.
Кстати, вот вы тут говорите про плохое ранжирование. Давайте сделаем так: приведите примеры (запрос, что нашлось и что именно не нравится). Мы обязательно посмотрим, поанализируем и исправим, если оно не противоречит, например, требованиям производительности или объему индекса.
У нас сейчас два вида работ:
подготовка к осени (нагрузка начнется сумасшедшая)
и новые функции.
С первым, думаю, и так все понятно, мы переписываем и ускоряем разные части поисковика. В результате индекс можно будет обновлять "на лету". Конечно, не за 15 минут как это обещает NTT, но с большими удобствами, чем теперь.
Во вторым: сейчас делаем несколько "бантиков" в пользовательском интерфейсе и объединение зеркал на этапе обхода сети. Осенью - учет ссылок в поиске и каталогизация ответной страницы (поиграемся с группировкой списка найденного по темам).
Один бантик уже доступен - поищите Георг 6, найдете Георг VI.
Пестепенно переделываем робота. В ближайшем будущем он будет быстрее "убивать" пропавшие ресурсы, например, на фрихостерах.
Немного не понял что Вы имеете в виду.
Тогда обсчитывать в реальном времени не получилось и корректно сравнить таким образом посещаемости поисковиков не удалось.
Сравнивать посещаемость Вы можете хоть каждый день - и у Яндекса и у нас она открыта. Только сопоставлять числа очень трудно, о чем, собственно, я и ответил Никите Шерману.
А про кредитоспособность - это поди померяй. Сложно очень. Попробуйте сами, если Ваш сайт что-нибудь продает. Результаты сопоставления будут интересны всем. Только методику обязательно опубликуйте.
Но то, что пользователи разные - это точно. Кстати, при помощи top100 что-нибудь интересное узнать про различия можно будет - мы умеем, например, определять сферу интересов пользователя по тем сайтам, на которые он ходит (конечно, если на сайте есть счетчик top100). Я, например, в нашей баннерной системе "припаян" к категории авто-мото, потому, что на авто-ру бываю. Вот она и показывает мне баннеры про автомобили. Причем только на работе - дома жена искажает картинку :-))
P.S. да не извиняйтесь Вы так часто, проехали давно.
Ну, в общем, да. Лог ведь "хитрый" - с первого взгляда кажется, что разница в 50 раз, а на самом деле - сильно меньше, так как заходы подсветчика, картинок и закладок надо вычесть. С тем, какие строчки (какую букву Win16) надо вычеркнуть, перед тем, как сравнивать, знатоки Яндекса скажут сразу, по памяти.
С точки зрения web-мастера главный критерий: сколько людей приводит поисковик на сайт. С точки здения его начальника - сколько денег приносит сайт. По первому параметры отдача от Яндекса и Рамблера, в общем, сравнима (есть сайты, куда больше ходят с Рамблера, есть - куда больше ходят с Яндекса). по второму - не знаю, есть разные мнения. Серьезного исследования, которое бы делало статистически обоснованные выводы на эту тему я не видел.
Кстати, если не ошибаюсь, на этот сайт больше ходят с нашего поисковика.
Активность робота, конечно, на эти вещи влияет, но не так, как господин spark пытается это представить. Опять же, процитирую Илью Сегаловича - мы (как и Яндекс) заботимся не о web-мастерах, а о пользователях интернета. Свежую информацию для пользователей мы поставляем с избытком, а если наш робот обошел вниманием чей-то сайт, то на то и web-мастер, чтоб за такими вещами сделить и исправлять ситуацию.
2 spark. Вы не пробовали разобраться, почему это происходит?
Что же касается игнорирования ссылок не читая - да, мы часть ссылок пропускаем и не качаем.
Не качаем (то есть, не обращаемся за страницей):
1) Искусственные каталоги, порожденные русским апачем (/win/, /koi/ и т. д.). То же самое - порты или поддомены, по которым раскидывает русский апач при соответствующей настройке.
2) Идентификаторы сессий (PHPSESSIONID)
3) Динамику - про это уже много говорили.
4) Руководства по apache и аналогичную информацию, которую инсталлятор web-сервера ставит по умолчанию или которую слишком любят копировать себе на сайт web-мастера.
Думаю, что в Яндексе есть аналогичные фильтры, хотя, значительно более "либеральные". В январе 2002 года мы проводили исследование - взяли результаты поиска Яндекса по нескольким десяткам запросов и покачали/поиндексировали их Рамблером (разумеется, сбросив все эти фильтры-запреты). На тот момент мы дубли объединяли лучше, причем большя часть распознанных дублей была бы "удавлена" нашими фильтрами URL без всякой выкачки.
Кто лучше клеит дубли сегодня - не знаю, времени на такое исследование нет. Сейчас на Рамблере повторов много, но за счет зеркал (скачали с одного зеркала тысячу страниц, а со второго - пятьсот. Получили, что пятьсот дублей, а еще пятьсот - хорошие уникальные страницы про то же самое). Склейщик зеркал уже почти готов, в сентябре собираемся внедрить. Уже сейчас пару сотен серверов могут увидеть про себя сообщение, что мы их не качаем, потому, что они зеркала такого-то сайта.
2 Gray: Вы не находите, что участники форума немного подхамливают?
1) Или новые документы появятся в базе, или сайт будет удален целиком (если найдется что-то противозаконное). Мы анализируем именно те HTML, которые скачал робот.
2) Зависит от многих параметров. Например, мог быть исчерпан лимит времени. Делать ничего не надо - до остальных ссылок робот все равно сам доберется.
А зачем?
Вроде достаточно задать только стартовую страницу - остальное поисковик сам заберет. Рамблер, например, сейчас сразу сайт качает, в ту же ночь. Яндекс вроде тоже быстро приходит.
А напрягать поисковик автосабмиттером - неправильно и вредно.
вот точные времена:
2002-05-13-04:04:19
2002-05-14-04:03:09
robots.txt мы забираем каждую неделю и фильтруем по ним базу. Заодно проверяется живость/доступность серверов.
Жесткого расписания индексации нет. Обычно в неделю обрабатывается 3-5 разных списков серверов (часто посещаемые, несвежие, фрихостеры и т. д.). Списки бывают при этом разные (бывают и по 100 тыс. хостов).
По общему списку робот обычно ходит 1 раз в месяц.
2002-05-13 - сервер не отвечал
2002-05-14 - тоже
Добавление ресурса в top100 не добавляет его автоматически в поиск. Об этом на странице рагистрации подробно написано, читайте внимательнее.
Выкачка зарегистрированных сайтов и индексация происходит в тот же день (точнее, ночь). Если страница не может быть проиндексирована, форма сразу же об этом сообщит. Единственное исключение - спаммеры - если ресурс замечен в чем-то нехорошем, паук к нему больше никогда не ходит.
Доливка проиндексированного обычно происходит раз в 2 недели. Таким образом, если вы добавили ресурс, а через 2 недели он не появился в поиске - обратитесь в службу поддержки.