vs

Рейтинг
24
Регистрация
20.06.2001
Должность
разработчик
Как писал Fad


А вот здесь можно поподробней... Очень интересно...

Учет ссылок - это PageRank плюс построение специального индекса с текстами гиперссылок.

А про каталогизацию - у нас есть несколько разных способов сказать, какой рубрике принадлежит сайт, какой тип сайта (персональная страница, корпоративный сайт и т. д.). Ну, а раз есть способ, надо его в поиск "вкрутить". Как минимум, покажем название рубрики около найденного ресурса. Потом попробуем сделать группировку по темам.

Кстати, вот вы тут говорите про плохое ранжирование. Давайте сделаем так: приведите примеры (запрос, что нашлось и что именно не нравится). Мы обязательно посмотрим, поанализируем и исправим, если оно не противоречит, например, требованиям производительности или объему индекса.

Как писал Fad
Влад не могли бы вы рассказать о будущем Рамблер.Поиска .
Я думаю, что со мной многие согласятся, что нужны кардинальные
изменения в ваших алгоритмах ранжирования. Как на счет технологии
Pagerank, вы планируете её внедрять.

У нас сейчас два вида работ:

подготовка к осени (нагрузка начнется сумасшедшая)

и новые функции.

С первым, думаю, и так все понятно, мы переписываем и ускоряем разные части поисковика. В результате индекс можно будет обновлять "на лету". Конечно, не за 15 минут как это обещает NTT, но с большими удобствами, чем теперь.

Во вторым: сейчас делаем несколько "бантиков" в пользовательском интерфейсе и объединение зеркал на этапе обхода сети. Осенью - учет ссылок в поиске и каталогизация ответной страницы (поиграемся с группировкой списка найденного по темам).

Один бантик уже доступен - поищите Георг 6, найдете Георг VI.

Пестепенно переделываем робота. В ближайшем будущем он будет быстрее "убивать" пропавшие ресурсы, например, на фрихостерах.

Немного не понял что Вы имеете в виду.

Тогда обсчитывать в реальном времени не получилось и корректно сравнить таким образом посещаемости поисковиков не удалось.

Сравнивать посещаемость Вы можете хоть каждый день - и у Яндекса и у нас она открыта. Только сопоставлять числа очень трудно, о чем, собственно, я и ответил Никите Шерману.

А про кредитоспособность - это поди померяй. Сложно очень. Попробуйте сами, если Ваш сайт что-нибудь продает. Результаты сопоставления будут интересны всем. Только методику обязательно опубликуйте.

Но то, что пользователи разные - это точно. Кстати, при помощи top100 что-нибудь интересное узнать про различия можно будет - мы умеем, например, определять сферу интересов пользователя по тем сайтам, на которые он ходит (конечно, если на сайте есть счетчик top100). Я, например, в нашей баннерной системе "припаян" к категории авто-мото, потому, что на авто-ру бываю. Вот она и показывает мне баннеры про автомобили. Причем только на работе - дома жена искажает картинку :-))

P.S. да не извиняйтесь Вы так часто, проехали давно.

Как писал spark
vs
Если это я "подхамливаю", то покорнейше прошу прощения за себя и свой вебалайзер.

Ну, в общем, да. Лог ведь "хитрый" - с первого взгляда кажется, что разница в 50 раз, а на самом деле - сильно меньше, так как заходы подсветчика, картинок и закладок надо вычесть. С тем, какие строчки (какую букву Win16) надо вычеркнуть, перед тем, как сравнивать, знатоки Яндекса скажут сразу, по памяти.

С точки зрения web-мастера главный критерий: сколько людей приводит поисковик на сайт. С точки здения его начальника - сколько денег приносит сайт. По первому параметры отдача от Яндекса и Рамблера, в общем, сравнима (есть сайты, куда больше ходят с Рамблера, есть - куда больше ходят с Яндекса). по второму - не знаю, есть разные мнения. Серьезного исследования, которое бы делало статистически обоснованные выводы на эту тему я не видел.

Кстати, если не ошибаюсь, на этот сайт больше ходят с нашего поисковика.

Активность робота, конечно, на эти вещи влияет, но не так, как господин spark пытается это представить. Опять же, процитирую Илью Сегаловича - мы (как и Яндекс) заботимся не о web-мастерах, а о пользователях интернета. Свежую информацию для пользователей мы поставляем с избытком, а если наш робот обошел вниманием чей-то сайт, то на то и web-мастер, чтоб за такими вещами сделить и исправлять ситуацию.

2 spark. Вы не пробовали разобраться, почему это происходит?

Что же касается игнорирования ссылок не читая - да, мы часть ссылок пропускаем и не качаем.

Не качаем (то есть, не обращаемся за страницей):

1) Искусственные каталоги, порожденные русским апачем (/win/, /koi/ и т. д.). То же самое - порты или поддомены, по которым раскидывает русский апач при соответствующей настройке.

2) Идентификаторы сессий (PHPSESSIONID)

3) Динамику - про это уже много говорили.

4) Руководства по apache и аналогичную информацию, которую инсталлятор web-сервера ставит по умолчанию или которую слишком любят копировать себе на сайт web-мастера.

Думаю, что в Яндексе есть аналогичные фильтры, хотя, значительно более "либеральные". В январе 2002 года мы проводили исследование - взяли результаты поиска Яндекса по нескольким десяткам запросов и покачали/поиндексировали их Рамблером (разумеется, сбросив все эти фильтры-запреты). На тот момент мы дубли объединяли лучше, причем большя часть распознанных дублей была бы "удавлена" нашими фильтрами URL без всякой выкачки.

Кто лучше клеит дубли сегодня - не знаю, времени на такое исследование нет. Сейчас на Рамблере повторов много, но за счет зеркал (скачали с одного зеркала тысячу страниц, а со второго - пятьсот. Получили, что пятьсот дублей, а еще пятьсот - хорошие уникальные страницы про то же самое). Склейщик зеркал уже почти готов, в сентябре собираемся внедрить. Уже сейчас пару сотен серверов могут увидеть про себя сообщение, что мы их не качаем, потому, что они зеркала такого-то сайта.

2 Gray: Вы не находите, что участники форума немного подхамливают?

Первоначальное сообщение от chaif
Если он пошел далее по ссылкам это означает, что они скоро появятся в базе, т.е. ничего противозаконного он в них не обнаружил?
Почему он спустился всего лишь на один уровень, ведь можно было минимум еще на один?

1) Или новые документы появятся в базе, или сайт будет удален целиком (если найдется что-то противозаконное). Мы анализируем именно те HTML, которые скачал робот.

2) Зависит от многих параметров. Например, мог быть исчерпан лимит времени. Делать ничего не надо - до остальных ссылок робот все равно сам доберется.

Первоначальное сообщение от benedict
Определяюсь: главное, чтобы их (автосабмиттеровский) скрипт ломился на яндекс, рамблер, и т.д, т.е. чтобы он свой трафик жрал, а не мой.

А зачем?

Вроде достаточно задать только стартовую страницу - остальное поисковик сам заберет. Рамблер, например, сейчас сразу сайт качает, в ту же ночь. Яндекс вроде тоже быстро приходит.

А напрягать поисковик автосабмиттером - неправильно и вредно.

Первоначальное сообщение от Oleg


Может быть, хотя по логам Апача народ в эти дни ходил.
А есть какая-то периодичность индексации? Странно видеть в логах довольно частые заходы робота только за robots.txt.

вот точные времена:

2002-05-13-04:04:19

2002-05-14-04:03:09

robots.txt мы забираем каждую неделю и фильтруем по ним базу. Заодно проверяется живость/доступность серверов.

Жесткого расписания индексации нет. Обычно в неделю обрабатывается 3-5 разных списков серверов (часто посещаемые, несвежие, фрихостеры и т. д.). Списки бывают при этом разные (бывают и по 100 тыс. хостов).

По общему списку робот обычно ходит 1 раз в месяц.

Первоначальное сообщение от Oleg


Не знаю насчет двух недель, но на наш сайт (http://www.rightfax.ru) ....

2002-05-13 - сервер не отвечал

2002-05-14 - тоже

Добавление ресурса в top100 не добавляет его автоматически в поиск. Об этом на странице рагистрации подробно написано, читайте внимательнее.

Выкачка зарегистрированных сайтов и индексация происходит в тот же день (точнее, ночь). Если страница не может быть проиндексирована, форма сразу же об этом сообщит. Единственное исключение - спаммеры - если ресурс замечен в чем-то нехорошем, паук к нему больше никогда не ходит.

Доливка проиндексированного обычно происходит раз в 2 недели. Таким образом, если вы добавили ресурс, а через 2 недели он не появился в поиске - обратитесь в службу поддержки.

Всего: 129