К сожалению, есть много примеров, когда это не работает. Причем не всегда на живых серверах можно эксперименты ставить (пересортировать, скачать заново и сравнить) - бывает даже, что они от этого ломаются. То же самое касается необязательных параметров.
Кстати, а что Вы будете делать с теми, кто динамику маскирует? Когда нету символа '?' в URL.
Что же касается анализа полезности, то на лету его делать очень сложно - нужно ведь совокупность страниц сервера анализировать. А качаем мы параллельно очень много серверов. Поэтому робот качает все подряд, а потом уже другие программы клеят дубли, выкидывают явный мусор и т. д.
Так что, на сегодняшний момент, чем аккуратнее написан web-сайт, тем лучше мы его будем индексировать.
Действительно было бы неплохо, если бы сам разработчик сортировал аргументы скрипта на своих страницах (при условии, конечно, что он будет следить за результатом, тестировать ссылки и т. д.).
С уважением,
Влад
Знаете, в top100 часто пытаются накрутить конкурента, чтобы выкинуть его из рейтинга.
Но почему-то обещание познакомить их между собой (я имею в виду, того, чей ресурс накручивают, с тем, кто накручивает) очень хорошо вразумляет.
А информацию собрать для этого вполне можно
С уважением
По ссылкам робот ходит. По редиректам - тоже.
Для того, чтобы Рамблер прошелся по всему серверу достаточно сделать совсем немного вещей:
1) Скормить ему небольшое количество страниц, с которых в 1-2 клика видно все, что хочется заиндексировать. Сабмитить все страницы совсем не обязательно.
2) Постараться, чтобы среди страниц не было "мусора" - страниц, на которых только дизайн и нет никакого наполнения. Есть любители писать скрипты так, что если параметры неправильные, скрипт просто выдает дизайн (всякие рамки, навигацию и прочую беллетристику) и код 200 (успех). А потом на страницах своего же сайта кладут эти самые ссылки с непрвильными параметрами.
В результате наш робот бродит по одинаковм страницам, не содержащим ничего хорошего, а до нормальных текстов добирается очень нескоро.
3) Крайне желательно, чтобы URL были простыми и незамысловатыми. Пример: С точки зрения практически любого поисковика, URL
/foo/bar/xxx.yyy?a=1&b=2&c=3
,
/foo/bar/xxx.yyy?b=2&c=3&a=1
и
/foo/bar/xxx.yyy?b=2&c=3
совсем разные вещи, хотя обычно скрипты разбирают параметры независимо от порядка и с учетом default значений для тех параметров, которые в QUERY_STRING отсутствуют.
Соответственно, на этапе выкачки оказывается, что мы накачали 100 тыс. ссылок, из которых на самом деле уникальных - 2 тыс, а остальное - вариации перестановок параметров, добавление случайных чисел (session id и прочая дрянь) и т. д.
Теперь представьте себе, что список страниц для какого-то сервера внезапно распух с 10 киолбайт до пары мегабайт. Туда обычно лезет человек и начинает "тюкать топором".
Так что, постарайтесь, чтобы элементы URI всегда были в некотором каноническом порядке, а если параметр равен своему default значению, то чтоб его не было (ну, или наоборот, всегда был).
4) Последнее, что хотел сказать - не обижайте наших роботов. Не подсовывайте им специальных страниц, которые ничего общего не имеют с тем, что видят пользователи. Если сайт попал в стоп-лист, его оттуда потом никакая из автоматич. процедур не достанет, а вся информация о сайте удаляется.
Влад Шабанов
1. Вы не правы. Мы сейчас обновляем индексы раз в месяц. В наших списках действительно есть еще новые сайты, на которые робот должен был сходить в декабре, а еще не дошел, но таких немного - несколько сотен.
2. Да, это в некоторых случаях помогает
С уважнием,
[This message has been edited by vs (edited 18-01-2002).]
Плохо относятся. http://www.rambler.ru/doc/recommendations.shtml
Есть. До местных серверов роботы российских поисковых машин ходят обычно быстрее и с меньшим количеством проблем. Ну, конечно, если хостинг нормальный.
Господа хорошие, да что вы так все молитесь на эту мифическую формулу релевантности? По вашему, она как философский камень, может любую страницу в нечто ценное превратить?
В любой быстрой поисковой машине формулы как таковой НЕТУ! Есть - сложный алгоритм, который, двигаясь по блокам индексной информации, на ходу подсчитывает разные параметры. Превратить его в аналитическую функцию, а потом найти экстремум при заданных ограничениях - невозможно (ну, по крайней мере, в Рамблеровском поисковике). Точнее, возможно (для любой такой штуки можно построить аналитическую аппроксимацию), но очень долго и сложно.
Ну, знаете вы, допустим, конкретные коэффициенты функции, определяющей вес вхождения нескольких слов в зависимости от расстояния между ними и еще десятка других параметров, что дальше? И так ведь ежу понятно, что слова запроса, идущие в документе рядом, имеют максимальный вес, а когда эти слова разбросаны по документу - вес пониже.
[This message has been edited by vs (edited 26-11-2001).]
Я бы посоветовал всем посмотреть на Рамблеровскую Руметрику http://rumetrica.rambler.ru/data/auditory/5/ там запросы Рамблеровской машинки вместе с некоторой статистикой и группировкой по темам. Всеж таки, информация из первых рук, причем достаточно свежая.
Что-то мне это немножко непонятно. Получается, выкачиваю я сервер конкурента себе так, чтобы он стал полным зеркалом, а затем раз в час делаю файлам touch или хуже того, их немножко модифицирую, и все, оригинальный сайт уже не будет найден?
P.S. Давненько мы не оптимизировали Рамблер, чтоб он в первую N-ку в разных поисковиках попадал Все, пошел читать раздел про дорвеи и холвеи