Blaster, лучше всего профильтровать логи по User-agent нужного поисковика. Оттуда сразу все видно. Не знаю, есть ли в лог-анализаторах аналогичные функции.
Я больше года назад проверял, тогда не учитывался, как и title ссылок.
Lupus, вы действительно ошибаетесь. Все зависит, конечно, от правил перезаписи, но в большинстве случаев получаются дубли страниц с "динамическими" и "статическими" адресами.
wolf, согласен, не учел.
retider, рецепт прост. Определить параметры по умолчанию и при запросе скрипта без параметров подставлять их. А еще лучше эмулировать статику, там таких проблем не возникает.
Если ссылки нет, то робот сам усекать параметры не станет.
В этой статье много ошибок. Например формат файла не обязательно должен быть юниксовым, можно использовать несколько строк User-agent в одной записи, но основная ошибка та, что все строки в поле Disallow должны начинаться с корня (/), а них в примерах это не так.
Лучше уж потратить время и прочитать стандарт, где-то на citforum.ru был его перевод, а вышеприведенную статью лучше не читайте. 🙅
Тогда я не прав. Надо будет перечитать RFC.
Я знаю, так и должно быть, потому что в версии 1.0 протокола HTTP отсутствовала поддержка виртуальных хостов, поэтому на запрос страницы отвечает дефолтный сайт на этом IP. По-моему так.
Бывает, что логи не дают полной картины, если перед перед сайтом стоит акселератор. Хотя, не в разы, конечно.
Для первого случая, ИМХО, лучше сделать отдельную страницу 404.shtml, на которой внятно говорить, что страница не найдена, дать ссылку на главную... Иначе Гугл может в результате криво склеить страницы, сделать главной какую-нибудь www.site.com/bla-bla.html и будет потом морока по расклейке.
Для чего нужен второй редирект мне не понятно.