Cherny

Рейтинг
120
Регистрация
19.09.2001

Blaster, лучше всего профильтровать логи по User-agent нужного поисковика. Оттуда сразу все видно. Не знаю, есть ли в лог-анализаторах аналогичные функции.

Я больше года назад проверял, тогда не учитывался, как и title ссылок.

Возможно, я ошибаюсь, но модуль mod_rewrite дает только психологический эффект. С технической точки зрения, он просто выдает http заголовок Location: <другой адрес>.

Lupus, вы действительно ошибаетесь. Все зависит, конечно, от правил перезаписи, но в большинстве случаев получаются дубли страниц с "динамическими" и "статическими" адресами.

wolf, согласен, не учел.

retider, рецепт прост. Определить параметры по умолчанию и при запросе скрипта без параметров подставлять их. А еще лучше эмулировать статику, там таких проблем не возникает.

(такой ссылки нет, но ведь робот может просто проиндексировать то, что лежит на сервере)

Если ссылки нет, то робот сам усекать параметры не станет.

В этой статье много ошибок. Например формат файла не обязательно должен быть юниксовым, можно использовать несколько строк User-agent в одной записи, но основная ошибка та, что все строки в поле Disallow должны начинаться с корня (/), а них в примерах это не так.

Лучше уж потратить время и прочитать стандарт, где-то на citforum.ru был его перевод, а вышеприведенную статью лучше не читайте. 🙅

Тогда я не прав. Надо будет перечитать RFC.

и быть может кто-то знает почему программа webbug по версии HTTP 1.1 находит страницы и дает информацию по ним, а во версии HTTP 1.0 на существующие страницы говорит что "HTTP/1.1 404 Not Found" - это так и должно быть?

Я знаю, так и должно быть, потому что в версии 1.0 протокола HTTP отсутствовала поддержка виртуальных хостов, поэтому на запрос страницы отвечает дефолтный сайт на этом IP. По-моему так.

Это что-то новенькое. Хотлог стал точнее логов? Может это какие-то логи неправильные?

Бывает, что логи не дают полной картины, если перед перед сайтом стоит акселератор. Хотя, не в разы, конечно.

редирект тут в обоих случаях

Для первого случая, ИМХО, лучше сделать отдельную страницу 404.shtml, на которой внятно говорить, что страница не найдена, дать ссылку на главную... Иначе Гугл может в результате криво склеить страницы, сделать главной какую-нибудь www.site.com/bla-bla.html и будет потом морока по расклейке.

Для чего нужен второй редирект мне не понятно.

Всего: 1011