Cherny

Рейтинг
120
Регистрация
19.09.2001

Я как-то верхним пределом не интересовался. Убедился, что робот ест то, что надо и забыл об этом. :)

Кстати, господа!

В свете изменений выдачи на Яндексе (страницы со всех поддоменов под "одним зонтом"), не поделится ли кто-нибудь информацией, лимит в 500 документов касается каждого поддомена отдельно или теперь Яндекс берет только 500 документов со всех поддоменов?

По поводу влияния на результаты - не знаю, но ситуацию, когда при ненастроенном last-modified не удавалось обновить содержимое страницы на клиенте без сброски всего кеша браузера, я видела своими глазами. Так что дату все же лучше выдавать.

Lisa, в Вашем случае надо было выдавать заголовки, управляющие кешированием, а не Last-Modified, а еще лучше правильно выдавать и то, и другое.

Скриптов пока нет. Есть использование ssi, сервер включен на поиск ssi в html.

Никогда не понимал, зачем это делают. Если лежит статика, то Apache автоматом выдает дату последнего изменения документа, а для SSI эту дату Апач перестает выдавать, потому что результирующий документ уже является динамическим.

SYNPHARA, если у Вас чистый HTML, то "выключив" обработку SSI для файлов html и html Вы решите свою проблему.

Так же ерунда. Если не ерунда, то совпадение или частный случай. На правильно настроенном сервере, динамический индекс имеет дату последнего изменения документа совпадающую с датой и временем захода робота. И что? Робот будет чаще заглядывать? Нет конечно

Дима, Апач, настроенный по умолчанию, не выдает никакой даты для динамических документов.

Насчет IIS не знаю, я с ним не работал.

Даже если и выдавать для документа текущую дату, то робот чаще заходить не будет, здесь ты абсолютно прав.

Но у Яндекса есть два(!) лимита документов:

1. Лимит в 500 страниц, которые он "унесет" с сайта за зодин заход (с кодом 200 Ок)

2. Лимит "запрашиваемых" документов, который в несколько раз больше, точную цифру не знаю.

Т.е. если на сайте большое количество документов (тысячи), то обработка Last-modified-since вместе с выдачей Last-Modified, позволит роботу забирать больше измененных документов и не трогать те, которые не менялись.

Сергей, мистер mnt приводил функцию на PHP, которая обрабатывает If-Modified-Since здесь, я использую похожую.

Mета как прошла в первый раз по 2,5 тыс. страниц - так больше и не появлялась

Она может и не появиться. :(

Перечитайте эту тему

в каталог также тяжело попасть как и в Яндекс и Апорт. я про то, что месяца 3 наверное уже жду... ни ответа, ни привета, и пишет что "в очереди" сайт стоит... когда пытался повторно ссылку закинуть

Стоит написать письмо, где вежливо поинтересоваться, в чем может быть проблема с добавлением сайта в каталог. Должно помочь.

Присоединяюсь к поздравлениям.

Здоровья, счастья, успехов!

Для чего? что он дает?

Вы, мистер, на тему сослались, а прочитали ее невнимательно. Обратите внимание на пост господина melkov.

2 temofey.

Мне кажется, мы здесь зря время теряем.

1. Я хочу сделать правильную подмену для поисковиков со всех сторон. Это значит что дата генерации документа не должна постоянно менятся это неприменно будет заподозренно, но это в принцепи сделать просто!

Заподозрено в чем? Дата здесь играет второстепенную роль.

2. как можно посмотреть заголовок получаемого документа (какие инструменты)

telnet + rfc2616

3. Как можно убрать самое главное из заголовка!
X-Powered-By: PHP/4.0.6 кроме php.ini

А это зачем? Присутствие такого заголовка тоже особой роли не играет. О том как управлять системными переменными PHP читать в руководстве по PHP. :)

Еще полезно добавить к заголовку следующее:

header("Status: 200");

ErrorDocument 404 /script.php

А какие заголовки выдает вышеупомянутый script.php?

Или тоже надо идти читать документацию к Апачу и rfc2616? :)

а во-вторых, чем не угодили обычные двойные кавычки

AFAIK разницы нет никакой.

wget, teleport pro

Не понял: все странички или ссылки на все странички?

LiM, о соблюдении Яндексом тех или иных принципов ведения бизнеса можно спорить долго и приводить много аргументов за и против. Однако, есть еще техническая сторона вопроса, а вот здесь в последнее время Яндекс не сильно радует. Это и несоблюдение некоторыми роботами Яндекса исключений в robots.txt, о чем справедливо заметил spark, и проблемы при склейке-расклейке страниц, и лимит в 500 документов на домен. Хорошо, если изменился только формат выдачи, а лимит, как и раньше, работает только для поддомена.

Что касается пользователей, то они теперь будут проходить мимо большего числа документов, спрятанных за ссылкой "Еще с сервера"...

Всего: 1011