Яндекс прекрасно индексирует SSI. Рамблер и Апорт тоже индексируют при отсутствии в адресе вопросительного знака. Следует только заметить, что Апач, например, не выдает дату последнего изменения файла для .shtml, либо выдает текущую.
WebBug
Упоминалась на форуме
Можно online
Сервер можно и телнетом протестировать.
Кроме всего прочего робот Апорта не понимает конструкцию <base href=> в документе и соответственно натыкается на ErrorCode 404 при переходе по относительным ссылкам! Идущий следом StackRambler нормально забрал все документы.
В двух словах: прокси кеширует входящие данные (работает в паре с браузером), а акселератор - исходящие (в паре с сервером).
Принцип работы тот же самый.
Кроме снижения нагрузки на процессор сервера возможна более быстрая выдача результата, например для собираемой из кусков SSI-страницы, которая у акселератора в кеше хранится уже в собранном виде.
Хостер не только платный, но и с ограничением траффика😮!
Вопрос: имеет ли значение для поисковых роботов наличие в заголовке ответа сервера строк с X-Cache?
Кроме этого акселератор добавляет поле Last-Modified и устанавливает в нем текущее время.
Squid может работать как в режиме прокси сервера, так и http-акселератора. Хотя акселератором может быть и сам Апач.
Приведу пример ответа сервера, может что-то прояснит:
HTTP/1.0 200 OK Date: Thu, 30 May 2002 08:35:28 GMT Server: Apache/1.3.24 (Unix) PHP/4.2.1 mod_deflate/1.0.12 rus/PL30.12 Content-Type: text/html; charset=windows-1251 Content-Encoding: gzip Expires: Thu, 01 Jan 1970 00:00:01 GMT Last-Modified: Thu, 30 May 2002 08:35:28 GMT X-Cache: MISS from beast.xxxxxxx.net X-Cache-Lookup: HIT from beast.xxxxxxx.net:3128 Connection: close
Дорвей на втором месте по запросу Подбор масел, а по запросу подбор масел на первой странице его действительно нет. Т.е. регистр имеет значение.
У меня сайты в базу попадали довольно быстро. Да только редко больше одной страницы. Что не удивительно, потому как робот больше ничего и не брал. Сейчас надеюсь на изменение ситуации.
Тоже немного статистики.
С августа прошлого почти каждый день робот брал robots.txt и первую страницу. С первой страницы по ссылкам не шел. С начала мая начал потихоньку брать остальные. В базе видимых изменнений нет. Либо действительно Инктоми полгода на первой странице разминается :), либо что-то они в мае начали менять.