- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Судя по логам, робот (H) запрашивает данные по протоколу HTTP/1.1?
посмотрел на разгоревшийся флейм по поводу кеширования, тему топикстартера и хотелось бы задать уточняющий вопрос - а при чем тут индексатор ?
ИМХО зеркальщик обходит сайт и ищет ссылки для склевания
а запрашивает повторно, чтобы точно быть уверенным, что страница отдается и так и так (не все же gzip поддерживают)
посмотрел на разгоревшийся флейм по поводу кеширования и хотелось бы задать уточняющий вопрос - а при чем тут индексатор ?
Все просто. В отличии от юзера, индексатор за короткое время хавает большое количество страниц. Нагрузку он создает не хилую на сервак. Кеши, сжатие, динамика и т.д. должны на это нормально реагировать.
На своей шкуре убедился, когда софтинка была не очень отлажена, как яшин робот сервак вешал.
Все просто. В отличии от юзера, индексатор за короткое время хавает большое количество страниц. Нагрузку он создает не хилую на сервак. Кеши, сжатие, динамика и т.д. должны на это нормально реагировать.
не спорю никоим разом - только в логах индексатор отмечается как (I) а не (H), как написал топикстартер
Яндекс(с) - Yandex/1.01.001 (compatible; Win16; I) — основной индексирующий робот
по моим логам он забирает страницу по разу (как правило)
по поводу того, как работает зеркальщик - честно даже понятия не имею, если кто подскажет, где почитать - то буду признателен
но исходя из сути клейки зеркал контент он точно должен обрабатывать:
Яндекс(с) - измените код главных страниц на неосновных зеркалах так, чтобы все (или почти все) ссылки с них вглубь сайта были абсолютными и вели на основное зеркало.
по этому и сделал свое предположение, почему страница забирается дважды
ИМХО зеркальщик обходит сайт и ищет ссылки для склевания
а запрашивает повторно, чтобы точно быть уверенным, что страница отдается и так и так (не все же gzip поддерживают)
Про H - да, зеркальщик, но по мне они все краулеры, собственно я употребил "индексатор" в этом смысле. А зачем ему убеждаться в том, что страница отдается и так и так - это интересно.
Сейчас посмотрел логи более тщательно:
- блоггерный индексатор (короче чтобы не путать людей - вот этот: YandexBlog/0.99.101 (compatible; DOS3.30; Mozilla/5.0; B; robot)) ест страницы периодически в сжатом виде, периодически не в сжатом.
- I бот - индексатор - тоже ест и так и так, но последовательного забора как у зеркальщика - действительно нет.
Разработчики говорят что если боты просят gzip - то так и нужно им gzip отдавать.
Про H - да, зеркальщик, но по мне они все краулеры, собственно я употребил "индексатор" в этом смысле.
:)
Разработчики говорят что если боты просят gzip - то так и нужно им gzip отдавать.
если поддерживает, то конечно отдавать надо
Но насколько я знаю при отсутсвии сжатия сервер уведомит робота соответсвующим заголовком (а точнее строчкой в ответе заголовка) о том, что сжатие не поддерживается. Дальнейшие действия будут зависеть от самомго робота. Но думаю что критичного при отсутсвии gzip сжатия ничего не будет.
Сжатие это плюс для сокращения трафика в сети, но минус для нагруженного сервера.
Но насколько я знаю при отсутсвии сжатия сервер уведомит робота соответсвующим заголовком (а точнее строчкой в ответе заголовка) о том, что сжатие не поддерживается.
Немного не так. Когда приходит запрос на сервер там пишется в заголовке Accept-Encoding, что типа я клиент умный, gzip понимать умею. Сервер в зависимости от своих возможностей может отдать gzip (пометив заголовком Content-Encoding что контент пожатый), а может отдать и просто plain/html.