Интернет – очень динамичная среда. С момента публикации предыдущей статьи «Исследование состояния файла robots.txt сайтов Яндекс.Каталога» прошло уже два с половиной года. Это очень значимый срок. За это время многие технологии успели устареть, а те, которые раньше были лишь уделом новаторов и экспериментаторов, заняли серьёзные позиции, и без них уже сложно представить современную веб-разработку. Сайтостроительство из «кустарной» отрасли превращается в отрасль профессиональную. Как объективно изменилась грамотность вебмастеров? Мы постараемся дать ответ на этот вопрос, проанализировав состояние одного из главных файлов, отвечающих за индексацию сайта – robots.txt.
Постараемся разобраться в этом вопросе, сравнив данные, полученные в августе 2010 года, с данными за февраль 2008.
Цели исследования
• Определить качественный уровень грамотности вебмастеров сайтов, размещенных в каталоге Яндекса.
• Определить, насколько профессионально используется файл управления индексацией сайта robots.txt.
Методы и средства
Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать главный домен, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д. ([1]).
Исследовались следующие параметры файла robots.txt:
• статус коды ответов серверов,
• mime типы для файлов robots.txt,
• наличие и правильность указания кодировки в заголовке ответа сервера,
• проверка корректности синтаксиса и орфографии при написании директив,
• использование специализированных команд.
Статус коды
HTTP коды статуса (возвращаемые сервером заголовки) говорят веб-браузерам и роботам поисковых систем, какого рода ответ они получают при загрузке страницы.
Для оценки того, насколько активно веб-мастера используют возможность управлением индексацией своего сайта, мы собрали статус коды файлов robots.txt для сайтов, описанных в каталоге поисковой системы Яндекс.
Для данных 2010 г. распределение по кодам ответа сервера выглядит следующим образом:
Таблица 1 – Распределение статус кодов, данные 2010 г.
Сравним с данными, полученными в 2008 г.:
Число сайтов, у которых при обращении к файлу robots.txt возвращается верный заголовок ответа сервера, значительно выросло и составляет чуть менее 58%, тогда как в 2008 году был только 41%. Код ответа сервера 200 говорит о том, что файл существует и может быть загружен.
MIME типы
MIME типы (типы содержания) возвращаются веб-серверами в HTTP заголовках, чтобы сообщить клиентам, какой документ передается. Они состоят из типов (text, image и так далее), подтипов (html или jpeg) и некоторых необязательных параметров, таких, как кодировка документа. Единственный MIME тип, который должен возвращать файл robots.txt, - это текст (text/plain).
Из числа исследуемых сайтов, после сбора статус кодов, осталось 51215 сайтов, ответивших заголовком 2xx (документ существует), у 48604 (94,9%) из которых MIME тип соответствует «text/plain». Соответственно, 2611 (5,1%) сайтов возвращают MIME тип, отличный от верного (по данным 2008 года, таких сайтов было 8,03%).
Исследуемые серверы ответили следующими различными значениями MIME типов:
Таблица 2 – Разнообразие кодов ответов сервера
Кодировка
Ситуация с кодировкой за два с половиной года не изменилась. По-прежнему присутствует большое разнообразие в настройках кодировки сервера. Если в феврале 2008 года было всего 9 различных вариантов указания кодировки, то в 2010 году выбор стал богаче: 12 различных вариантов.
Таблица 3 – Разнообразие кодировок в ответах серверов.
Данная ситуация не является критичной, так как большинство индексирующих роботов поисковых систем определяют кодировку загруженного документа самостоятельно.
Комментарии
В robots.txt можно использовать только один вид комментариев. Комментарием считается строка после знака “#”. При этом среди исследованных файлов были найдены:
• HTML комментарии “< !- - >“(25 фалов);
• комментарии в стиле C++ “//”(20 файлов);
• комментарии ИСР Delphi “{}“ (56 файлов);
Стоит отметить, что в исследовании, которое проводилось в 2008 году, комментарии по типу ИСР Delphi не встречались.
Обычные синтаксические ошибки
Спецификация говорит о том, что записи должны разделяться пустыми строками, и большинство ошибок вращается вокруг этого.
1) Дополнительная пустая строка. На момент исследования доля таких сайтов - 0,6% (318 сайтов), в то время как в 2008 году таких сайтов было 1,6%.
2) Пропущен символ начала новой строки между User-Agent и правилами для индексации. Сайтов с подобной ошибкой - 0,4% (217), в 2008 году доля таких сайтов была 1,07%.
3) Строка с агентом после правила Disallow не разделена пустой строкой. В каталоге Яндекса 0,7% (380) таких сайтов. Два с половиной года назад: процент сайтов с такой ошибкой был 1,45%.
Задержка сканирования
За время, прошедшее с предыдущего исследования, индексирующий робот поисковой системы Яндекс официально стал поддерживать директиву crawl-delay. Эта мера значительно повлияла на количество сайтов, в robots.txt которых указана эта директива. По данным 2010 года, из 51215 сайтов на 3406 (6,7%) директива crawl-delay присутствует. В 2008 году таких сайтов было всего 2,3%.
Опечатки
Очень часто причиной того, что робот поисковой системы игнорирует инструкции в файле robots.txt, являются банальные опечатки. В указанном ниже списке встречается 19 различных написаний директивы Disallow:
При этом написание директивы user-agent вызывает значительно меньше сложностей. Найдено 11 различных вариантов:
Общая грамотность в написании этой директивы за 2 с половиной года снизилась. В 2008 году вариантов написания user-agent было всего 7.
Другие ошибки и курьёзы
Многие вебмастера, вероятно, слышали о том, что необходим файл robots.txt, но не совсем понимают, для чего он нужен. Поэтому появилось множество курьёзов.
Разработчики сайта alicecoopernet.narod.ru, возможно, верят в магическую силу наличия robots.txt на сайте. И, видимо, из-за отношения к этому файлу как к особенной магии, он содержит только следующие строки:
Некоторые вебмастера считают, что дизайн должен быть везде: не только на основном сайте, но и во вспомогательных файлах. Например, документ robots.txt на сайте benbarnes.flybb.ru содержит изображение роботов. Всё логично, не поспоришь:
У многих любителей фантастики слово «робот» в первую очередь ассоциируется с Айзеком Азимовым. Вебмастер, сайта last.fm, вероятно, относится к таким людям. В robots.txt он перечислил три закона роботехники:
Sitemap.xml
C момента проведения исследования 2008 года, формат sitemap.xml стал официально поддерживаться Яндексом.
Файл Sitemap — это файл, расположенный на сайте и содержащий дополнительную информацию о страницах, подлежащих индексированию. С помощью файла Sitemap можно сообщить индексирующим роботам поисковых систем, какие страницы сайта нужно индексировать, как часто обновляется информация на страницах, а также индексирование каких страниц наиболее важно ([2]).
В связи с этим мы решили собрать статус коды ответов сервера также и для этого типа файлов. На август 2010 года файл sitemap.xml присутствует на 9247 сайтах, что составляет 9,7% от всей исследуемой выборки сайтов.
Выводы и заключение
1. С 2008 года значительно улучшилась ситуация с наличием файлов robots.txt. Процент сайтов с установленным robots.txt увеличился на 18% и составляет чуть менее 58%.
2. Улучшилась ситуация с указанием MIME-типов для файлов robots.txt. Количество файлов с неверным типом уменьшилось с 8,03% (в 2008 году) до 5,1% в 2010 году.
3. За 2 года ситуация с указанием кодировки отдаваемого документа заметно не изменилась. До настоящего момента администраторы веб-серверов так и не определились, как прописывать кодировку UTF-8.
4. Рост количества файлов с неверными комментариями в robots.txt соответствует общей выборке, относительное количество таких файлов за два с половиной года не изменилось.
5. Уменьшилось количество файлов с ошибками в синтаксисе robots.txt, по основным измеряемым параметрам количество неверных конструкций снизилось до значений менее 1%.
6. Значительно выросло количество сайтов, где в robots.txt указана директива Crawl-Delay. На настоящий момент таких сайтов: 6,7%.
7. Файл sitemap.xml присутствует менее чем на 10% сайтов.
8. Исследование косвенно показало рост количества грамотных веб-мастеров в российском сегменте Интернет в период с 2008 по 2010 год.
Источники
1. http://robotstxt.org.ru/
2. http://help.yandex.ru/webmaster/?id=1007070
ИнтерЛабс:
Сахно Олег Игоревич,
Селин Евгений Валерьевич.