Интересное исследование robots.txt

greenwood
На сайте с 08.09.2003
Offline
519
1465

на примере DMOZ

почему в разделе дорвеи ?

а дорвеи любят беки ? :smoke:

organic
На сайте с 07.11.2004
Offline
141
#1

Дядя Коля, нефкурил. Т.е. пост интересный, но упоминаний dmoz не нашел

Yeah, well, I'm gonna go build my own theme park, with blackjack and hookers. In fact, forget the park!
greenwood
На сайте с 08.09.2003
Offline
519
#2
organic:
но упоминаний dmoz не нашел

Цитата:

Записав паука для моего ОБСЛЕДОВАНИЕ заголовков HTTP и запустил это против всех областей в the Открытый Директорий,

organic
На сайте с 07.11.2004
Offline
141
#3

По диагонали читал, теперь понял. (Я еще удивлялся откуда база)

E
На сайте с 29.03.2007
Offline
102
#4

Поразительно какие ошибки допускают в роботсе. Если сайты в Дмозе, то вроде хорошие сайты и владельцы их должны быть грамотными.

Особенно удивило количество роботсов с копией страницы описания роботса - пример тут: это у каждого тысячного сайта. Как будто "мастера" нашли страницу и решили от греха подальше скопипастить. А китайцы вообще засунули в роботс картинку.

Смешно.

K
На сайте с 21.08.2007
Offline
3
#5

В двух словах перевел. Товарищ Andrew Wooster взял базу Открытого Каталога (по его прикидкам, это около 4% Интернета), отпарсил ее, достав все домены (около 4,6 миллионов), а потом самописным пауком забрал с каждого домена robots.txt. Его мускульная база потянула на 12Гб.

Потом провел незатейливый анализ - если при запросе robots.txt сервер отдает 2хх - ОК, если 4хх - сакс. Код 200 отдали 1,2 миллиона сайтов, код 404 - 3 миллиона. Остальные 400 тысяч сайтов отдавали самую разнообразную петрушку. 21 сайт отдал код, о котором даже w3 Консорциум ничего не знает, типа 490 или 900.

Около 65% отдают 4хх страницу - т.е. robots.txt отсутствует. 7,6% перенаправляют запрос на другую страницу - обычно на морду. И только около 26% имеют этот файл.

Сводная таблица выглядит так:

Класс Количество Процентов

5xx 4,338 0.09

4xx 3,035,454 65.86

3xx 350,946 7.61

2xx 1,217,559 26.42

1xx 12 0.00

ХЗ 21 0.00

Ну и, натурально, начал глумиться над незадачливыми веб-мастерами и мастерицами.

Около 65% отдают 4хх страницу - т.е. robots.txt отсутствует. 7,6% перенаправляют запрос на другую страницу - обычно на морду. И только около 26% имеют этот файл.

Некоторые специалисты решили размещать свой robots.txt не в виде text, а чего-нибудь повеселее. Самыми частыми ошибками MIME Types были:

* text/enriched

* text/css

* text/x-perl

* text/vnd.wap.wml

Присутствуют перлы:

* text/svg

В общем, товарищ Andrew Wooster осмелился предположить, что Стандарт исключения слишком сложен для основной массы вебдауновмастеров. Отсутствие robots.txt означает, что вебмастер не знает о существовании роботов, и роботы должны держаться от него подальше (с).

В качестве бонуса шедевры настоящих мастеров. Сорри за пиар

Lesni4ok
На сайте с 25.08.2007
Offline
22
#6

а вот собственно и сам скрипт на перле. Ваш пользовательский код пишите между

#Do something. This code print page to stdout
и
#End your code

Если вдруг! (каталог большой, так что случится точно) ваш робот залипнет - в переменной $startpath можно указать откуда начинать процесс. Пользуйтесь на здоровье и изучайте роботов - они наше все)

serg mossine
На сайте с 03.07.2002
Offline
114
#7
egorych:
А китайцы вообще засунули в роботс картинку.

Это они, чтобы кодировка не сбивалась, отожгли :-)

Уважаемые участники! Если у вас вскочил чирей на жопе, либо нужно купить ноутбук, часы, трусы, выбрать ресторан и т.д., не стоит искать ответа здесь, попробуйте предварительно найти профильный ресурс. Поверьте, он есть. Задолбали. Орфографию, как и искусство кун-фу, настоящие мастера применяют лишь в исключительных ситуациях.
E
На сайте с 29.03.2007
Offline
102
#8

Отгрохал полный перевод эксперимента. Думаю так будет удобнее :)

Dmoz: Каждый четвертый сайт имеет ошибки в robots.txt

Rul
На сайте с 01.02.2006
Offline
108
Rul
#9

Встречал еще такие коменты в robots.txt :)

# Zdravstvui, robot, dorogoi -

# Golova iz vaty.

# Vot opyat ty k nam prishol

# S vidom vorovatym...

#

# Indeksirui vse podrad

# Pravdy ne skryvaya -

# Chtoby pishno rascvetal

# Saitik nash prekrasniy!

#

# Chtoby kazhdyi ohlamon

# S silnym zudom pyatok

# Mog vezde naiti legko

# Fotki, fil'mi, babok!

Блог о музыке (http://www.rulaf.com/) | SEO blog (http://seo-kharkov.com/blog/) Dead Island (http://deadisland.ru/)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий