- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
на примере DMOZ
почему в разделе дорвеи ?
а дорвеи любят беки ? :smoke:
Дядя Коля, нефкурил. Т.е. пост интересный, но упоминаний dmoz не нашел
но упоминаний dmoz не нашел
Цитата:
Записав паука для моего ОБСЛЕДОВАНИЕ заголовков HTTP и запустил это против всех областей в the Открытый Директорий,
По диагонали читал, теперь понял. (Я еще удивлялся откуда база)
Поразительно какие ошибки допускают в роботсе. Если сайты в Дмозе, то вроде хорошие сайты и владельцы их должны быть грамотными.
Особенно удивило количество роботсов с копией страницы описания роботса - пример тут: это у каждого тысячного сайта. Как будто "мастера" нашли страницу и решили от греха подальше скопипастить. А китайцы вообще засунули в роботс картинку.
Смешно.
В двух словах перевел. Товарищ Andrew Wooster взял базу Открытого Каталога (по его прикидкам, это около 4% Интернета), отпарсил ее, достав все домены (около 4,6 миллионов), а потом самописным пауком забрал с каждого домена robots.txt. Его мускульная база потянула на 12Гб.
Потом провел незатейливый анализ - если при запросе robots.txt сервер отдает 2хх - ОК, если 4хх - сакс. Код 200 отдали 1,2 миллиона сайтов, код 404 - 3 миллиона. Остальные 400 тысяч сайтов отдавали самую разнообразную петрушку. 21 сайт отдал код, о котором даже w3 Консорциум ничего не знает, типа 490 или 900.
Около 65% отдают 4хх страницу - т.е. robots.txt отсутствует. 7,6% перенаправляют запрос на другую страницу - обычно на морду. И только около 26% имеют этот файл.
Сводная таблица выглядит так:
Класс Количество Процентов
5xx 4,338 0.09
4xx 3,035,454 65.86
3xx 350,946 7.61
2xx 1,217,559 26.42
1xx 12 0.00
ХЗ 21 0.00
Ну и, натурально, начал глумиться над незадачливыми веб-мастерами и мастерицами.
Около 65% отдают 4хх страницу - т.е. robots.txt отсутствует. 7,6% перенаправляют запрос на другую страницу - обычно на морду. И только около 26% имеют этот файл.
Некоторые специалисты решили размещать свой robots.txt не в виде text, а чего-нибудь повеселее. Самыми частыми ошибками MIME Types были:
* text/enriched
* text/css
* text/x-perl
* text/vnd.wap.wml
Присутствуют перлы:
* text/svg
В общем, товарищ Andrew Wooster осмелился предположить, что Стандарт исключения слишком сложен для основной массы вебдауновмастеров. Отсутствие robots.txt означает, что вебмастер не знает о существовании роботов, и роботы должны держаться от него подальше (с).
В качестве бонуса шедевры настоящих мастеров. Сорри за пиар
а вот собственно и сам скрипт на перле. Ваш пользовательский код пишите между
Если вдруг! (каталог большой, так что случится точно) ваш робот залипнет - в переменной $startpath можно указать откуда начинать процесс. Пользуйтесь на здоровье и изучайте роботов - они наше все)
А китайцы вообще засунули в роботс картинку.
Это они, чтобы кодировка не сбивалась, отожгли :-)
Отгрохал полный перевод эксперимента. Думаю так будет удобнее :)
Dmoz: Каждый четвертый сайт имеет ошибки в robots.txt
Встречал еще такие коменты в robots.txt :)
# Zdravstvui, robot, dorogoi -
# Golova iz vaty.
# Vot opyat ty k nam prishol
# S vidom vorovatym...
#
# Indeksirui vse podrad
# Pravdy ne skryvaya -
# Chtoby pishno rascvetal
# Saitik nash prekrasniy!
#
# Chtoby kazhdyi ohlamon
# S silnym zudom pyatok
# Mog vezde naiti legko
# Fotki, fil'mi, babok!