А почему вы не запрещаете всех ботов?

123 4
O
На сайте с 28.07.2009
Offline
131
1276

 А почему бы не запретить всех роботов, кроме Яндекса и Гугла в robots.txt? Какой в этом минус? Ну и всяким mailru, если кому-то это надо...

Почему не превратить robots.txt в белый список, перечисляя тех, кому можно, а остальным Disallow?

занимаюсь автоматизацией торговли (http://olegon.ru)
W1
На сайте с 22.01.2021
Offline
285
#1
olegon :
почему бы не запретить всех роботов, кроме Яндекса и Гугла в robots.txt

Потому что всем роботам плевать на  robots.txt. Вроде как за 14 лет пребывания на форуме эту истину можно было усвоить.

Мой форум - https://webinfo.guru –Там я всегда на связи
Александр
На сайте с 18.03.2020
Offline
144
#2
olegon :
Почему не превратить robots.txt в белый список, перечисляя тех, кому можно, а остальным Disallow

Потому, что robots - это рекомендация, а не правило.
Кто-то следует общепринятым рекомендациям, а кто-то - другие боты - плевали на эту рекомендацию.

-S
На сайте с 10.12.2006
Offline
Модератор1355
#3
olegon :

Почему не превратить robots.txt в белый список, перечисляя тех, кому можно, а остальным Disallow?

Потому что роботс ничего физическм не запрещает, это рекомендация, которую можно игнорировать.

Vladimir
На сайте с 07.06.2004
Offline
531
#4
webinfo #:

Потому что всем роботам плевать на  robots.txt. Вроде как за 14 лет пребывания на форуме эту истину можно было усвоить.

Истину, которую необходимо давно усвоить, что это даже не рекомендация, а всеобщее  заблуждение на серче.
Прописали в роботс и все успокоились
- Яндекс и обходит, и индексирует, и выкидывает основные страницы, ставя дубли в поиск. Потом исправляется, ой рекомендации увидел, но основная страница, была в топ ...улетела за сотню. Это одна из причин вылета из топа страниц
- Закрыли в роботс, и успокоились, а потом начинается ...почему у меня плохо индекструется. У вас дублей страниц больше, чес основных. И как всегда, ой да это не влияет, у меня каноникал стоит. Это тоже рекомендация.
Ну и основное в ваших каноникал и роботс, это бюджет ПС, которого вам потом не хватает, и вследствии чего ( плюс дубли) - одна из причин МПК (основная)




Аэройога ( https://vk.com/aeroyogadom ) Йога в гамаках ( https://vk.com/aero_yoga ) Аэройога обучение ( https://aeroyoga.ru ) и просто фото ( https://weandworld.com )
Антоний Казанский
На сайте с 12.04.2007
Offline
617
#5
olegon :

А почему бы не запретить всех роботов, кроме Яндекса и Гугла в robots.txt? Какой в этом минус? Ну и всяким mailru, если кому-то это надо...

Почему не превратить robots.txt в белый список, перечисляя тех, кому можно, а остальным Disallow?

Потому что в robots.txt указываются инструкции для поисковых роботов.

К паразитному бот трафику (если именно он вам беспокоит) этот служебный файл не имеет никакого отношения.


olegon :
Почему не превратить robots.txt в белый список, перечисляя тех, кому можно, а остальным Disallow?

Формально в директиве  User-agent вы можете запретить индексацию любым поисковым роботам, но:

а) только поисковым

б) это лишь рекомендация, которая может быть поисковым ботом проигнорирована

Директива User-agent - Вебмастер. Справка
  • yandex.ru
В файле робот проверяет наличие записей, начинающихся с , в них учитываются подстроки (регистр значения не имеет) или . Если обнаружена строка , то строка не учитывается. Если строки и отсутствуют, считается, что доступ роботу не ограничен. Если обнаружены директивы для конкретного робота, директивы и не...
√ SEO продвижение https://akazansky.ru - экспертный аудит сайтов ( https://akazansky.ru/audit-sajtov ), внедрение эффективных решений цифрового маркетинга. Обучение автоматизации с помощью Zennoposter https://goo-gl.me/6Zypu
Vladimir
На сайте с 07.06.2004
Offline
531
#6
Антоний Казанский #:

Потому что в robots.txt указываются инструкции для поисковых роботов.

К паразитному бот трафику этот служебный файл не имеет никакого отношения.

Читай внимательно, где у ТС про паразитный траф?
O
На сайте с 28.07.2009
Offline
131
#7

Давайте детализирую.

Никто не говорит, что все боты сразу сбегут. Но есть те, которые слушаются, однако, на сайте не нужны.

Вопрос, наверное, больше к тем, кто пробовал или видит очевидную причину так не делать.

User-agent: Yandex
User-agent: Googlebot
Allow: /

User-agent: *
Disallow: /

Антоний Казанский
На сайте с 12.04.2007
Offline
617
#8
olegon #:
Вопрос, наверное, больше к тем, кто пробовал или видит очевидную причину так не делать.

Вопрос в том, какую конкретно задачу вы решаете.

Избавить сайт от всех ботов вы всё равно не сможете, часть из них будет игнорировать правило User-agent: *, Disallow: /

Вы конечно можете взять известный перечень имён поисковых ботов, например, здесь и запретить их через User-agent, но никакой особой погоды это для вас не сделает.

Топ 20 ботов которые постоянно сканируют ваши сайты. Не все из них одинаково полезны
Топ 20 ботов которые постоянно сканируют ваши сайты. Не все из них одинаково полезны
  • 2023.03.07
  • habr.com
Здравствуйте! На связи Максим Кульгин, моя компания clickfraud.ru защищает предпринимателей от ущерба, вызываемого действиями «плохих» роботов. Многие администраторы веб-сайтов настолько напуганы современными сетевыми угрозами, что без разбора готовы бороться против всех средств автоматизированного обхода. Оправдана ли такая глухая линия...
damn-doubleclick
На сайте с 10.09.2021
Offline
39
#9
# BEGIN Bad Bot Blocker
# Универсальный блокировщик спам-ботов от files. Подробности в telegramm: @seozona
# Последняя редакция: 15.04.2023
SetEnvIfNoCase User-Agent "Abonti|AspiegelBot|aggregator|AhrefsBot|Aport|asterias|Baiduspider|BDCbot|bidswitchbot|Birubot|BLEXBot|BUbiNG|BuiltBotTough|Bullseye|BunnySlippers|Butterfly|ca\-crawler|CamontSpider|CCBot|Cegbfeieh|CheeseBot|CherryPicker|coccoc|CopyRightCheck|cosmos|crawler|Crescent|CyotekWebCopy/1\.7|CyotekHTTP/2\.0|DataForSeoBot|DeuSu|discobot|DittoSpyder|DnyzBot|DomainCrawler|DotBot|Download Ninja|EasouSpider|EmailCollector|EmailSiphon|EmailWolf|EroCrawler|Exabot|ExtractorPro|Ezooms|FairShare|Fasterfox|FeedBooster|Foobot|Genieo|GetIntent\ Crawler|Gigabot|gold\ crawler|GrapeshotCrawler|grub\-client|Harvest|hloader|httplib|HTTrack|humanlinks|HybridBot|ia_archiver|ieautodiscovery|Incutio|InfoNaviRobot|InternetSeer|IstellaBot|Java|Java/1\.|JamesBOT|JennyBot|JS-Kit|k2spider|Kenjin Spider|Keyword Density/0\.9|kmSearchBot|larbin|LexiBot|libWeb|libwww|Linguee|LinkExchanger|LinkextractorPro|linko|LinkScan/8\.1a Unix|LinkWalker|LinkpadBot|lmspider|LNSpiderguy|ltx71|lwp-trivial|lwp\-trivial|magpie|Mata Hari|MaxPointCrawler|MegaIndex|memoryBot|Microsoft URL Control|MIIxpc|Mippin|Missigua Locator|Mister PiX|MJ12bot|MLBot|moget|MSIECrawler|msnbot|msnbot-media|NetAnts|NICErsPRO|Niki\-Bot|NjuiceBot|NPBot|Nutch|Offline Explorer|OLEcrawler|Openfind|panscient\.com|PostRank|ProPowerBot/2\.14|PetalBot|ProWebWalker|ptd-crawler|Purebot|PycURL|python-requests|Python\-urllib|QueryN Metasearch|RepoMonkey|Riddler|RMA|Scrapy|SemrushBot|serf|SeznamBot|SISTRIX|SiteBot|sitecheck\.Internetseer\.com|SiteSnagger|Serpstat|Slurp|SnapPreviewBot|Sogou|Soup|SpankBot|spanner|spbot|Spinn3r|SpyFu|suggybot|SurveyBot|suzuran|sqlmap|SWeb|Szukacz/1\.4|Teleport|Telesoft|The Intraformant|TheNomad|TightTwatBot|Titan|toCrawl/UrlDispatcher|True_Robot|ttCrawler|turingos|TurnitinBot|UbiCrawler|UnisterBot|Unknown|uptime files|URLy Warning|User-Agent|VCI|Vedma|Voyager|WBSearchBot|Web Downloader/6\.9|Web Image Collector|WebAuto|WebBandit|WebCopier|WebEnhancer|WebmasterWorldForumBot|WebReaper|WebSauger|Website Quester|Webster Pro|WebStripper|WebZip|Wotbox|wsr\-agent|WWW\-Collector\-E|Yeti|YottosBot|Zao|Zeus|ZyBORG" bad_bot
Deny from env=bad_bot
# END Bad Bot Blocker

Блокировка ботов посредством файла .htaccess

Вы это имели ввиду?

Из 100к "Unique Visitors" вот столько попадает в перечень этих правил:


Лучший хостер с адекватными сис. админами: https://clck.ru/35zGfN
O
На сайте с 28.07.2009
Offline
131
#10

От всех ботов, как и говорил, понимаю, что не избавлю.

Но, например, от тех, кто доку к httrack не читал - избавлю. Кроме того, журналы на случай разбора полетов с ботами будут почище. Если бот лезет поперек правил - это плохой, негодный бот.
Всякие Semrush, даже Мылру и Bing, которые сканят все мои страницы, но приводят меньше 10 пользователей в месяц, зато могут быть источником каких-то совсем ненужных мне исследований сайта или выбора его для парсинга...

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий