Алексанр

Рейтинг
63
Регистрация
29.10.2016
Может кому-то пригодится (блокируем боты и переходы с нежелательных сайтов в файле .htaccess)


RewriteCond %{HTTP_REFERER} (petalsearch\.com|dbankcloud\.com|neuronwriter\.com|telegra\.ph|baidu\.com|brief\.ly|s\.zlnav\.com|italstroy\.ru|iframe-toloka\.com|mobilesearchers\.com|coolakov\.ru|newsearchers\.com|tmweb\.ru|weebly\.com|calipso\.by|maxask\.com|presearch\.com|bitrix24\.ru|seranking\.com|xranks\.com|url-opener\.com|relevantus\.org|rush-analytics\.ru|api\.pfbaza\.website|arsenkin\.ru|tools\.pixelplus\.ru|m\.gsearch\.co|Ask\.com|readmehouse\.ru|factorial-eval|bitrix24\.by|alohafind\.com|planfix\.ru|amocrm\.ru|localmedia\.by|korona\.local|dynamitedojo\.com|topvisor\.com) [NC]
RewriteRule .* - [F,L]

RewriteCond %{HTTP_USER_AGENT} (AdsTxtCrawlerTP|aiHitBot|AlphaBot|Amazonbot|Applebot|archive\.org_bot|Audit|AwarioBot|axios|BackupLand|Baiduspider|Barkrowler|bingbot|Birubot|Bitrix|BLEXBot|Butterfly|CamontSpider|CCBot|coccoc|coccocbot-web|Crawler|curl|CyotekWebCopy|Dalvik|DataForSeoBot|Discordbot|DnyzBot|DotBot|DuckDuckGo-Favicons-Bot|ev-crawler|EventMachine|Exabot|ExtLinksBot|Ezooms|FairShare|FlipboardProxy|GeedoBot|Gigabot|Go-http-client|gold\ crawler|got|HeadlessChrome|HostTracker|HTTrack|ia_archiver|Iframely|InAGist|INETDEX-BOT|intelx\.io_bot|InternetMeasurement|InternetSeer|Java|JS-Kit|keys-so-bot|kmSearchBot|Konturbot|Ktor|larbin|LetsearchBot|Library|Linespider|Linguee|LinkedInBot|LinkExchanger|LinkpadBot|ltx71|lwp-trivial|Mail\.RU_Bot|Mail\.RU_Bot/Fast|MauiBot|MCN|meanpathbot|Mediatoolkitbot|MegaIndex\.ru|METASpider|MetaURI|MixrankBot|MJ12bot|MLBot|Moreover|msnbot|msnbot-media|Nekstbot|NetcraftSurveyAgent|netEstate|Nigma\.ru|NING|NjuiceBot|None|Nutch|okhttp|page-audit|PaperLiBot|PetalBot|PHP/|PingAdmin\.Ru|Pinterestbot|PixelTools|PostRank|PR-CY\.RU|ptd-crawler|Purebot|PycURL|Python|python-httpx|python-requests|Python-urllib|QuerySeekerSpider|ReactorNetty|RockMelt|rogerbot|SafeDNSBot|Scooper|Scrapy|Screaming|ScribdReader|SearchBot|SeekportBot|SemrushBot|SEO|SEOkicks|SeopultContentAnalyzer|serpstatbot|SeznamBot|SiteAnalyzerbot|SiteBot|SiteCheckerBot|SiteExplorer|Slurp|SMTBot|SolomonoBot|Soup|Spawning-AI|spbot|Spider|SputnikBot|statdom\.ru|strawberryj|suggybot|Summify|SurdotlyBot|SurveyBot|SWeb|TelegramBot|ttCrawler|TurnitinBot|TweetedTimes|TweetmemeBot|UnwindFetchor|User-Agent|Voyager|WebDataStats|WellKnownBot|Wget|WordPress|XenForo|Yeti|YottosBot|Zoombot|ZoominfoBot|Zeus|^\$) [NC]
RewriteRule .* - [F,L]
alaev #:

Стоит. Похоже на какой-то реферальный спам или ботовод накосячил :)

Спасибо большое! Написал в поддержку яндекса, жду ответа (скинул им логи, попросили) - приложу ответ в этой теме.

Стоит ли прописать в файле .htaccess что-то вроде этого:

RewriteCond %{HTTP_REFERER} ^http://(www\.)?yandex\.ru [NC,OR]

RewriteCond %{HTTP_REFERER} ^http://(www\.)?google\.com [NC]

RewriteRule ^ - [F,L]

Мои сайты в Беларуси - api не работает.
Может что-то связано с санкциями? Есть у кого-нить сайт не в зоне СНГ/и т.п. .... ну и чтобы api работало ... ?


Здравствуйте. Столкнулся с такой же проблемой на трех своих сайтах (уверен и 4-м тоже).

Смотрел статистику обхода робота гугла, одного из сайтов - 50,6К страниц за месяц. С учетом лимита АПИ 200 (стартового, на одном сайте в прошлом году у меня был лимит на http (без S) - 320) - это мизер для обхода сайта гуглом.
Постоянно пользовался (Индексинг АПИ) при создании новых страниц/разделов (с большим количеством страниц)  - для индексации страниц в гугле.

Я уже понял, что это будет для НАС реальность, есть мысли как в будущем загонять новые страницы в Гугл? Не считая мухляжа, что мол страница является объявлением о вакансии .... хотя .... тоже как вариант ... разметку можно легко поставить, НО можно и под фильтры попасть ...

Обновление Sitemap -  "интересно", но пол года не вариант ждать.
Инструменты Вебмастера давным давно не загоняют страницу в индекс.

Мысли вслух .... Гугл стал таким, т.к. вот эти все "обходы" на мировом уровне стоят миллиарды долларов (стоимость электроэнергии и амортизация ... железа) .... суды "-%" (по всему миру),  .... реклама - "-%" ...

Раньше яндекс был тормоз - теперь гугл.... 

Разобрался что это за трафик идет, но не понятно - блокировать его или нет.

Это:  Частный прокси-сервер предварительной выборки в Chrome

https://developer.chrome.com/blog/private-prefetch-proxy?hl=ru#

С одной стороны это ускоряет загрузку страниц, но как я понимаю там страницы кэшируются и контент может показываться старый (например обновление цен товаров или контактные данные ... да много чего может обновляться). Речь идет про мобильные версии сайта. Столкнулся с проблемой что страница обновилась, захожу в телефон, нажимаю на сохраненную ссылку - она открывает старый контент, причем кэширование настроено правильно + last-modified

Мне вот такой код помог:


RewriteCond %{THE_REQUEST} \? [NC]
RewriteCond %{REQUEST_URI} (.*) [NC]
RewriteCond %{QUERY_STRING} utm [NC]
RewriteRule .* - [F]

Если у вас есть вот такой код (который убирает знак ? и все после него из URL):

RewriteCond %{THE_REQUEST}  \?
RewriteRule ^(.*)$ /$1? [R=301,L]

то этот (нижеприведенный) код должен стоять выше, чтобы он сработал первее:

RewriteCond %{THE_REQUEST} \? [NC]
RewriteCond %{REQUEST_URI} (.*) [NC]
RewriteCond %{QUERY_STRING} utm [NC]
RewriteRule .* - [F]
Удалось самому решить проблему.
RewriteRule ^(.*)"(.*)$ /analytics.php [L,R=301]
Stranger82 #:
Накрутка 100%, но заблокировать пока лучше вот так: 2001:4860:7::/48 и продолжить наблюдение.

Это не накрутка - это Гугл бот

fliger #:
SetEnvIfNoCase User-Agent "^Mozilla/5\.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537\.36 (KHTML, like Gecko) Chrome/[\d\.]+ Safari/[\d\.]+$" Macintosh
Order Deny,Allow
Deny from env=Macintosh

Спасибо большое!

Всего: 42