Парсят или бот гугла?

12
87793
На сайте с 12.09.2009
Offline
661
#11

Уважаемый webrock, спасибо.

А есть какие-то комментарии по поводу означенных ботов - кто есть who и кто чем плох?

Вот этот, скажем,

webrock:
RewriteCond %{HTTP_USER_AGENT} Baiduspider [OR]

по имени судя, представляется мне поисковым ботом китайского национального поисковика Baidu.

То бишь аналогом гуглобота, только китайским.

Ошибаюсь или прав? 😕

Наше дело правое - не мешать левому!
R
На сайте с 03.05.2013
Offline
26
#12
AndrewML:
А чего ты стесняешься айпишник указать в вопросе? Думаешь тут есть экстрасенсы?
попробуй через domaintools посмотреть, там должно быть написано гугл это или нет.

хех кажись понял в чем дело.

наверное это какой-то плагин хрома.

потому что этот айпишник ходит по тем ссылкам, что хожу я в тот же момент.

webrock
На сайте с 05.04.2010
Offline
261
#13
87793:

по имени судя, представляется мне поисковым ботом китайского национального поисковика Baidu.
То бишь аналогом гуглобота, только китайским.
Ошибаюсь или прав? 😕

всё опционально.

если от Байду пользы сайту нет, нет ЦА, а он заходит и жрёт ресурсы, значит он не нужен.

в логах надо смотреть какой и сколько чего сканирует.

всякие SEO боты тоже должны проходить мимо, или пусть платят за посещение (шутка) :)

Полный аудит сайтов. (/ru/forum/765361)
R
На сайте с 03.05.2013
Offline
26
#14
webrock:
RewriteCond %{HTTP_USER_AGENT} MJ12bot [OR]
RewriteCond %{HTTP_USER_AGENT} Java [OR]
RewriteCond %{HTTP_USER_AGENT} NjuiceBot [OR]
....................

не подскажете, что за списочек

не охота по незнанию гугла забанить :)

webrock
На сайте с 05.04.2010
Offline
261
#15
Raensul:
не подскажете, что за списочек
не охота по незнанию гугла забанить :)

это моя небольшая коллекция, тех ботов, которые представляются.

Гугла там нет.

Greensneak
На сайте с 26.05.2013
Offline
99
#16

Кому интересно, вот полный список левых ботов, которых лучше блочить.

Извиняюсь за длинный пост :(

# Begin HackRepair.com Blacklist

RewriteEngine on

# Abuse Agent Blocking

RewriteCond %{HTTP_USER_AGENT} ^BlackWidow [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Bolt\ 0 [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Bot\ mailto:craftbot\@yahoo\.com [NC,OR]

RewriteCond %{HTTP_USER_AGENT} CazoodleBot [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Custo [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Default\ Browser\ 0 [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^DIIbot [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^DISCo [NC,OR]

RewriteCond %{HTTP_USER_AGENT} discobot [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Download\ Demon [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^eCatch [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ecxi [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^EmailCollector [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^EmailWolf [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^FlashGet [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^GetRight [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^GetWeb! [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^GrabNet [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Grafula [NC,OR]

RewriteCond %{HTTP_USER_AGENT} GT::WWW [NC,OR]

RewriteCond %{HTTP_USER_AGENT} heritrix [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^HMView [NC,OR]

RewriteCond %{HTTP_USER_AGENT} HTTP::Lite [NC,OR]

RewriteCond %{HTTP_USER_AGENT} HTTrack [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ia_archiver [NC,OR]

RewriteCond %{HTTP_USER_AGENT} IDBot [NC,OR]

RewriteCond %{HTTP_USER_AGENT} id-search [NC,OR]

RewriteCond %{HTTP_USER_AGENT} id-search\.org [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Image\ Stripper [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Image\ Sucker [NC,OR]

RewriteCond %{HTTP_USER_AGENT} Indy\ Library [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^InterGET [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^InternetSeer\.com [NC,OR]

RewriteCond %{HTTP_USER_AGENT} IRLbot [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ISC\ Systems\ iRc\ Search\ 2\.1 [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Java [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^JetCar [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^JOC\ Web\ Spider [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^larbin [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^LeechFTP [NC,OR]

RewriteCond %{HTTP_USER_AGENT} libwww [NC,OR]

RewriteCond %{HTTP_USER_AGENT} libwww-perl [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Link [NC,OR]

RewriteCond %{HTTP_USER_AGENT} LinksManager.com_bot [NC,OR]

RewriteCond %{HTTP_USER_AGENT} linkwalker [NC,OR]

RewriteCond %{HTTP_USER_AGENT} lwp-trivial [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Mass\ Downloader [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Maxthon$ [NC,OR]

RewriteCond %{HTTP_USER_AGENT} MFC_Tear_Sample [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^microsoft\.url [NC,OR]

RewriteCond %{HTTP_USER_AGENT} Microsoft\ URL\ Control [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX [NC,OR]

RewriteCond %{HTTP_USER_AGENT} Missigua\ Locator [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Mozilla\.*Indy [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Mozilla\.*NEWT [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^MSFrontPage [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Navroad [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^NearSite [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^NetAnts [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^NetSpider [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Net\ Vampire [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^NetZIP [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Nutch [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Octopus [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Offline\ Explorer [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Offline\ Navigator [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [NC,OR]

RewriteCond %{HTTP_USER_AGENT} panscient.com [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^pavuk [NC,OR]

RewriteCond %{HTTP_USER_AGENT} PECL::HTTP [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^PeoplePal [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^pcBrowser [NC,OR]

RewriteCond %{HTTP_USER_AGENT} PHPCrawl [NC,OR]

RewriteCond %{HTTP_USER_AGENT} PleaseCrawl [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^psbot [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^RealDownload [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^ReGet [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Rippers\ 0 [NC,OR]

RewriteCond %{HTTP_USER_AGENT} SBIder [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^SeaMonkey$ [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^sitecheck\.internetseer\.com [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^SmartDownload [NC,OR]

RewriteCond %{HTTP_USER_AGENT} Snoopy [NC,OR]

RewriteCond %{HTTP_USER_AGENT} Steeler [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^SuperBot [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Surfbot [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^tAkeOut [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Teleport\ Pro [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Toata\ dragostea\ mea\ pentru\ diavola [NC,OR]

RewriteCond %{HTTP_USER_AGENT} URI::Fetch [NC,OR]

RewriteCond %{HTTP_USER_AGENT} urllib [NC,OR]

RewriteCond %{HTTP_USER_AGENT} User-Agent [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Web\ Image\ Collector [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Web\ Sucker [NC,OR]

RewriteCond %{HTTP_USER_AGENT} Web\ Sucker [NC,OR]

RewriteCond %{HTTP_USER_AGENT} webalta [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^WebAuto [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^[Ww]eb[Bb]andit [NC,OR]

RewriteCond %{HTTP_USER_AGENT} WebCollage [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^WebCopier [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^WebFetch [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^WebGo\ IS [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^WebLeacher [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^WebReaper [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^WebSauger [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Website\ eXtractor [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Website\ Quester [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^WebStripper [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^WebWhacker [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^WebZIP [NC,OR]

RewriteCond %{HTTP_USER_AGENT} Wells\ Search\ II [NC,OR]

RewriteCond %{HTTP_USER_AGENT} WEP\ Search [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Wget [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Widow [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^WWW-Mechanize [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^WWWOFFLE [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Xaldon\ WebSpider [NC,OR]

RewriteCond %{HTTP_USER_AGENT} zermelo [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Zeus [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^Zeus\.*Webster [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ZyBorg [NC]

RewriteRule ^.* - [F,L]

# Abuse bot blocking rule end

# End HackRepair.com Blacklist

Регистрация домена (https://goo.gl/8evS7V), хостинг (https://goo.gl/xhACo2)
87793
На сайте с 12.09.2009
Offline
661
#17

Уважаемый Greensneak, тот же вопрос: а комментарии по поводу членов списка будут?

Какой бот что делает, чем плох и почему его нужно блочить?

Greensneak
На сайте с 26.05.2013
Offline
99
#18

87793, как и писал, список не я сделал. Это список с HackRepair.com - плоды совместного труда, как я понял. Плохие боты разные бывают - кто игнорит robots, кто нагрузку даёт нереальную, кто контент ворует. В списке нет нормальных нужных нам ботов. Все стандартные поисковики не затрагивает.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий