- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Хочу защитить свой сайт от скачивания разными нежелательными ботами. Какие юзер-агенты у них могут быть? Пока я нашел следующие варианты:
Download Master
ia_archiver
Wget
Teleport
Flashget
Offline Explorer
DISCo Pump
WebZIP
WebCopier
CIS TE
DTS Agent
WebReaper
HTTrack
Net Vampire
Web Downloader
Кто еще знает другие, поделитесь, плиз. Буду проверять агентов по этому полю.
Ага, у меня в FlashGet по умолчанию стоит IE5.x.
Так что по юзер-агенту не вариант юзать защиту от скачивания.
Не разбираюсь я в тонкостях, но юзайте что-то типа JS.
Ага, у меня в FlashGet по умолчанию стоит IE5.x.
Так что по юзер-агенту не вариант юзать защиту от скачивания.
Не разбираюсь я в тонкостях, но юзайте что-то типа JS.
Да, я знаю, что они теперь шифруются. Но многих еще можно поймать и по юзер-агенту. У меня несколько раз за неделю ловятся.
А яву-скрипт они тоже сейчас парсят и ходят по ее ссылкам.
Вроде, неплохая идея есть здесь - http://php.spb.ru/other/_dima_noflood.php Но, по ходу, применение этого скрипта сдерживается тем, что он будет блокировать не только роботов-качалок, но и полезных ботов, типа всяких яндексов/гуглов, если они вдруг решат съесть у тебя за раз сотню/другую/третью страниц. Видимо, наилучшим решением будет дополнить вышеупомянутый скрипт проверкой по юзер-агентам ботов яндекса и т.п. и уже на основании этой информации принимать решение.
А у кого еще какие мысли есть по данной проблеме? А то меня фотогалерея уникальных фотографий, вот и приходится бороться.
проблему загрузок можно решить модами апача, ограничивающих число коннектов в единицу времени или число одновременных подключений к серверу. IMHO более правильно. Кстати поисковики обычно не ведут себя менее агрессивно в отличае от менеджеров закачек.
Ага, у меня в FlashGet по умолчанию стоит IE5.x.
Так что по юзер-агенту не вариант юзать защиту от скачивания.
Не разбираюсь я в тонкостях, но юзайте что-то типа JS.
Апач пробъет ФлашГет. Вот список "плохих" UA:
#We do NOT allow unauthorized robots.
User-agent: metaSpider
Disallow: /
User-agent: Sqworm/2.9.85-BETA
Disallow: /
User-agent: lwp-trivial/1.34
Disallow: /
User-agent: libwww-perl/5.75
Disallow: /
User-agent: libwww-perl/5.45
Disallow: /
User-agent: SurveyBot/2.3
Disallow: /
User-agent: Myrasoft.com Active Search Engine Robot
Disallow: /
User-agent: Baiduspider
Disallow: /
User-agent: NPBot
Disallow: /
User-agent: P.Arthur 1.1
Disallow: /
User-agent: Wget
Disallow: /
User-agent: grub-client
Disallow: /
User-agent: grub-client-0.3.0
Disallow: /
User-agent: grub
Disallow: /
User-agent: looksmart
Disallow: /
User-agent: WebZip
Disallow: /
User-agent: larbin
Disallow: /
User-agent: b2w/0.1
Disallow: /
User-agent: psbot
Disallow: /
User-agent: Python-urllib
Disallow: /
User-agent: NetMechanic
Disallow: /
User-agent: URL_Spider_Pro
Disallow: /
User-agent: CherryPicker
Disallow: /
User-agent: EmailCollector
Disallow: /
User-agent: EmailSiphon
Disallow: /
User-agent: WebBandit
Disallow: /
User-agent: EmailWolf
Disallow: /
User-agent: ExtractorPro
Disallow: /
User-agent: CopyRightCheck
Disallow: /
User-agent: Crescent
Disallow: /
User-agent: SiteSnagger
Disallow: /
User-agent: ProWebWalker
Disallow: /
User-agent: CheeseBot
Disallow: /
User-agent: LNSpiderguy
Disallow: /
User-agent: Mozilla
Disallow: /
User-agent: mozilla
Disallow: /
User-agent: Mozilla/0
Disallow: /
User-agent: Mozilla/1
Disallow: /
User-agent: mozilla/3
Disallow: /
User-agent: mozilla/4
Disallow: /
User-agent: mozilla/5
Disallow: /
User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows NT)
Disallow: /
User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows 95)
Disallow: /
User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows 98)
Disallow: /
User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows XP)
Disallow: /
User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows 2000)
Disallow: /
User-agent: Mozilla/4.0
Disallow: /
User-agent: Mozilla/4.0 (compatible; T-H-U-N-D-E-R-S-T-O-N-E)
Disallow: /
User-agent: Mozilla/3.0 (compatible)
Disallow: /
User-agent: InternetSeer.com
Disallow: /
User-Agent: sitecheck.internetseer.com
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: ia_archiver/1.6
Disallow: /
User-agent: Alexibot
Disallow: /
User-agent: Teleport
Disallow: /
User-agent: TeleportPro
Disallow: /
User-agent: MIIxpc
Disallow: /
User-agent: Telesoft
Disallow: /
User-agent: Website Quester
Disallow: /
User-agent: moget/2.1
Disallow: /
User-agent: WebZip/4.0
Disallow: /
User-agent: WebStripper
Disallow: /
User-agent: WebSauger
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: NetAnts
Disallow: /
User-agent: Mister PiX
Disallow: /
User-agent: WebAuto
Disallow: /
User-agent: TheNomad
Disallow: /
User-agent: WWW-Collector-E
Disallow: /
User-agent: RMA
Disallow: /
User-agent: libWeb/clsHTTP
Disallow: /
User-agent: asterias
Disallow: /
User-agent: httplib
Disallow: /
User-agent: turingos
Disallow: /
User-agent: spanner
Disallow: /
User-agent: InfoNaviRobot
Disallow: /
User-agent: Harvest/1.5
Disallow: /
User-agent: Bullseye/1.0
Disallow: /
User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)
Disallow: /
User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0
Disallow: /
User-agent: CherryPickerSE/1.0
Disallow: /
User-agent: CherryPickerElite/1.0
Disallow: /
User-agent: WebBandit/3.50
Disallow: /
User-agent: NICErsPRO
Disallow: /
User-agent: Microsoft URL Control - 5.01.4511
Disallow: /
User-agent: DittoSpyder
Disallow: /
User-agent: Foobot
Disallow: /
User-agent: SpankBot
Disallow: /
User-agent: BotALot
Disallow: /
User-agent: lwp-trivial/1.34
Disallow: /
User-agent: lwp-trivial
Disallow: /
User-agent: BunnySlippers
Disallow: /
User-agent: Microsoft URL Control - 6.00.8169
Disallow: /
User-agent: Microsoft URL Control - 6.00.8862
Disallow: /
User-agent: SurveyBot
Disallow: /
User-agent: TurnitinBot
Disallow: /
User-agent: URLy Warning
Disallow: /
User-agent: Wget/1.6
Disallow: /
User-agent: Wget/1.5.3
Disallow: /
User-agent: LinkWalker
Disallow: /
User-agent: cosmos
Disallow: /
User-agent: moget
Disallow: /
User-agent: hloader
Disallow: /
User-agent: humanlinks
Disallow: /
User-agent: LinkextractorPro
Disallow: /
User-agent: Offline Explorer
Disallow: /
User-agent: Mata Hari
Disallow: /
User-agent: LexiBot
Disallow: /
User-agent: Web Image Collector
Disallow: /
User-agent: The Intraformant
Disallow: /
User-agent: True_Robot/1.0
Disallow: /
User-agent: True_Robot
Disallow: /
User-agent: BlowFish/1.0
Disallow: /
User-agent: JennyBot
Disallow: /
User-agent: MIIxpc/4.2
Disallow: /
User-agent: BuiltBotTough
Disallow: /
User-agent: ProPowerBot/2.14
Disallow: /
User-agent: BackDoorBot/1.0
Disallow: /
User-agent: toCrawl/UrlDispatcher
Disallow: /
User-agent: WebEnhancer
Disallow: /
User-agent: suzuran
Disallow: /
User-agent: VCI WebViewer VCI WebViewer Win32
Disallow: /
User-agent: VCI
Disallow: /
User-agent: Szukacz/1.4
Disallow: /
User-agent: QueryN Metasearch
Disallow: /
User-agent: Openbot
Disallow: /
User-agent: Xenu's Link Sleuth 1.1c
Disallow: /
User-agent: Xenu's
Disallow: /
User-agent: Zeus
Disallow: /
User-agent: RepoMonkey Bait & Tackle/v1.01
Disallow: /
User-agent: RepoMonkey
Disallow: /
User-agent: Microsoft URL Control
Disallow: /
User-agent: Openbot
Disallow: /
User-agent: URL Control
Disallow: /
User-agent: Zeus Link Scout
Disallow: /
User-agent: Zeus 32297 Webster Pro V2.9 Win32
Disallow: /
User-agent: Webster Pro
Disallow: /
User-agent: EroCrawler
Disallow: /
User-agent: LinkScan/8.1a Unix
Disallow: /
User-agent: Keyword Density/0.9
Disallow: /
User-agent: Kenjin Spider
Disallow: /
User-agent: Iron33/1.0.2
Disallow: /
User-agent: Bookmark search tool
Disallow: /
User-agent: GetRight/4.2
Disallow: /
User-agent: FairAd Client
Disallow: /
User-agent: Gaisbot
Disallow: /
User-agent: Aqua_Products
Disallow: /
User-agent: Radiation Retriever 1.1
Disallow: /
User-agent: WebmasterWorld Extractor
Disallow: /
User-agent: Flaming AttackBot
Disallow: /
User-agent: Oracle Ultra Search
Disallow: /
User-agent: MSIECrawler
Disallow: /
User-agent: PerMan
Disallow: /
User-agent: searchpreview
Disallow: /
User-agent: NaverBot-1.0
Disallow: /
User-agent: Faxobot
Disallow: /
О, спасибо, gambling!
Многих из твоего списка узнал в своих логах. А откуда ты взял этот список, если не секрет?
http://www.searchenginegenie.com/Dangerous-user-agents.htm
http://forums.seochat.com/search-engine-spiders-27/my-list-of-bad-bots-50400.html
http://diveintomark.org/archives/2003/02/26/how_to_block_spambots_ban_spybots_and_tell_unwanted_robots_to_go_to_hell
To: gambling
Mozilla/4.0 (compatible; MSIE 4.0; Windows 98)
Мой браузер так по умолчанию идентифицируется :)
Наверно я плохой, или просто пора менять Windows? Так у меня денег нет на новую версию ;)
To: gambling
Mozilla/4.0 (compatible; MSIE 4.0; Windows 98)
Мой браузер так по умолчанию идентифицируется :)
Наверно я плохой, или просто пора менять Windows? Так у меня денег нет на новую версию ;)
Взято из robots webmasterworld.com до того как он начал писать там свои дурацкий блог. Посмотри внимательно:
compatible; MSIE 4.0; Windows 98