- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
realefs, я работал с селениумом (который теперь вебдрайвер).
Очень заинтересовало ваше заявление. Лично мне неизвестны "баги вебдрайвера", которые "позволяют со 146% точностью определить что это бот".
Можете привести хотя бы один пример такого бага?
если вам недостаточно направления куда копать, то уж готовые решения я вам преподносить точно не собираюсь.
Twickbot,
.
получается что боты отсеиваются как хрумер , или они не отправляют пост запрос вообще?
тут ещё идея старая есть( так как ставлю фрейм не проверял сильно)
смысл в том что у каждой программы бота должно быть ограничение , (защита от зацикливания)
например перешёл бот на страницу 1.хтмл на ней есть ссылка на страницу 1.хтмл( предположение состоит в том что ему незачем уже переходить по этой ссылке, иначе он зациклится)
tanir23, сейчас хитроботы не жмут умышленно на кнопки и формы.
зацикливание от фрейма особо нету ни в браузерах, ни у большинства ботов, гуглобот индексатор скорее вам сервер повалит таким зацикливанием, я проверял, он тоже поддерживает фреймы.
tanir23, гуглобот индексатор скорее вам сервер повалит таким зацикливанием, я проверял,
тоесть гуглбот будет переходить со страницы 1.хтмл на страницу 1.хтмл по ссылке?
используеш пост запрос, я предлогаю вместо кнопки попробывать использовать ссылку сама на себя, отслеживая рефер, если урл рефера страницы=урл страницы та не бот.
(только браузеры при переходе по такой ссылке отдают кеш страницы, а не запрашивают её заново )
tanir23, саму на себя во фрейме не пробовал, но просто с страницы 1 на 2, с 2 на 3 и так до бесконечности - бесконечно и завиливал обращениями гугл и некоторые хитроботы яндекса, которые ходят как браузер с яндексовых ипов.
хитроботы передают реферер правильно, они и с яндекса по ключам норм переходят.
realefs, я работал с селениумом (который теперь вебдрайвер).
Очень заинтересовало ваше заявление. Лично мне неизвестны "баги вебдрайвера", которые "позволяют со 146% точностью определить что это бот".
Можете привести хотя бы один пример такого бага?
Не баг, но вот https://www.crunchbase.com защищен от парсинга (ситуация на момент с полгода назад) и там защита отрабатывает на selenium. Я ковырялся в js, которым защищен сайт (есть там на страницах скрипт, у которого имя каждый раз рандомное) - там вот как раз есть определени селениума и еще каких-то "бразуров" типа phantomjs - насколько я помню, там ищутся в объекте window определенные методы или событие, характерные только для этих "браузеров"
любой ip "домашнего" российского инет провайдера (и набор REMOTE_ADDR + HTTP_CLIENT_IP, HTTP_FORWARDED etc) будет признан как ботом, совершающим аномальные автоматические действия, так и человеком, совершающим осмысленные и живые действия.
Ну, так я и писал. Если использовать то, что использует обычный пользователь (IP из подсетки реального провайдера и обычный браузер) и управлять действиями в браузере программно с помощью вебдрайвера, то нет никако способа понять, что работает программа, а не человек.
Однозначно можно смело считать человеком тех, кто ходит оперой мини с турбо режимами.
Почему?
Я просто с Оперой вплотную не работал. Драйвер под нее есть:
https://selenium2.ru/articles/133-operachromiumdriver.html
Что, Опера мини как-то радикально отличается от обычной Оперы, кроме ЮА?
такая защита только хрумером
Я сам владелец хрумера, правда, давно им не пользовался.
Раньше он работал не используя обычный браузер. Как такая защита может спасти от бота с реальным браузером?
если вам недостаточно направления куда копать,
Так Вы не давали никакого направления, куда копать. Просто сказали, что есть баги, которые позволяют определить, что работает бот на вебдрайвере.
Гугль и Яндекс о таких багах и способах ничего не знают.
то уж готовые решения я вам преподносить точно не собираюсь.
Ну и отлично!
Как я понял, Вы - единственный человек в мире, кто знает способ определить, что работает вебдрайвер с обычным браузером (допустим с ФФ).
И никому не расскажете, как это делать.
Ботописатели могут спать спокойно.
там защита отрабатывает на selenium.
Сами пробовали? С обычным браузером?
там вот как раз есть определени селениума и еще каких-то "бразуров" типа phantomjs
phantomjs - это даже не браузер, а эмулятор браузера. Он очень сильно отличается от обычного браузера и не сомневаюсь, что вычислить его работу не составляет труда.
Но, речь же шла о работе через обычный браузер.
Сами пробовали? С обычным браузером?
phantomjs - это даже не браузер, а эмулятор браузера. Он очень сильно отличается от обычного браузера и не сомневаюсь, что вычислить его работу не составляет труда.
Но, речь же шла о работе через обычный браузер.
Да, тот же селениум (через файрфокс) банился через несколько запросов, поэтому и рассказываю, что там есть защита и предлагаю расковырять js для подробностей - сам уже всех деталей просто не помню. В качестве обхода пришлось пускать selenium через fiddler, который фильтровал эту js и несколько перезаписывал её код, чтобы эта проверка не срабатывала.
А чем phamtomjs не браузер? Вроде они себя haedless webkit зовут, т.е. webkit без UI, насколько я понимаю. Т.е. скрипты он выполняет, картинки загружает, чем он так уж сиьлно от обычного браузера отличается?
Да, тот же селениум (через файрфокс) банился через несколько запросов, поэтому и рассказываю, что там есть защита и предлагаю расковырять js для подробностей
Прежде, чем начать ковырять js, ИМХО нужно сначала достоверно установить факт бана из-за использования вебдрайвера.
Вы меня заинтриговали. Готов поучаствовать в эксперементе по использованию вебдрайвера на этом сайте.
Несколько вопросов:
1. Каким образом происходил бан? Выдавалась ошибка (404, 503)? Редирект?
2. Вы пробовали проделать то же самое с тем же самым браузером вручную? Бана не было? Просто, есть методика определения работы бота по одинаковой задержке между действиями, либо по очень маленькой задержке, не свойственной живому человеку. У вас задержка задавалась случайно и была достаточно большой?
А чем phamtomjs не браузер?
phamtomjs не может быть использован обычными пользователями и вычисляется достаточно легко. Вот, например:
https://habrahabr.ru/post/303378/
Ну, а как только его вычислили, значит это - 100% бот.
Прежде, чем начать ковырять js, ИМХО нужно сначала достоверно установить факт бана из-за использования вебдрайвера.
Вы меня заинтриговали. Готов поучаствовать в эксперементе по использованию вебдрайвера на этом сайте.
Несколько вопросов:
1. Каким образом происходил бан? Выдавалась ошибка (404, 503)? Редирект?
2. Вы пробовали проделать то же самое с тем же самым браузером вручную? Бана не было? Просто, есть методика определения работы бота по одинаковой задержке между действиями, либо по очень маленькой задержке, не свойственной живому человеку. У вас задержка задавалась случайно и была достаточно большой?
1. Вместо страницы сайта показывалась страница системы защиты, типа мы решили, что вы бот. Там система типа cloudflare или как тут на серче называется?
2. Да, пробовал быстро ходить по страницам сайта через файрфокс обычный и хром - всё ок. В скрипте задержки были рандомные и достаточно большие - от 10 до 30 секунд, всё равно. Собственно там защита-то была в том, что этот скрипт то ли ставил какую-то куку, то ли не ставил аноборот и сервер уже по ней смотрел, бот/не бот.
Собственно я расковырял js и там уже в режиме отладки нашёл, что вычисляются именно селениумы, фантомы и т.п. Никак не могу найти куски этого расковырянного файла. Ещё из интересного - там были куски js-либы fingerprint2 - по ним еще палились недобраузеры.
Собственно тест-то простой для проверки - начните парсить список компаний - и компании на 4-5 страничку эту увидите.