Нужна помощь в тестировании бесплатного сервиса клоакинга.

1 234 5
realefs
На сайте с 27.06.2010
Offline
87
#21
Twickbot:

realefs, я работал с селениумом (который теперь вебдрайвер).
Очень заинтересовало ваше заявление. Лично мне неизвестны "баги вебдрайвера", которые "позволяют со 146% точностью определить что это бот".
Можете привести хотя бы один пример такого бага?

если вам недостаточно направления куда копать, то уж готовые решения я вам преподносить точно не собираюсь.

Рубероид дорожает.
T2
На сайте с 24.02.2008
Offline
117
#22
foxi:
Twickbot,
<form action="/post.php" method="post">
<button type="submit" class="btn btn-success">Я не робот!</button>
<input type="hidden" name="id" value="testrandomid">
тут еще набор скрытых стилями полей против хрумера
</form>

.

получается что боты отсеиваются как хрумер , или они не отправляют пост запрос вообще?

тут ещё идея старая есть( так как ставлю фрейм не проверял сильно)

смысл в том что у каждой программы бота должно быть ограничение , (защита от зацикливания)

например перешёл бот на страницу 1.хтмл на ней есть ссылка на страницу 1.хтмл( предположение состоит в том что ему незачем уже переходить по этой ссылке, иначе он зациклится)

Ташкент кафельщик (https://remontmontaj.ru/)
Mik Foxi
На сайте с 02.03.2011
Offline
1076
#23

tanir23, сейчас хитроботы не жмут умышленно на кнопки и формы.

зацикливание от фрейма особо нету ни в браузерах, ни у большинства ботов, гуглобот индексатор скорее вам сервер повалит таким зацикливанием, я проверял, он тоже поддерживает фреймы.

Антибот, антиспам, веб файрвол, защита от накрутки поведенческих: https://antibot.cloud/ + партнерка, до 40$ с продажи.
T2
На сайте с 24.02.2008
Offline
117
#24
foxi:
tanir23, гуглобот индексатор скорее вам сервер повалит таким зацикливанием, я проверял,

тоесть гуглбот будет переходить со страницы 1.хтмл на страницу 1.хтмл по ссылке?

используеш пост запрос, я предлогаю вместо кнопки попробывать использовать ссылку сама на себя, отслеживая рефер, если урл рефера страницы=урл страницы та не бот.

(только браузеры при переходе по такой ссылке отдают кеш страницы, а не запрашивают её заново )

Mik Foxi
На сайте с 02.03.2011
Offline
1076
#25

tanir23, саму на себя во фрейме не пробовал, но просто с страницы 1 на 2, с 2 на 3 и так до бесконечности - бесконечно и завиливал обращениями гугл и некоторые хитроботы яндекса, которые ходят как браузер с яндексовых ипов.

хитроботы передают реферер правильно, они и с яндекса по ключам норм переходят.

ДП
На сайте с 23.11.2009
Offline
203
#26
Twickbot:

realefs, я работал с селениумом (который теперь вебдрайвер).
Очень заинтересовало ваше заявление. Лично мне неизвестны "баги вебдрайвера", которые "позволяют со 146% точностью определить что это бот".
Можете привести хотя бы один пример такого бага?

Не баг, но вот https://www.crunchbase.com защищен от парсинга (ситуация на момент с полгода назад) и там защита отрабатывает на selenium. Я ковырялся в js, которым защищен сайт (есть там на страницах скрипт, у которого имя каждый раз рандомное) - там вот как раз есть определени селениума и еще каких-то "бразуров" типа phantomjs - насколько я помню, там ищутся в объекте window определенные методы или событие, характерные только для этих "браузеров"

Twickbot
На сайте с 13.03.2017
Offline
56
#27
foxi:
любой ip "домашнего" российского инет провайдера (и набор REMOTE_ADDR + HTTP_CLIENT_IP, HTTP_FORWARDED etc) будет признан как ботом, совершающим аномальные автоматические действия, так и человеком, совершающим осмысленные и живые действия.

Ну, так я и писал. Если использовать то, что использует обычный пользователь (IP из подсетки реального провайдера и обычный браузер) и управлять действиями в браузере программно с помощью вебдрайвера, то нет никако способа понять, что работает программа, а не человек.

foxi:
Однозначно можно смело считать человеком тех, кто ходит оперой мини с турбо режимами.

Почему?

Я просто с Оперой вплотную не работал. Драйвер под нее есть:

https://selenium2.ru/articles/133-operachromiumdriver.html

Что, Опера мини как-то радикально отличается от обычной Оперы, кроме ЮА?

foxi:
такая защита только хрумером

Я сам владелец хрумера, правда, давно им не пользовался.

Раньше он работал не используя обычный браузер. Как такая защита может спасти от бота с реальным браузером?

realefs:
если вам недостаточно направления куда копать,

Так Вы не давали никакого направления, куда копать. Просто сказали, что есть баги, которые позволяют определить, что работает бот на вебдрайвере.

Гугль и Яндекс о таких багах и способах ничего не знают.

realefs:
то уж готовые решения я вам преподносить точно не собираюсь.

Ну и отлично!

Как я понял, Вы - единственный человек в мире, кто знает способ определить, что работает вебдрайвер с обычным браузером (допустим с ФФ).

И никому не расскажете, как это делать.

Ботописатели могут спать спокойно.

Дикий пионер:
там защита отрабатывает на selenium.

Сами пробовали? С обычным браузером?

Дикий пионер:
там вот как раз есть определени селениума и еще каких-то "бразуров" типа phantomjs

phantomjs - это даже не браузер, а эмулятор браузера. Он очень сильно отличается от обычного браузера и не сомневаюсь, что вычислить его работу не составляет труда.

Но, речь же шла о работе через обычный браузер.

Автоматизация работы в браузере. Пишу парсеры, постеры, кликеры, лайкеры, и т.п.
ДП
На сайте с 23.11.2009
Offline
203
#28
Twickbot:

Сами пробовали? С обычным браузером?

phantomjs - это даже не браузер, а эмулятор браузера. Он очень сильно отличается от обычного браузера и не сомневаюсь, что вычислить его работу не составляет труда.
Но, речь же шла о работе через обычный браузер.

Да, тот же селениум (через файрфокс) банился через несколько запросов, поэтому и рассказываю, что там есть защита и предлагаю расковырять js для подробностей - сам уже всех деталей просто не помню. В качестве обхода пришлось пускать selenium через fiddler, который фильтровал эту js и несколько перезаписывал её код, чтобы эта проверка не срабатывала.

А чем phamtomjs не браузер? Вроде они себя haedless webkit зовут, т.е. webkit без UI, насколько я понимаю. Т.е. скрипты он выполняет, картинки загружает, чем он так уж сиьлно от обычного браузера отличается?

Twickbot
На сайте с 13.03.2017
Offline
56
#29
Дикий пионер:
Да, тот же селениум (через файрфокс) банился через несколько запросов, поэтому и рассказываю, что там есть защита и предлагаю расковырять js для подробностей

Прежде, чем начать ковырять js, ИМХО нужно сначала достоверно установить факт бана из-за использования вебдрайвера.

Вы меня заинтриговали. Готов поучаствовать в эксперементе по использованию вебдрайвера на этом сайте.

Несколько вопросов:

1. Каким образом происходил бан? Выдавалась ошибка (404, 503)? Редирект?

2. Вы пробовали проделать то же самое с тем же самым браузером вручную? Бана не было? Просто, есть методика определения работы бота по одинаковой задержке между действиями, либо по очень маленькой задержке, не свойственной живому человеку. У вас задержка задавалась случайно и была достаточно большой?

Дикий пионер:
А чем phamtomjs не браузер?

phamtomjs не может быть использован обычными пользователями и вычисляется достаточно легко. Вот, например:

https://habrahabr.ru/post/303378/

Ну, а как только его вычислили, значит это - 100% бот.

ДП
На сайте с 23.11.2009
Offline
203
#30
Twickbot:
Прежде, чем начать ковырять js, ИМХО нужно сначала достоверно установить факт бана из-за использования вебдрайвера.
Вы меня заинтриговали. Готов поучаствовать в эксперементе по использованию вебдрайвера на этом сайте.
Несколько вопросов:
1. Каким образом происходил бан? Выдавалась ошибка (404, 503)? Редирект?
2. Вы пробовали проделать то же самое с тем же самым браузером вручную? Бана не было? Просто, есть методика определения работы бота по одинаковой задержке между действиями, либо по очень маленькой задержке, не свойственной живому человеку. У вас задержка задавалась случайно и была достаточно большой?

1. Вместо страницы сайта показывалась страница системы защиты, типа мы решили, что вы бот. Там система типа cloudflare или как тут на серче называется?

2. Да, пробовал быстро ходить по страницам сайта через файрфокс обычный и хром - всё ок. В скрипте задержки были рандомные и достаточно большие - от 10 до 30 секунд, всё равно. Собственно там защита-то была в том, что этот скрипт то ли ставил какую-то куку, то ли не ставил аноборот и сервер уже по ней смотрел, бот/не бот.

Собственно я расковырял js и там уже в режиме отладки нашёл, что вычисляются именно селениумы, фантомы и т.п. Никак не могу найти куски этого расковырянного файла. Ещё из интересного - там были куски js-либы fingerprint2 - по ним еще палились недобраузеры.

Собственно тест-то простой для проверки - начните парсить список компаний - и компании на 4-5 страничку эту увидите.

1 234 5

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий