Twickbot

Twickbot
Рейтинг
56
Регистрация
13.03.2017
IPXI:
Так сами браузеры поисковиков и спалят ваши клоакинги...

Конечно, могут. О чем я и писАл выше. ИМХО, нет никакой возможности со 100%

гарантией определить, пришел ли к тебе человек или бот, маскирующийся под него. Вот чуть выше коллега описал ситуацию, что на сайте как-то научились вычислять вебдрайвер. Сейчас поисследуем. Может возьмем на вооружение, если там действительно что-то придумали.

IPXI:
Речь про подмену содержимого именно для поисковиков?

Ну, вообще-то клоакинг в том качестве, в каком его использовали раньше для дорвеев, на мой взгляд, несколько изжил себя. На текущий момент он больше востребован при работе с социальными сетями и арбитражниками. Хотя, некоторые используют его и с дорами, только в большинстве случаев, используют не редирект, а частичную замену кода страницы согласно заданным заранее правилам, например, вставка рекламы для различных групп посетителей , например, американцам - одно, немцам - другое, людям пришедшим с определенным реферером - третье, ну, а китайцам можно и редирект на Байду.

В принципе, Гугль тоже занимается клоакингом, используя его для показа своей рекламы.

Дикий пионер:
Собственно тест-то простой для проверки - начните парсить список компаний - и компании на 4-5 страничку эту увидите.

Хорошо, попробую выкроить время для проведения теста.

Только давайте уточним задачу.

Достаточно ли будет:

1. Зайти на страничку:

https://www.crunchbase.com/app/lists/ashtons-exits-acquired-ashton-kutcher/7886d988-ee16-4c75-8fb0-9bec3cc47257/company?new=false

2. По очереди кликать на названия компаний в колонке Company Name таблицы?

3. После чего закрывать открывшиеся страницы (в новой вкладке или в новом окне).

Или, для получения бана нужно что-то еще?

Дикий пионер:
Да, тот же селениум (через файрфокс) банился через несколько запросов, поэтому и рассказываю, что там есть защита и предлагаю расковырять js для подробностей

Прежде, чем начать ковырять js, ИМХО нужно сначала достоверно установить факт бана из-за использования вебдрайвера.

Вы меня заинтриговали. Готов поучаствовать в эксперементе по использованию вебдрайвера на этом сайте.

Несколько вопросов:

1. Каким образом происходил бан? Выдавалась ошибка (404, 503)? Редирект?

2. Вы пробовали проделать то же самое с тем же самым браузером вручную? Бана не было? Просто, есть методика определения работы бота по одинаковой задержке между действиями, либо по очень маленькой задержке, не свойственной живому человеку. У вас задержка задавалась случайно и была достаточно большой?

Дикий пионер:
А чем phamtomjs не браузер?

phamtomjs не может быть использован обычными пользователями и вычисляется достаточно легко. Вот, например:

https://habrahabr.ru/post/303378/

Ну, а как только его вычислили, значит это - 100% бот.

foxi:
любой ip "домашнего" российского инет провайдера (и набор REMOTE_ADDR + HTTP_CLIENT_IP, HTTP_FORWARDED etc) будет признан как ботом, совершающим аномальные автоматические действия, так и человеком, совершающим осмысленные и живые действия.

Ну, так я и писал. Если использовать то, что использует обычный пользователь (IP из подсетки реального провайдера и обычный браузер) и управлять действиями в браузере программно с помощью вебдрайвера, то нет никако способа понять, что работает программа, а не человек.

foxi:
Однозначно можно смело считать человеком тех, кто ходит оперой мини с турбо режимами.

Почему?

Я просто с Оперой вплотную не работал. Драйвер под нее есть:

https://selenium2.ru/articles/133-operachromiumdriver.html

Что, Опера мини как-то радикально отличается от обычной Оперы, кроме ЮА?

foxi:
такая защита только хрумером

Я сам владелец хрумера, правда, давно им не пользовался.

Раньше он работал не используя обычный браузер. Как такая защита может спасти от бота с реальным браузером?

realefs:
если вам недостаточно направления куда копать,

Так Вы не давали никакого направления, куда копать. Просто сказали, что есть баги, которые позволяют определить, что работает бот на вебдрайвере.

Гугль и Яндекс о таких багах и способах ничего не знают.

realefs:
то уж готовые решения я вам преподносить точно не собираюсь.

Ну и отлично!

Как я понял, Вы - единственный человек в мире, кто знает способ определить, что работает вебдрайвер с обычным браузером (допустим с ФФ).

И никому не расскажете, как это делать.

Ботописатели могут спать спокойно.

Дикий пионер:
там защита отрабатывает на selenium.

Сами пробовали? С обычным браузером?

Дикий пионер:
там вот как раз есть определени селениума и еще каких-то "бразуров" типа phantomjs

phantomjs - это даже не браузер, а эмулятор браузера. Он очень сильно отличается от обычного браузера и не сомневаюсь, что вычислить его работу не составляет труда.

Но, речь же шла о работе через обычный браузер.

JungleBox:
а зачем ты удалил из своего скрина

Опять врешь.

Из своего скрина я ничего не удалял.

JungleBox:
у тебя не пошло с доргеном

И опять врешь.

Я вообще никогда не занимался доргенами.

Думаю, больше не имеет смысла с тобой вступать в дискуссию.

К лжецам у меня врожденное чувство брезгливости.

NothingMatters:
ТС просто попросил помочь в тестировании сервиса. Я не думаю что тут уместны рассуждения "взлетит\не взлетит".

Совершенно правильно подмечено.

Кто хотел протестировать, тот тестирует.

Кто не хотел, прошел мимо.

Зачем оффтопить?

---------- Добавлено 17.08.2017 в 11:57 ----------

foxi:
Про клоакинг по ip, я тоже себе пытался пилить клоакинг с базой плохих/хороших ипов. Но потом на анализе больших подробнейших собранных объемов логов и параметров понял что база получилась ниочем.
В итоге получил огромное количество ипов, в особенности российских, в особенности билайна и мтс, особенно мобильных, которые вели себя то как бот, то как человек делающий подписки.

А по каким критериям собирали, если не секрет?

foxi:
Для себя нашел идеальный в плане фильтрации вариант - просто form с button (размеров как для людей, а не занимающий большую часть экрана) отправляющий пост запрос. Если нажал, значит юзер и ему можно показать всякий стрем.

С ботом, использующим обычный браузер, такой способ работать не будет.

---------- Добавлено 17.08.2017 в 12:01 ----------

twiprogon:
соска,

Это так принято обращаться к девушкам на этом форуме?

ИМХО, еще один убогий.

---------- Добавлено 17.08.2017 в 12:05 ----------

realefs:
всякие селениумы, зеннопостеры и прочее, как и любое по, имеет те или иные баги, которые позволяют со 146% точностью определить что это бот реализованный на конкретной платформе.

realefs, я работал с селениумом (который теперь вебдрайвер).

Очень заинтересовало ваше заявление. Лично мне неизвестны "баги вебдрайвера", которые "позволяют со 146% точностью определить что это бот".

Можете привести хотя бы один пример такого бага?

JungleBox:
я вот не понимаю зачем изобретать велосипед...

JungleBox, пшел вон из моего топика, трепло.

Приношу остальным форумчанам свои извинения за, может быть, излишнюю резкость. Я не знаю, кто такой JungleBox, но, я был крайне удивлен, когда недавно случайно обнаружил, что некто с ником JungleBox распространяет на форуме вранье и клевету про меня. В тот раз я среагировал слишком эмоционально, за что мне и были начислены штрафные баллы.

С какой целью он врет и распространяет клевету про меня, мне неизвестно:

jpg Screenshot_20170817_001_cr.jpg
Фома:
Twickbot, давай тут в двух словах. Насколько я понимаю клоакинг это когда мы показываем роботам/парсерам/паукам одно, а сладеньким юзерам другое. Это так?

Не совсем так.

Точнее будет сказать, что мы показываем тем, кто подпадает под заданные правила одно, а тем, кто не подпадает другое.

Фома:
Я на 90% понимаю, что понимаю правильно, поэтому второй вопрос: как это реализовано в сервисе? Просто размещаем на сайте скрипт, жмём 2 кнопочки в сервисе: "роботы нафиг" и "юзеры идите к папочке" и всё?

В основном все правильно, только кнопочки далеко не две.

Фома:
И третий: а как-нибудь отслеживаются роботы которые представляются юзерами?

У нас есть база около 35К записей IP адресов и UA, но, естественно, 100% гарантии, что отловлены все боты мы не даем (и никто не может дать).

Фома:
Вощем бегло почитал из твоей подписи, функции как в хорошей ТДСке.

Ну, в принципе да. И сейдас еще дорабатываем функционал по просьбе пользователей.

Вот, например, что попросили сделать:

https://www.twickbot.com/forum/threads/%D0%9F%D1%80%D0%BE%D0%B1%D1%80%D0%BE%D1%81-%D0%B4%D0%B8%D0%BD%D0%B0%D0%BC%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D1%85-%D0%BC%D0%B5%D1%82%D0%BE%D0%BA-%D0%B8%D0%B7-url.9/#post-30

Я сделал, но, сегодня буду доделывать, чтобы обрабатывались также и русскоязычные параметры. Тесты показали, что такие периодически проскакивают.

Фома:
Третий вопрос остался открытым, как спалить ботов представляющихся юзерами?

Никак.

Я одно время занимался разработкой ботов работающих через обычный браузер. Такие нужны для социалок, где используется аякс и, соответственно, обычные боты не работают (например в Facebook). Могу сказать, что нет никаких способов определить таких ботов.

Ну, сам посуди, если у посетителя обычный браузер, он работает с IP из подсетки какого-нибудь провайдера (который есть в базах данных провайдеров и есть соответствующая запись в реверс зоне) и у него нет никаких признаков работы бота, как можно определить, что это бот? Я не думаю, что программисты в поисковиках чайники и, если они писали ботов-контроллеров, то не учли все вышеперечисленные факторы.

Stek:
и выкинуть нафиг апач, как источник кучи проблем

Нет у apache никаких серьезных проблем. Проблемы есть только у кривых рук и неумении правильно его настроить.

Stek:
nginx уже давно в состоянии его полностью заменить

Уверены?

В свое время отказался от использования nginx по причине того, что он не умел работать с каждым вебсервером из-под своего пользователя.

Т.о., если на сервере размещено много сайтов, и злоумышленник получал доступ на один из них (к сожалению, эту возможность нельзя исключать из-за сложности современных CMS и периодически обнаруживаемых в них дырах), то автоматически открывался доступ и ко всем другим сайтам на сервере.

Что есть неприемлемо для меня с точки зрения безопасности.

Так, что, nginx уже умеет работать из под разных пользователей, как Apache?

willser:
Фильтруют без предупреждения и не информируют.

Вообще-то, это - самое настоящее свинство.

ФБ, конечно, всякое выкидывал, но, чтобы фильтровать без предупреждения?

Мдя...

Всего: 616