Дикий пионер

Рейтинг
203
Регистрация
23.11.2009
Twickbot:
Прежде, чем начать ковырять js, ИМХО нужно сначала достоверно установить факт бана из-за использования вебдрайвера.
Вы меня заинтриговали. Готов поучаствовать в эксперементе по использованию вебдрайвера на этом сайте.
Несколько вопросов:
1. Каким образом происходил бан? Выдавалась ошибка (404, 503)? Редирект?
2. Вы пробовали проделать то же самое с тем же самым браузером вручную? Бана не было? Просто, есть методика определения работы бота по одинаковой задержке между действиями, либо по очень маленькой задержке, не свойственной живому человеку. У вас задержка задавалась случайно и была достаточно большой?

1. Вместо страницы сайта показывалась страница системы защиты, типа мы решили, что вы бот. Там система типа cloudflare или как тут на серче называется?

2. Да, пробовал быстро ходить по страницам сайта через файрфокс обычный и хром - всё ок. В скрипте задержки были рандомные и достаточно большие - от 10 до 30 секунд, всё равно. Собственно там защита-то была в том, что этот скрипт то ли ставил какую-то куку, то ли не ставил аноборот и сервер уже по ней смотрел, бот/не бот.

Собственно я расковырял js и там уже в режиме отладки нашёл, что вычисляются именно селениумы, фантомы и т.п. Никак не могу найти куски этого расковырянного файла. Ещё из интересного - там были куски js-либы fingerprint2 - по ним еще палились недобраузеры.

Собственно тест-то простой для проверки - начните парсить список компаний - и компании на 4-5 страничку эту увидите.

Twickbot:

Сами пробовали? С обычным браузером?

phantomjs - это даже не браузер, а эмулятор браузера. Он очень сильно отличается от обычного браузера и не сомневаюсь, что вычислить его работу не составляет труда.
Но, речь же шла о работе через обычный браузер.

Да, тот же селениум (через файрфокс) банился через несколько запросов, поэтому и рассказываю, что там есть защита и предлагаю расковырять js для подробностей - сам уже всех деталей просто не помню. В качестве обхода пришлось пускать selenium через fiddler, который фильтровал эту js и несколько перезаписывал её код, чтобы эта проверка не срабатывала.

А чем phamtomjs не браузер? Вроде они себя haedless webkit зовут, т.е. webkit без UI, насколько я понимаю. Т.е. скрипты он выполняет, картинки загружает, чем он так уж сиьлно от обычного браузера отличается?

Twickbot:

realefs, я работал с селениумом (который теперь вебдрайвер).
Очень заинтересовало ваше заявление. Лично мне неизвестны "баги вебдрайвера", которые "позволяют со 146% точностью определить что это бот".
Можете привести хотя бы один пример такого бага?

Не баг, но вот https://www.crunchbase.com защищен от парсинга (ситуация на момент с полгода назад) и там защита отрабатывает на selenium. Я ковырялся в js, которым защищен сайт (есть там на страницах скрипт, у которого имя каждый раз рандомное) - там вот как раз есть определени селениума и еще каких-то "бразуров" типа phantomjs - насколько я помню, там ищутся в объекте window определенные методы или событие, характерные только для этих "браузеров"

LEOnidUKG:
Поисковым системам выдаётся нормальная версия:

view-source:http://hghltd.yandex.net/yandbtm?fmode=inject&url=http%3A%2F%2Fsovetclub.ru%2Fdzhek-london-lyubov-k-zhizni-kratkoe-soderzhanie-glavnye-geroi&tld=ru&la=1503058816&tm=1503069098&text=http%3A%2F%2Fsovetclub.ru%2Fdzhek-london-lyubov-k-zhizni-kratkoe-soderzhanie-glavnye-geroi&l10n=ru&mime=html&sign=ccabe54ca5d74c76d029206a666f8653&keyno=0

Ну парсим значит её и всё. Или представляемся ПС и парсим. Или запускаем эмулятор браузера и копируем на автомате. Боже мой какие проблемы...

Ну хз-хз, мне вот то же самое выдаётся - что и под обычным браузером - т.е. внутри <article> скрипт с eval и простынёй символов.

Гугл-то вроде умеет js Исполнять - вот походу и яндекс тоже научился.

DenisVS:
Любая IDE на выбор, какая больше по душе.
PhpStorm уже советовали, а мне нравится NetBeans

Будет не только проверка синтаксиса, но и дополнительные удобства: рефакторинг, форматирование, поиск по переменным и т.д.

Сам сижу на phpStorm, но нетбинсом в какой-то период пользовался. Из плюсов над штормом - она бесплатная (хотя и на шторм, наскольков курсе, есть лекарства)

Зашёл на страницу http://sovetclub.ru/kak-pravilno-uteplit-balkon открыл искходный код и вижу текст статьи. Давайте конкретную ссылку, где текст спрятан, чтобы мы тут не лазили по всему сайту в поисках.

Ну ок, отключение скриптов убирает весь текст, а в поисковиках-то этот текст есть?

Эм, а разве в mysql нет триггеров? Или под функцией вы не sql понимаете?

dag:
Добрый день!

Подскажите пожалуйста вот что - есть база данных (MYSQL, 5.7.х). Как мне обработать событие - добавление новой записи в таблицу? Нужно по нему исполнять внешний PHP (PHP 7 если это важно) скрипт...

Спасибо!!!

Интернет говорит, что есть mysql udf - user defined functions и есть плагин, в котором есть функция выполнения команды в шелле - https://github.com/mysqludf/lib_mysqludf_sys#readme

Это теоретически. Как у вас это взлетит на практике - не знаю.

Это в его примере эмуляция стилей, которые яндекс сгенерировал. Он этот стиль как раз и переопределяет.

Всего: 1870