1. Вместо страницы сайта показывалась страница системы защиты, типа мы решили, что вы бот. Там система типа cloudflare или как тут на серче называется?
2. Да, пробовал быстро ходить по страницам сайта через файрфокс обычный и хром - всё ок. В скрипте задержки были рандомные и достаточно большие - от 10 до 30 секунд, всё равно. Собственно там защита-то была в том, что этот скрипт то ли ставил какую-то куку, то ли не ставил аноборот и сервер уже по ней смотрел, бот/не бот.
Собственно я расковырял js и там уже в режиме отладки нашёл, что вычисляются именно селениумы, фантомы и т.п. Никак не могу найти куски этого расковырянного файла. Ещё из интересного - там были куски js-либы fingerprint2 - по ним еще палились недобраузеры.
Собственно тест-то простой для проверки - начните парсить список компаний - и компании на 4-5 страничку эту увидите.
Да, тот же селениум (через файрфокс) банился через несколько запросов, поэтому и рассказываю, что там есть защита и предлагаю расковырять js для подробностей - сам уже всех деталей просто не помню. В качестве обхода пришлось пускать selenium через fiddler, который фильтровал эту js и несколько перезаписывал её код, чтобы эта проверка не срабатывала.
А чем phamtomjs не браузер? Вроде они себя haedless webkit зовут, т.е. webkit без UI, насколько я понимаю. Т.е. скрипты он выполняет, картинки загружает, чем он так уж сиьлно от обычного браузера отличается?
Не баг, но вот https://www.crunchbase.com защищен от парсинга (ситуация на момент с полгода назад) и там защита отрабатывает на selenium. Я ковырялся в js, которым защищен сайт (есть там на страницах скрипт, у которого имя каждый раз рандомное) - там вот как раз есть определени селениума и еще каких-то "бразуров" типа phantomjs - насколько я помню, там ищутся в объекте window определенные методы или событие, характерные только для этих "браузеров"
Ну хз-хз, мне вот то же самое выдаётся - что и под обычным браузером - т.е. внутри <article> скрипт с eval и простынёй символов.
Гугл-то вроде умеет js Исполнять - вот походу и яндекс тоже научился.
Сам сижу на phpStorm, но нетбинсом в какой-то период пользовался. Из плюсов над штормом - она бесплатная (хотя и на шторм, наскольков курсе, есть лекарства)
Зашёл на страницу http://sovetclub.ru/kak-pravilno-uteplit-balkon открыл искходный код и вижу текст статьи. Давайте конкретную ссылку, где текст спрятан, чтобы мы тут не лазили по всему сайту в поисках.
Ну ок, отключение скриптов убирает весь текст, а в поисковиках-то этот текст есть?
Эм, а разве в mysql нет триггеров? Или под функцией вы не sql понимаете?
Интернет говорит, что есть mysql udf - user defined functions и есть плагин, в котором есть функция выполнения команды в шелле - https://github.com/mysqludf/lib_mysqludf_sys#readme
Это теоретически. Как у вас это взлетит на практике - не знаю.
Это в его примере эмуляция стилей, которые яндекс сгенерировал. Он этот стиль как раз и переопределяет.