Капча Яндекса, пути обхода

Б
На сайте с 30.06.2008
Offline
200
#31
spambot:
Анализ будет оооочень ресурсоемкий зачем им грузить себя лишней работой?

Не вижу проблемы, на самом деле. Никаких серьёзных вычислений не требуется. Кроме того, rt-обработка тоже не обязательно. Достаточно скриптом раз в несколько часов проходить. Коль скоро данные по каждому IP учитываются, систематизировать их для получения общей картины сам Бог велел. :) Статистические алгоритмы - вещь не такая ресурсоёмкая, как многим представляется.

spambot:
собирать стату по миллиону адрессов, с целью найти потом с них распределенный парсинг

Пики и всплески на графики видны невооружённым глазом. Это если лень математические критерии выводить. Другой вопрос - что есть распределённый парсинг? Пара сотен тысяч айпи в смежных сетках или по дюжине адресов из двух тысяч несмежных подсетей - две большие разницы.

Будь мудрее. Выгляди глупее.
spambot
На сайте с 12.12.2008
Offline
55
#32

Ну и как бы вы на месте яндекса защитились от такого парсинга как я предложил? :) блокировать все сети? :) навсегда или на время?

тут стоит такой вопрос что в любом случае яндексу не понравится такой возросший расход трафика и нагрузки, врубят капчу для всех и всех делов :) так что надо иметь на запаску капчодешифровалку...

Every time you attempt to parse HTML with regular expressions, the unholy child weeps the blood of virgins, and Russian hackers pwn your webapp. (http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454)
Б
На сайте с 30.06.2008
Offline
200
#33
spambot:
Ну и как бы вы на месте яндекса защитились от такого парсинга как я предложил?

Яндекс на своём месте приблизительно так и поступает, ему мои советы не нужны. ;) Поэтому не буду искушать демона без нужды. :)

юни
На сайте с 01.11.2005
Offline
923
#34
spambot:
А куки к ИП привязывали?

Да наверняка. К рефереру, юзерагенту (вообще весь хидер уже перебрали), к параметрам командной строки и картинкам/скриптам. Ну, народ читает, если что-то упустили, то сейчас попробуют.

spambot:
блокировать все сети?

Проблема будет только с крупными блоками известных провайдеров, там действительно трудно распознать бота и заблокировать нужный диапазон. И кстати, такой метод попроще, чем накладывать прозрачные картинки (да и - куда? на поле ввода запроса?).

https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
SJ
На сайте с 16.03.2008
Offline
78
#35
Беобахтер:
Всё написано правильно и разумно с точки зрения пользователя. Но если мыслить обобщёнными категориями, то надо признать, что ПС может анализировать не только количество (и естественность) запросов с каждого отдельного айпи, но и агрегировать сии данные. ;)

Именно.

Потому как поймать капчу проверяя YAP или YAL - очень просто.

Долбя Яндекс запросами "смешные ежики" + случайное слово - у меня не получилось за пару сотен запросов.

Так что он еще и к типу запросов цепляется.

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?
S2
На сайте с 07.01.2008
Offline
611
#36

sokol_jack, вы хотите получить 8 баллов за подпись?

Не надо приписывать мне свои выводы, я имею ввиду только то, что написал. Лучшая партнёрка по футболкам/толстовкам (http://partnerka.kolorado.ru/?ref=1921540) Опрос: Проверить текст на уник - как? (/ru/forum/495885)
Петр Елагин
На сайте с 21.03.2007
Offline
197
#37
юни:
wizzer, в идеале нужена метода, позволяющая избежать появления капчи вообще.

карча появляется если количество с одной сетки ( в 62 или 128 ИП) превышает .

Например у меня есть 128 ИП.

Я делаю запрос в потоках.

сначала 128 потоков - капчи нет

теперь внимание.

эти же Ип

70-80 потоков - все капча на всех

причем и на остальных 30. т.е. капча на всей сетки

юни
На сайте с 01.11.2005
Offline
923
#38

AlienZzzz, а интервал между запросами какой, для каждого ip? У нас не меньше суток, и всё равно доступ отрубает.

S2
На сайте с 07.01.2008
Offline
611
#39
юни:
AlienZzzz, а интервал между запросами какой, для каждого ip? У нас не меньше суток, и всё равно доступ отрубает.

А вы пробовали разнообразить запросы. Скажем словили каптчу на вордстате, перешли на поиск - ввели что-нибудь - полистали выдачу, открыли пару-тройку сайтов, пауза минут тридцать - снова вернуться к вордстату.

юни
На сайте с 01.11.2005
Offline
923
#40

Str256, вопросами антиддоса, капчи и прочими схожими, в вордстате и в обычном поиске занимаются разные команды.

Мне неизвестно о взаимосвязанной и сообща используемой статистике, между этими двумя сервисами, ни на практике, ни "в теории" (хотя не исключаю, что такая связь есть).

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий