Капча Яндекса, пути обхода

Zonk
На сайте с 19.05.2006
Offline
321
#21
юни:
Zonk, а с вордстатом как быть?

с вордстатом не знаю, мне он не нужен. Думаю твои ip + anti-каптча (или распознавание если кто-то сделал, кстати, готов купить самообучающуюся программу) решат проблему.

юни
На сайте с 01.11.2005
Offline
924
#22

Zonk, я бы и сам купил... да только долго всё это, даже на сотнях потоков.

Где спецы? Где Рома ББ? :) Где люди из Апорта/Вебальты? :)

https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
spambot
На сайте с 12.12.2008
Offline
55
#23

как варианты:

1 - при задержке в 20 сек вордстат парсится сутками.

пусть имеем пул в 20к IP (по 10 разным сетям)

строим глобальный лист прокси наших айпи с чередованием подсетей

ip1-net0

ip1-net1

ip1-net2

...

ip1-net9

ip2-net0

ip2-net1

....

ip2000-net0

...

ip2000-net9

каждый IP имеет аттрибут - время последнего запроса.

начинаем парсить в один поток просто идя по списку и проставляя время запроса.

после прохода списка целиком можем оценить на сколько частей мы можем разделить список(исходя из времени затраченного на проход и время запросов).

например весь пулл IP был пройден за 60сек значит мы можем организовать три "бегущие волны" :) на нашем пуле.(волна следует по IP при необходимости на текущем айпи выдерживая паузу)

+ не забываем для естественности с каждым IP ассоцировать свою куку и юзер агент.

как бы навскидку вот. а вообще думаю можно много чего придумать ;)

spambot добавил 05.11.2009 в 02:34

Zonk:
с вордстатом не знаю, мне он не нужен. Думаю твои ip + anti-каптча (или распознавание если кто-то сделал, кстати, готов купить самообучающуюся программу) решат проблему.

И какова ваша цена вопроса для яндекс вордстат капчи в текущем виде? 🙄

Every time you attempt to parse HTML with regular expressions, the unholy child weeps the blood of virgins, and Russian hackers pwn your webapp. (http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454)
юни
На сайте с 01.11.2005
Offline
924
#24
spambot:
1 - при задержке в 20 сек вордстат парсится сутками.
пусть имеем пул в 20к IP (по 10 разным сетям)

Увы - и пул больше, и подсетей в нём, но капча непредсказуема и большинство методов перебора гасятся уже на подлёте (причины пока непонятны, к тому же на вордстате, как на довольно специфическом сервисе, не так много пространства для манёвра).

Но за мысли спасибо, попробуем.

spambot:
И какова ваша цена вопроса для яндекс вордстат капчи в текущем виде?

Я в доле, если что. Тут скорее не покупка решения будет, а достаточно длительное сотрудничество (кстати - и Зонку, и мне, есть что предложить, помимо просто денег).

LM
На сайте с 01.01.2009
Offline
7
#25

Может я чего не понимаю, но:

Яндекс выдаёт капчу, если за N секунд было больше M запросов.

Что Яндекс может получить от пользователя, чтобы узнать - робот, или нет:

1. Частота запросов.

2. Загрузка картинок и выполнение JS-скриптов с последующей загрузкой какого-то файла с сервера (чтобы узнать - парсер это, или нормальный браузер).

3. Кукисы.

4. Проверка перехода по ссылкам из серпа.

--Подробнее по поводу перехода по ссылкам из серпа--

Вот пример строки из выдачи Яндекса:

<a tabindex="2" onmousedown="rc(this, 'http:\/\/clck.yandex.ru\/redir\/AiuY0DBWFJ4ePaEse6rgeAjgs2pI3DW99KUdgowt9XvqxGyo_rnZJpNjfFDg3rinpgkjQ5A7rU-ukShpMqhmin8kDlFhIRmm41p9as_3LyV4__MUfkxU4bBi9SyJqugv?data=UlNrNmk5WktYejR0eWJFYk1LdmtxcndHdzNSM0JFQi1RdHdEeklXSFJmUGZaQ18zb1RLTzRfMjZRdWxQaFpBclRXSnNBTkdxSlYxbEF0NFNLRG1iTDV4MkN4dXVzcmVIYW80RUJrRHR4OTZtLV9Yc0dtM1JkZnh5c1ZyTk9yYjJ3QlVIWmRPeUs0X19oM1JUTlNGUHMtTC15WGNUVDB4OTl4OEs3WFBaZlRMSEdPT280TnJpZnc&b64e=2&sign=9975c1108d9f4bfcd67361c3976c682a&keyno=0')" href="http://www.snowball.ru/forums/?board=anapolis&amp;action=new&amp;id=500126" target="_blank"><span>Штурм - Город Анаполис - Мафия - Snowball Forums </span></a>

В парсере не нужно сразу сохранять\переходить на "http://www.snowball.ru/forums/?board=anapolis&amp;action=new&amp;id=500126", а нужно посмотреть - что за функция rc, и посетить адрес:

"http:\/\/clck.yandex.ru\/redir\/AiuY0DBWFJ4ePaEse6rgeAjgs2pI3DW99KUdgowt9XvqxGyo_rnZJpNjfFDg3rinpgkjQ5A7rU-ukShpMqhmin8kDlFhIRmm41p9as_3LyV4__MUfkxU4bBi9SyJqugv?data=UlNrNmk5WktYejR0eWJFYk1LdmtxcndHdzNSM0JFQi1RdHdEeklXSFJmUGZaQ18zb1RLTzRfMjZRdWxQaFpBclRXSnNBTkdxSlYxbEF0NFNLRG1iTDV4MkN4dXVzcmVIYW80RUJrRHR4OTZtLV9Yc0dtM1JkZnh5c1ZyTk9yYjJ3QlVIWmRPeUs0X19oM1JUTlNGUHMtTC15WGNUVDB4OTl4OEs3WFBaZlRMSEdPT280TnJpZnc&b64e=2&sign=9975c1108d9f4bfcd67361c3976c682a&keyno=0", ну и так парочку переходов с каждого запроса.

--

Тут я ещё не лез в кишки JS функции rc(..), возможно, она берёт координаты мышки и сверяет их с координатами строки из выдачи серпа.

------------

Ну, вродебы это всё, как можно эмулировать поведение человека в поисковой системе.

Но всё равно, мне кажется, что Яндекс будет выдавать капчу, если превышать M запросов за N времени, помойму, это - главный параметр.

Ещё можно посмотреть, не используют ли какие-то сайты базу Яндекса для формирования своей выдачи, но без всякого прямого взаимодействия юзера и серверов Яндекса.

--

Вот примерно как-то так я вижу проблему. Извините за сумбурность. :-)

Негроимитатор (http://tieco.sprutsoft.ru/)
S2
На сайте с 07.01.2008
Offline
611
#26

Lucid_Mind, сперва по IP проверка: /ru/forum/417583

Не надо приписывать мне свои выводы, я имею ввиду только то, что написал. Лучшая партнёрка по футболкам/толстовкам (http://partnerka.kolorado.ru/?ref=1921540) Опрос: Проверить текст на уник - как? (/ru/forum/495885)
LM
На сайте с 01.01.2009
Offline
7
#27

Я описал возможные варианты отслеживания. Естественно, это всё привязывается к ИП. Не к кукисам же привязываться. :-)

spambot
На сайте с 12.12.2008
Offline
55
#28
юни:
Увы - и пул больше, и подсетей в нём, но капча непредсказуема и большинство методов перебора гасятся уже на подлёте (причины пока непонятны, к тому же на вордстате, как на довольно специфическом сервисе, не так много пространства для манёвра).

Но за мысли спасибо, попробуем.

А куки к ИП привязывали? т.е. с каждым ИП ассоциированна его личная кука и его юзер агент.

(как вариант может вордстат действительно время от времени дает страничку например с невидимой картинкой и если она не гетится юзером, то в следущий раз включается капча...)

юни:

Я в доле, если что. Тут скорее не покупка решения будет, а достаточно длительное сотрудничество (кстати - и Зонку, и мне, есть что предложить, помимо просто денег).

Отписал в личку...

Б
На сайте с 30.06.2008
Offline
200
#29
spambot:
как варианты:

Всё написано правильно и разумно с точки зрения пользователя. Но если мыслить обобщёнными категориями, то надо признать, что ПС может анализировать не только количество (и естественность) запросов с каждого отдельного айпи, но и агрегировать сии данные. ;) Конечно, если адреса абсолютно независимы и находятся в разных подсетях, всплеска подозрительной активности может и не обнаружиться, но попробуй-ка запастись адресами из хотя бы пары тысяч абсолютно разных подсетей...

Lucid_Mind:
Яндекс будет выдавать капчу, если превышать M запросов за N времени, помойму, это - главный параметр.

Нет. Смотрите шире.

Lucid_Mind:
Тут я ещё не лез в кишки JS функции rc(..), возможно, она берёт координаты мышки и сверяет их с координатами строки из выдачи серпа.

Ага. Ещё с размерами и координатами окна с учётом специфики вывода разными браузерами, по-любому. :)

Lucid_Mind:
выполнение JS-скриптов с последующей загрузкой какого-то файла с сервера (чтобы узнать - парсер это, или нормальный браузер).

Кстати, есть ещё подсказки в строке поиска. ;) Они тоже не сами прилетают.

spambot:
как вариант может вордстат действительно время от времени дает страничку например с невидимой картинкой и если она не гетится юзером, то в следущий раз включается капча...

...А если она кешируется? ;) А если куча народа ходит через корпоративный прокси? :) Но именно идеи и нужны. И Яндексу тоже. :)

Будь мудрее. Выгляди глупее.
spambot
На сайте с 12.12.2008
Offline
55
#30
Беобахтер:
Всё написано правильно и разумно с точки зрения пользователя. Но если мыслить обобщёнными категориями, то надо признать, что ПС может анализировать не только количество (и естественность) запросов с каждого отдельного айпи, но и агрегировать сии данные. ;) Конечно, если адреса абсолютно независимы и находятся в разных подсетях, всплеска подозрительной активности может и не обнаружиться, но попробуй-ка запастись адресами из хотя бы пары тысяч абсолютно разных подсетей...

Анализ будет оооочень ресурсоемкий :) зачем им грузить себя лишней работой?

Беобахтер:

...А если она кешируется? ;) А если куча народа ходит через корпоративный прокси? :) Но именно идеи и нужны. И Яндексу тоже. :)

ну картинку можно называть по всякому и отдавать каждый раз разный поток байт (типа красный пиксел в пнг формате, желтый пиксел в гиф :) ) такое сделать гораздо проще и менее накладней, чем собирать стату по миллиону адрессов, с целью найти потом с них распределенный парсинг. (а еще и искать это в рил тайм уже на грани разумного :) сильно много ресурсов будет жрать)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий