Для всех и всех делов надо иметь запаску капчодешифровалку - Самые разные темы

Капча Яндекса, пути обхода

юни · 2009-11-03T17:56:41.0000000Z

В течение последнего времени Яндекс, как и другие поисковые системы, ужесточают условия для "автоматического" получения результатов их работы (в частности, парсинг обычной выдачи, выдачи по операторам, выдачу вордстата и пр). В данный момент, простое наращивание мощностей для получения данных не даёт удовлетворительного результата, и сейчас насущно необходимо алгоритмическое решение (или их комплекс), позволяющее эффективно обходить ограничения поисковых систем (максимально полно имитируя поведение пользователя ПС, с помощью построения "невычисляемой" сети парсящих узлов, и/или иными методами). Предлагаю заинтересованным людям поделиться своими соображениями. Имеющие конкретные идеи (или их программное воплощение) могут смело писать в личку - со статистическим материалом для анализа проблем нет (регулярно появляются гигабайты информации), мощности для проверки теорий тоже предоставим. Нужен мозг. :)

Б

200

Беобахтер

5 ноября 2009, 10:48

#31

spambot:
Анализ будет оооочень ресурсоемкий зачем им грузить себя лишней работой?

Не вижу проблемы, на самом деле. Никаких серьёзных вычислений не требуется. Кроме того, rt-обработка тоже не обязательно. Достаточно скриптом раз в несколько часов проходить. Коль скоро данные по каждому IP учитываются, систематизировать их для получения общей картины сам Бог велел. :) Статистические алгоритмы - вещь не такая ресурсоёмкая, как многим представляется.

spambot:
собирать стату по миллиону адрессов, с целью найти потом с них распределенный парсинг

Пики и всплески на графики видны невооружённым глазом. Это если лень математические критерии выводить. Другой вопрос - что есть распределённый парсинг? Пара сотен тысяч айпи в смежных сетках или по дюжине адресов из двух тысяч несмежных подсетей - две большие разницы.

Будь мудрее. Выгляди глупее.

Google: проблемы с индексацией Стоп просмотры. Из за Роскомнадзор получил 46 тысяч

55

spambot

5 ноября 2009, 11:10

#32

Ну и как бы вы на месте яндекса защитились от такого парсинга как я предложил? :) блокировать все сети? :) навсегда или на время?

тут стоит такой вопрос что в любом случае яндексу не понравится такой возросший расход трафика и нагрузки, врубят капчу для всех и всех делов :) так что надо иметь на запаску капчодешифровалку...

Every time you attempt to parse HTML with regular expressions, the unholy child weeps the blood of virgins, and Russian hackers pwn your webapp. (http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454)

Б

200

Беобахтер

5 ноября 2009, 12:41

#33

spambot:
Ну и как бы вы на месте яндекса защитились от такого парсинга как я предложил?

Яндекс на своём месте приблизительно так и поступает, ему мои советы не нужны. ;) Поэтому не буду искушать демона без нужды. :)

949

юни

5 ноября 2009, 12:57

#34

spambot:
А куки к ИП привязывали?

Да наверняка. К рефереру, юзерагенту (вообще весь хидер уже перебрали), к параметрам командной строки и картинкам/скриптам. Ну, народ читает, если что-то упустили, то сейчас попробуют.

spambot:
блокировать все сети?

Проблема будет только с крупными блоками известных провайдеров, там действительно трудно распознать бота и заблокировать нужный диапазон. И кстати, такой метод попроще, чем накладывать прозрачные картинки (да и - куда? на поле ввода запроса?).

https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит. Пишите в личку.

Помощь в фильтрации ботов Яндекс кобласит Запрет индексации части страницы?

SJ

78

sokol_jack

5 ноября 2009, 14:43

#35

Беобахтер:
Всё написано правильно и разумно с точки зрения пользователя. Но если мыслить обобщёнными категориями, то надо признать, что ПС может анализировать не только количество (и естественность) запросов с каждого отдельного айпи, но и агрегировать сии данные. ;)

Именно.

Потому как поймать капчу проверяя YAP или YAL - очень просто.

Долбя Яндекс запросами "смешные ежики" + случайное слово - у меня не получилось за пару сотен запросов.

Так что он еще и к типу запросов цепляется.

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?

S2

611

Str256

5 ноября 2009, 14:56

#36

sokol_jack, вы хотите получить 8 баллов за подпись?

Не надо приписывать мне свои выводы, я имею ввиду только то, что написал. Лучшая партнёрка по футболкам/толстовкам (http://partnerka.kolorado.ru/?ref=1921540) Опрос: Проверить текст на уник - как? (/ru/forum/495885)

197

Петр Елагин

5 ноября 2009, 14:59

#37

юни:
wizzer, в идеале нужена метода, позволяющая избежать появления капчи вообще.

карча появляется если количество с одной сетки ( в 62 или 128 ИП) превышает .

Например у меня есть 128 ИП.

Я делаю запрос в потоках.

сначала 128 потоков - капчи нет

теперь внимание.

эти же Ип

70-80 потоков - все капча на всех

причем и на остальных 30. т.е. капча на всей сетки

https://shareways.ru

949

юни

5 ноября 2009, 15:27

#38

AlienZzzz, а интервал между запросами какой, для каждого ip? У нас не меньше суток, и всё равно доступ отрубает.

S2

611

Str256

5 ноября 2009, 15:31

#39

юни:
AlienZzzz, а интервал между запросами какой, для каждого ip? У нас не меньше суток, и всё равно доступ отрубает.

А вы пробовали разнообразить запросы. Скажем словили каптчу на вордстате, перешли на поиск - ввели что-нибудь - полистали выдачу, открыли пару-тройку сайтов, пауза минут тридцать - снова вернуться к вордстату.

949

юни

5 ноября 2009, 15:47

#40

Str256, вопросами антиддоса, капчи и прочими схожими, в вордстате и в обычном поиске занимаются разные команды.

Мне неизвестно о взаимосвязанной и сообща используемой статистике, между этими двумя сервисами, ни на практике, ни "в теории" (хотя не исключаю, что такая связь есть).

Яндекс Вебмастер вынес товарные фиды в отдельный раздел

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

Капча Яндекса, пути обхода