Капча Яндекса, пути обхода

юни
На сайте с 01.11.2005
Offline
902
13348

В течение последнего времени Яндекс, как и другие поисковые системы, ужесточают условия для "автоматического" получения результатов их работы (в частности, парсинг обычной выдачи, выдачи по операторам, выдачу вордстата и пр).

В данный момент, простое наращивание мощностей для получения данных не даёт удовлетворительного результата, и сейчас насущно необходимо алгоритмическое решение (или их комплекс), позволяющее эффективно обходить ограничения поисковых систем (максимально полно имитируя поведение пользователя ПС, с помощью построения "невычисляемой" сети парсящих узлов, и/или иными методами).

Предлагаю заинтересованным людям поделиться своими соображениями.

Имеющие конкретные идеи (или их программное воплощение) могут смело писать в личку - со статистическим материалом для анализа проблем нет (регулярно появляются гигабайты информации), мощности для проверки теорий тоже предоставим.

Нужен мозг. :)

https://a-parser.com/ - парсер для профессионалов SEO, маркетологов, арбитражников и SaaS, https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
wizzer
На сайте с 23.02.2009
Offline
152
#1

это может?

//wizzer Проверенный временем опен впн сервис. (http://openvpn.cc) Перестань переживать за свою анонимность.
юни
На сайте с 01.11.2005
Offline
902
#2

wizzer, в идеале нужена метода, позволяющая избежать появления капчи вообще.

S2
На сайте с 07.01.2008
Offline
611
#3
юни:
wizzer, в идеале нужена метода, позволяющая избежать появления капчи вообще.

Как насчёт этого: /ru/forum/415110

Не надо приписывать мне свои выводы, я имею ввиду только то, что написал. Лучшая партнёрка по футболкам/толстовкам (http://partnerka.kolorado.ru/?ref=1921540) Опрос: Проверить текст на уник - как? (/ru/forum/495885)
юни
На сайте с 01.11.2005
Offline
902
#4

Str256, в курсе этого решения. Метод не универсальный и не глобальный (да и прикроют его, если пользоваться в промышленных масштабах).

"Нужна идея". :)

S2
На сайте с 07.01.2008
Offline
611
#5
юни:
и сейчас насущно необходимо алгоритмическое решение (или их комплекс), позволяющее эффективно обходить ограничения поисковых систем (максимально полно имитируя поведение пользователя ПС

Насколько знаю, есть такая программа: Негроимитатор. Там всё это реализовано.

[Удален]
#6

wizzer, неплохо.

[Удален]
#7

Вообще скрипт такой сделать то не проблема с использованием сервиса типа анти-капчи. Да думаю уже сделаны они где-нибудь.

B
На сайте с 23.10.2006
Offline
170
#8
юни:
wizzer, в идеале нужена метода, позволяющая избежать появления капчи вообще.

Чем вам XML запросы не нравятся?

парсинг обычной выдачи

выдачи по операторам

вроде решает эту проблему.

выдачу вордстата - жестоко не мучал, такчто анти-капчи хватает.

A
На сайте с 24.05.2005
Offline
195
#9
bimcom:
Чем вам XML запросы не нравятся?

количеством.

юни
На сайте с 01.11.2005
Offline
902
#10

bimcom, XML не всегда отдаёт результаты на больших объёмах (после 500-600 запросов вылезает "ничего не найдено"). Кроме того, не всегда удобно регистировать там по нескольку тысяч ip.

Впрочем, как вариант можно рассмотреть (в личку ответит человек).

Leonid.Sh:
Вообще скрипт такой сделать то не проблема с использованием сервиса типа анти-капчи.

Анти-капча не выход, стоит задача капчи вообще избежать. Кроме того - с какими объёмами справится этот сервис? Больше миллиона запросов в день - переварит?

Str256:
Насколько знаю, есть такая программа: Негроимитатор. Там всё это реализовано.

Можно подробней?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий