Обход капчи в Яндексе. Случайность?

123 4
Brand from Amber
На сайте с 18.08.2007
Offline
293
#11

Были проблемы с работоспособностью скриптов парсинга, но, слава Новому Году, благополучно решились переводом на "10-и местный серп", увеличением таймаутов и кол-ва прокси. Сейчас всё нормально.

Лучший способ понять что-то самому - объяснить это другому.
malls
На сайте с 08.08.2005
Offline
255
#12
A.T.:
Чтение наискосок? :)

В Вашем случае - да!

Поисковики давно ведут статистику, зависящую от:

1. Браузера

2. IP

это дает им возможность вывести определенные критерии поведения на поиске реального пользователя:

а) Частота запросов (в том числе суточная/недельная и т.п.)

б) Схема поведения реального пользователя (просмотр одной страницы серпа, десяти страниц и т.п.) кстати понятно что наиболее "продвинутые" юзеры (Фокс, Опера), ведут себя несколько отлично от ИЕ-шников, а юзеры конкверовров и подавно другие совсем. А пользователи скажем ай-фоновской версии сафари - вообще не могут быть ботами (ну или с ничтожной вероятностью)...

При этом малая толика роботов - один скрипт на миллион реальных юзеров - статистики не нарушает и ни коим образом на данной статистике не сказывается.

Сл-но остается лишь выявить подключение, которое отклоняется от среднестатистического на 10-20-30% - и все! Можно с гарантией в 99% утверждать что это либо скрипт, либо оптимизатор кликающий по ссылкам в какой-нибудь САПЕ...

юни
На сайте с 01.11.2005
Offline
933
#13
malls:
При этом малая толика роботов - один скрипт на миллион реальных юзеров - статистики не нарушает и ни коим образом на данной статистике не сказывается.

По моим прикидкам, не меньше 10% суточного трафика (10-12 млн. запросов) формируется сеошниками.

malls:
А пользователи скажем ай-фоновской версии сафари - вообще не могут быть ботами (ну или с ничтожной вероятностью)...

Проблема в том, что боты-то - как раз могут представляться сафарей айфоновской версии. ;) Другое дело, что для больших объёмов данных выбираются наиболее популярные браузеры.

malls:
Сл-но остается лишь выявить подключение, которое отклоняется от среднестатистического на 10-20-30% - и все!

Среднестатистический юзер отличается чётко от бота только одним: он не делает сотни запросов по поисковым операторам (или к вордстату, или проверок pr, и т.п.). В случае же парсинга выдачи задача отлова скриптов значительно усложняется (имитация действий пользователя - далеко не самая сложная задача).

https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
malls
На сайте с 08.08.2005
Offline
255
#14
юни:
По моим прикидкам, не меньше 10% суточного трафика (10-12 млн. запросов) формируется сеошниками.

Не соглашусь... Не забывай - многих самых "юзающих" сеошников Яшка перековал на XML...

юни:

Проблема в том, что боты-то - как раз могут представляться сафарей айфоновской версии. ;)

Другое дело, что для больших объёмов данных выбираются наиболее популярные браузеры.
Среднестатистический юзер отличается чётко от бота только одним: он не делает сотни запросов по поисковым операторам (или к вордстату, или проверок pr, и т.п.). В случае же парсинга выдачи задача отлова скриптов значительно усложняется (имитация действий пользователя - далеко не самая сложная задача).

Во втором случае сам сказал - поведение юзера обычно не предусматривает владение операторами и спец. запросами.

НО! обоих случаях ты не рассматриваешь следующего:

1. Сколько смотрит средний юзер? 2-3 страницы серпа + делает 5-7 запросов в час (ну это как бы допустим).

2. Допустим также что более "продвинутый" юзер фокса или оперы ведет себя немного активнее.

3. Так же очевидно что юзер коммуникатора ведет себя гораздо пассивнее - ему просто сложнее.

Все что отличается от связки "средняя активность + фактор браузера", т.е. уходит от некоторого гаусового распределения в сторону больше установленной границы отсечки - бот! А какой бот (заточенный на выдирание сотен серпов по тысячам запросов) может позволить себе вести себя как средний юзер, если хочет успеть пропарсить выдачу до следующего апа? Никакой!

Вот тебе и алгоритм...

Предвосхищая реплики вроде: а как же прокси и т.п. Скажу - реально работающих публичных анонимных прокси в единицу времени можно насчитать штук 200 (по всему миру) - это я отбрасываю те, которые сами по себе ответ дают через час и то не всегда... (Сразу оговорюсь - говорю как человек который больше года содержал у себя на серваке чекалку соответствующую.) Сл-но во-первых юзание таких проксиков все равно не снижает ботовый поток настолько чтобы "влезть в рамки обычного юзера", а во вторых в поисковиках тоже не тупицы сидят и думаю прокси-чекалками прекрасно владеют (читай имеют в своем распоряжении списки таковых)...

юни
На сайте с 01.11.2005
Offline
933
#15
malls:
Не забывай - многих самых "юзающих" сеошников Яшка перековал на XML...

Отнюдь. Как раз для больших объёмов XML не годится.

malls:
Все что отличается от связки "средняя активность + фактор браузера", т.е. уходит от некоторого гаусового распределения в сторону больше установленной границы отсечки - бот!

Ну, это до той поры, пока картина трафика формируется по "средней активности". А когда ты даёшь десятую (и выше) часть поискового трафика, то ты воленс-неволенс делаешь свой вклад в изменение картины этой средней загрузки. В свою, разумеется, пользу.

А потом на основе всяких публичных метрик выходят статьи, а-ля "типичный пользователь Рунета в новом году предпочитает глубже анализировать выдачу, активно пользуется специфическими запросами поисковых систем, и всё чаще выходит в Сеть с мобильных устройств. Всё это говорит о том, что технологии, из повседневной части нашей жизни, постепенно превращаются в насущно необходимую потребность". ;)

malls:
Скажу - реально работающих публичных анонимных прокси в единицу времени можно насчитать штук 200 (по всему миру)

Мы, похоже, мало пересекаемся в темах на форуме. :) Публичные, анонимные, элитные, всякие крекс-пекс-фекс-сокс прокси, родом из Гондураса и Кампучии - я не знаю, кому нужны. Рапидшарщикам каким-нить, или на форум/почту зарубежные зайти.

Для парсинга же ПС существуют промышленнные решения, на два-три порядка мощнее, всех этих невинных занзибарских шалостей.

malls
На сайте с 08.08.2005
Offline
255
#16
юни:
Для парсинга же ПС существуют промышленнные решения, на два-три порядка мощнее, всех этих невинных занзибарских шалостей.

:) Мы о разных вещах с тобой говорим похоже. Я тебе про 99% оптимизаторов (которые ботнетами прямо скажем не пользуются), а ты про промышленные решения, каковые кстати гораздо выгоднее юзать в целях весьма далеких от парсинга выдачи...

Я знаю твою любовь к IP - вот и скажи мне - ты много знаешь оптимизаторов (контор сеошных) которые хотя бы по 10-20 подсеток содержат собственных? Так чтобы просто пальцем ткнуть и сказать - ВОТ У НИХ ЕСТЬ!

юни:
Отнюдь. Как раз для больших объёмов XML не годится.

бесплатный - наверное! Но говоря откровенно платный вариант ИМХО гораздо дешевле обойдется чем построение "промышленных решений"... Так стоит ли овчинка того?

Кроме того - А зачем нужны большие объемы?

Этот только школьники унылые смотрят серп до 100500-й страницы, чтобы потом на форуме здешнем тему запостить в духе "Продвигал сайт, а он по запросу на 300-ом месте... Почему-у-у-у-у... Па-а-а-амажите люди добрые...", а разумному человеку и 10 серпов достаточно чтобы понять, что он чего-то не доработал просто с сайтом пока...

Да и на кой ляд вообще продвиженцу практику знать на какой он странице по запросу в серпе, если свое месторасположение в серпе, по вполне логичной методике "плохо/хорошо", он может по статистике сайта определить? А именно есть заходы по данному запросу или нет...

юни
На сайте с 01.11.2005
Offline
933
#17
malls:
Так чтобы просто пальцем ткнуть и сказать - ВОТ У НИХ ЕСТЬ!

У меня есть. Правда, я не оптимизатор, пардон.

malls:
Я тебе про 99% оптимизаторов (которые ботнетами прямо скажем не пользуются)

Ботнеты здесь не при чём. Но ты бы ещё 99% населения упомянул, которые слова "serp" и не слышали никогда.

Я говорю не о любителях, во всех их разновидностях, которые раз в апдейт проверяют пяток своих сателлитов, а о крупных конторах, биржах, аггрегаторах, и отдельных людях, создающих всякие "картины Рунета". Вот они как раз, при всей своей малочисленности, генерируют основной сео-трафик.

Кстати, возможно, через пару месяцев, я смогу значительно более точно оценить процент "одиночек" в формировании этого трафа.

malls:
Но говоря откровенно платный вариант ИМХО гораздо дешевле обойдется

Платный вариант чего, Я.XML? Это где такой?

malls
На сайте с 08.08.2005
Offline
255
#18
юни:
Я говорю не о любителях, во всех их разновидностях, которые раз в апдейт проверяют пяток своих сателлитов, а о крупных конторах, биржах, аггрегаторах, и отдельных людях, создающих всякие "картины Рунета".

Да ты не умничай - просто пальцем ткни... Вот у мол у них и них...

Даже если сможешь назвать (не так вот эмпирически и пафосно - крупные мол конторы), а реально: "У Васи есть и Изи есть, а у Мойши нет..." - окажется что нибудь в духе:

юни:
У меня есть. Правда, я не оптимизатор, пардон.

т.е. вернемся к исходной точке...

Платный вариант чего, Я.XML? Это где такой?

Наверное где-то тут:

http://company.yandex.ru/legal/termsofuse/:
2.6. Если вы хотите использовать поиск Яндекса для целей, не разрешенных данной лицензией, вы должны получить на это согласие Яндекса. Для дополнительной информации свяжитесь с нами.
юни
На сайте с 01.11.2005
Offline
933
#19
malls:
Вот у мол у них и них...

Лично я знаю около десятка контор. Называть не буду (они мои клиенты). Так нормально?

malls:
Наверное где-то тут:

А, это... Переписку я вёл где-то с год назад, с Алёной Суворовой, если не ошибаюсь.

Практически дословно: "мы не приветствуем использование нашего xml-сервиса для задач, не связанных с поиском по сайту и похожих. Если Вы планируете делать множество запросов к Яндексу (речь шла об 1-10 млн. в сутки), то мы оставляем за собой право приостанавливать обработку таких запросов. Точную цифру сообщить не можем".

Так что это пройденный этап.

malls
На сайте с 08.08.2005
Offline
255
#20
юни:
Лично я знаю около десятка контор. Называть не буду (они мои клиенты). Так нормально?

:) Будет нормально, если ты хотя бы скажешь в каких целях они используют это богатство?

Думаю если пристально посмотреть - СЕО задач (в плане оптимизации сайтов под поисковые системы) там не ставится вообще...

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий