Беобахтер

Рейтинг
200
Регистрация
30.06.2008
spambot:
Ну и как бы вы на месте яндекса защитились от такого парсинга как я предложил?

Яндекс на своём месте приблизительно так и поступает, ему мои советы не нужны. ;) Поэтому не буду искушать демона без нужды. :)

spambot:
Анализ будет оооочень ресурсоемкий зачем им грузить себя лишней работой?

Не вижу проблемы, на самом деле. Никаких серьёзных вычислений не требуется. Кроме того, rt-обработка тоже не обязательно. Достаточно скриптом раз в несколько часов проходить. Коль скоро данные по каждому IP учитываются, систематизировать их для получения общей картины сам Бог велел. :) Статистические алгоритмы - вещь не такая ресурсоёмкая, как многим представляется.

spambot:
собирать стату по миллиону адрессов, с целью найти потом с них распределенный парсинг

Пики и всплески на графики видны невооружённым глазом. Это если лень математические критерии выводить. Другой вопрос - что есть распределённый парсинг? Пара сотен тысяч айпи в смежных сетках или по дюжине адресов из двух тысяч несмежных подсетей - две большие разницы.

spambot:
как варианты:

Всё написано правильно и разумно с точки зрения пользователя. Но если мыслить обобщёнными категориями, то надо признать, что ПС может анализировать не только количество (и естественность) запросов с каждого отдельного айпи, но и агрегировать сии данные. ;) Конечно, если адреса абсолютно независимы и находятся в разных подсетях, всплеска подозрительной активности может и не обнаружиться, но попробуй-ка запастись адресами из хотя бы пары тысяч абсолютно разных подсетей...

Lucid_Mind:
Яндекс будет выдавать капчу, если превышать M запросов за N времени, помойму, это - главный параметр.

Нет. Смотрите шире.

Lucid_Mind:
Тут я ещё не лез в кишки JS функции rc(..), возможно, она берёт координаты мышки и сверяет их с координатами строки из выдачи серпа.

Ага. Ещё с размерами и координатами окна с учётом специфики вывода разными браузерами, по-любому. :)

Lucid_Mind:
выполнение JS-скриптов с последующей загрузкой какого-то файла с сервера (чтобы узнать - парсер это, или нормальный браузер).

Кстати, есть ещё подсказки в строке поиска. ;) Они тоже не сами прилетают.

spambot:
как вариант может вордстат действительно время от времени дает страничку например с невидимой картинкой и если она не гетится юзером, то в следущий раз включается капча...

...А если она кешируется? ;) А если куча народа ходит через корпоративный прокси? :) Но именно идеи и нужны. И Яндексу тоже. :)

nick_c:
купить впн или сделать впн на своем сервере. И безопасней в нете лазить, и капчи не будет

Даже после двух-трёх тысяч запросов к вордстату? :) А не случится ли так, что адрес подсетки vpn'а Яндекс тоже счёл неблагонадёжным? ;)

Беобахтер добавил 05.11.2009 в 01:52

Я в шоке от алогичности бытия. Сейчас после полуночи проверяю - капчи нет ни на одном айпишнике из тех, где вылетала. Сутки сменились?

А с распознаванием капчи всё уныло, ненадёжно и ресурсоёмко?

Str256, если в директе залогиниться - лучше не становится. :) А что, был прецедент?

юни:
Есть такое дело, кстати. Инфа из первых рук, и всё такое.

А более официально они об этом заявляли? Блог там, или ещё где...

0bevan:
дело в куки или яндекс баре?

Бара нет, куки чистил/отключал. То же с js.

Машина вообще чисто домашнего использования, запросы идут абсолютно человеческие. Семейные, я б сказал. :)

Люто всё, в общем.

fhuuz:
Видимо ваш айпишник в черном списке((

Гм. Айпишник у меня действительно не выделенный, через него небольшая домовая сетка наружу ходит. Но прокси нет, и вордстат с него никто не парсит, этот контингент больше по одноклассникам гуляет.

Про чёрный список - открытая информация, откуда? И, наверное, таки не айпишник, а подсеть?

...Всё бы хорошо, но та же хрень и через прокси (другой московский IP). Оттуда точно за последние сутки запросов к сервисам Яши не было. Че годумать?

Таки проблемы-то не у Яндекса, а у Сапы. :)

yanavit, уговорил, я тоже посмотрел. Умилило наличие внешней ссылки. :)

Продвигать можно что угодно. Вопрос в том, стоит ли вкладываться во внешние факторы вместо того, чтобы максимально запользовать внутренние ресурсы.

P.S. Cloaking?..

Всего: 2629