Яндекс на своём месте приблизительно так и поступает, ему мои советы не нужны. ;) Поэтому не буду искушать демона без нужды. :)
Не вижу проблемы, на самом деле. Никаких серьёзных вычислений не требуется. Кроме того, rt-обработка тоже не обязательно. Достаточно скриптом раз в несколько часов проходить. Коль скоро данные по каждому IP учитываются, систематизировать их для получения общей картины сам Бог велел. :) Статистические алгоритмы - вещь не такая ресурсоёмкая, как многим представляется.
Пики и всплески на графики видны невооружённым глазом. Это если лень математические критерии выводить. Другой вопрос - что есть распределённый парсинг? Пара сотен тысяч айпи в смежных сетках или по дюжине адресов из двух тысяч несмежных подсетей - две большие разницы.
Всё написано правильно и разумно с точки зрения пользователя. Но если мыслить обобщёнными категориями, то надо признать, что ПС может анализировать не только количество (и естественность) запросов с каждого отдельного айпи, но и агрегировать сии данные. ;) Конечно, если адреса абсолютно независимы и находятся в разных подсетях, всплеска подозрительной активности может и не обнаружиться, но попробуй-ка запастись адресами из хотя бы пары тысяч абсолютно разных подсетей...
Нет. Смотрите шире.
Ага. Ещё с размерами и координатами окна с учётом специфики вывода разными браузерами, по-любому. :)
Кстати, есть ещё подсказки в строке поиска. ;) Они тоже не сами прилетают.
...А если она кешируется? ;) А если куча народа ходит через корпоративный прокси? :) Но именно идеи и нужны. И Яндексу тоже. :)
Даже после двух-трёх тысяч запросов к вордстату? :) А не случится ли так, что адрес подсетки vpn'а Яндекс тоже счёл неблагонадёжным? ;)
Беобахтер добавил 05.11.2009 в 01:52
Я в шоке от алогичности бытия. Сейчас после полуночи проверяю - капчи нет ни на одном айпишнике из тех, где вылетала. Сутки сменились?
А с распознаванием капчи всё уныло, ненадёжно и ресурсоёмко?
Str256, если в директе залогиниться - лучше не становится. :) А что, был прецедент?
А более официально они об этом заявляли? Блог там, или ещё где...
Бара нет, куки чистил/отключал. То же с js.
Машина вообще чисто домашнего использования, запросы идут абсолютно человеческие. Семейные, я б сказал. :)
Люто всё, в общем.
Гм. Айпишник у меня действительно не выделенный, через него небольшая домовая сетка наружу ходит. Но прокси нет, и вордстат с него никто не парсит, этот контингент больше по одноклассникам гуляет.
Про чёрный список - открытая информация, откуда? И, наверное, таки не айпишник, а подсеть?
...Всё бы хорошо, но та же хрень и через прокси (другой московский IP). Оттуда точно за последние сутки запросов к сервисам Яши не было. Че годумать?
Таки проблемы-то не у Яндекса, а у Сапы. :)
yanavit, уговорил, я тоже посмотрел. Умилило наличие внешней ссылки. :)
Продвигать можно что угодно. Вопрос в том, стоит ли вкладываться во внешние факторы вместо того, чтобы максимально запользовать внутренние ресурсы.
P.S. Cloaking?..