- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева
Zonk, а с вордстатом как быть?
с вордстатом не знаю, мне он не нужен. Думаю твои ip + anti-каптча (или распознавание если кто-то сделал, кстати, готов купить самообучающуюся программу) решат проблему.
Zonk, я бы и сам купил... да только долго всё это, даже на сотнях потоков.
Где спецы? Где Рома ББ? :) Где люди из Апорта/Вебальты? :)
как варианты:
1 - при задержке в 20 сек вордстат парсится сутками.
пусть имеем пул в 20к IP (по 10 разным сетям)
строим глобальный лист прокси наших айпи с чередованием подсетей
ip1-net0
ip1-net1
ip1-net2
...
ip1-net9
ip2-net0
ip2-net1
....
ip2000-net0
...
ip2000-net9
каждый IP имеет аттрибут - время последнего запроса.
начинаем парсить в один поток просто идя по списку и проставляя время запроса.
после прохода списка целиком можем оценить на сколько частей мы можем разделить список(исходя из времени затраченного на проход и время запросов).
например весь пулл IP был пройден за 60сек значит мы можем организовать три "бегущие волны" :) на нашем пуле.(волна следует по IP при необходимости на текущем айпи выдерживая паузу)
+ не забываем для естественности с каждым IP ассоцировать свою куку и юзер агент.
как бы навскидку вот. а вообще думаю можно много чего придумать ;)
spambot добавил 05.11.2009 в 02:34
с вордстатом не знаю, мне он не нужен. Думаю твои ip + anti-каптча (или распознавание если кто-то сделал, кстати, готов купить самообучающуюся программу) решат проблему.
И какова ваша цена вопроса для яндекс вордстат капчи в текущем виде? 🙄
1 - при задержке в 20 сек вордстат парсится сутками.
пусть имеем пул в 20к IP (по 10 разным сетям)
Увы - и пул больше, и подсетей в нём, но капча непредсказуема и большинство методов перебора гасятся уже на подлёте (причины пока непонятны, к тому же на вордстате, как на довольно специфическом сервисе, не так много пространства для манёвра).
Но за мысли спасибо, попробуем.
И какова ваша цена вопроса для яндекс вордстат капчи в текущем виде?
Я в доле, если что. Тут скорее не покупка решения будет, а достаточно длительное сотрудничество (кстати - и Зонку, и мне, есть что предложить, помимо просто денег).
Может я чего не понимаю, но:
Яндекс выдаёт капчу, если за N секунд было больше M запросов.
Что Яндекс может получить от пользователя, чтобы узнать - робот, или нет:
1. Частота запросов.
2. Загрузка картинок и выполнение JS-скриптов с последующей загрузкой какого-то файла с сервера (чтобы узнать - парсер это, или нормальный браузер).
3. Кукисы.
4. Проверка перехода по ссылкам из серпа.
--Подробнее по поводу перехода по ссылкам из серпа--
Вот пример строки из выдачи Яндекса:
<a tabindex="2" onmousedown="rc(this, 'http:\/\/clck.yandex.ru\/redir\/AiuY0DBWFJ4ePaEse6rgeAjgs2pI3DW99KUdgowt9XvqxGyo_rnZJpNjfFDg3rinpgkjQ5A7rU-ukShpMqhmin8kDlFhIRmm41p9as_3LyV4__MUfkxU4bBi9SyJqugv?data=UlNrNmk5WktYejR0eWJFYk1LdmtxcndHdzNSM0JFQi1RdHdEeklXSFJmUGZaQ18zb1RLTzRfMjZRdWxQaFpBclRXSnNBTkdxSlYxbEF0NFNLRG1iTDV4MkN4dXVzcmVIYW80RUJrRHR4OTZtLV9Yc0dtM1JkZnh5c1ZyTk9yYjJ3QlVIWmRPeUs0X19oM1JUTlNGUHMtTC15WGNUVDB4OTl4OEs3WFBaZlRMSEdPT280TnJpZnc&b64e=2&sign=9975c1108d9f4bfcd67361c3976c682a&keyno=0')" href="http://www.snowball.ru/forums/?board=anapolis&action=new&id=500126" target="_blank"><span>Штурм - Город Анаполис - Мафия - Snowball Forums </span></a>
В парсере не нужно сразу сохранять\переходить на "http://www.snowball.ru/forums/?board=anapolis&action=new&id=500126", а нужно посмотреть - что за функция rc, и посетить адрес:
"http:\/\/clck.yandex.ru\/redir\/AiuY0DBWFJ4ePaEse6rgeAjgs2pI3DW99KUdgowt9XvqxGyo_rnZJpNjfFDg3rinpgkjQ5A7rU-ukShpMqhmin8kDlFhIRmm41p9as_3LyV4__MUfkxU4bBi9SyJqugv?data=UlNrNmk5WktYejR0eWJFYk1LdmtxcndHdzNSM0JFQi1RdHdEeklXSFJmUGZaQ18zb1RLTzRfMjZRdWxQaFpBclRXSnNBTkdxSlYxbEF0NFNLRG1iTDV4MkN4dXVzcmVIYW80RUJrRHR4OTZtLV9Yc0dtM1JkZnh5c1ZyTk9yYjJ3QlVIWmRPeUs0X19oM1JUTlNGUHMtTC15WGNUVDB4OTl4OEs3WFBaZlRMSEdPT280TnJpZnc&b64e=2&sign=9975c1108d9f4bfcd67361c3976c682a&keyno=0", ну и так парочку переходов с каждого запроса.
--
Тут я ещё не лез в кишки JS функции rc(..), возможно, она берёт координаты мышки и сверяет их с координатами строки из выдачи серпа.
------------
Ну, вродебы это всё, как можно эмулировать поведение человека в поисковой системе.
Но всё равно, мне кажется, что Яндекс будет выдавать капчу, если превышать M запросов за N времени, помойму, это - главный параметр.
Ещё можно посмотреть, не используют ли какие-то сайты базу Яндекса для формирования своей выдачи, но без всякого прямого взаимодействия юзера и серверов Яндекса.
--
Вот примерно как-то так я вижу проблему. Извините за сумбурность. :-)
Lucid_Mind, сперва по IP проверка: /ru/forum/417583
Я описал возможные варианты отслеживания. Естественно, это всё привязывается к ИП. Не к кукисам же привязываться. :-)
Увы - и пул больше, и подсетей в нём, но капча непредсказуема и большинство методов перебора гасятся уже на подлёте (причины пока непонятны, к тому же на вордстате, как на довольно специфическом сервисе, не так много пространства для манёвра).
Но за мысли спасибо, попробуем.
А куки к ИП привязывали? т.е. с каждым ИП ассоциированна его личная кука и его юзер агент.
(как вариант может вордстат действительно время от времени дает страничку например с невидимой картинкой и если она не гетится юзером, то в следущий раз включается капча...)
Я в доле, если что. Тут скорее не покупка решения будет, а достаточно длительное сотрудничество (кстати - и Зонку, и мне, есть что предложить, помимо просто денег).
Отписал в личку...
как варианты:
Всё написано правильно и разумно с точки зрения пользователя. Но если мыслить обобщёнными категориями, то надо признать, что ПС может анализировать не только количество (и естественность) запросов с каждого отдельного айпи, но и агрегировать сии данные. ;) Конечно, если адреса абсолютно независимы и находятся в разных подсетях, всплеска подозрительной активности может и не обнаружиться, но попробуй-ка запастись адресами из хотя бы пары тысяч абсолютно разных подсетей...
Яндекс будет выдавать капчу, если превышать M запросов за N времени, помойму, это - главный параметр.
Нет. Смотрите шире.
Тут я ещё не лез в кишки JS функции rc(..), возможно, она берёт координаты мышки и сверяет их с координатами строки из выдачи серпа.
Ага. Ещё с размерами и координатами окна с учётом специфики вывода разными браузерами, по-любому. :)
выполнение JS-скриптов с последующей загрузкой какого-то файла с сервера (чтобы узнать - парсер это, или нормальный браузер).
Кстати, есть ещё подсказки в строке поиска. ;) Они тоже не сами прилетают.
как вариант может вордстат действительно время от времени дает страничку например с невидимой картинкой и если она не гетится юзером, то в следущий раз включается капча...
...А если она кешируется? ;) А если куча народа ходит через корпоративный прокси? :) Но именно идеи и нужны. И Яндексу тоже. :)
Всё написано правильно и разумно с точки зрения пользователя. Но если мыслить обобщёнными категориями, то надо признать, что ПС может анализировать не только количество (и естественность) запросов с каждого отдельного айпи, но и агрегировать сии данные. ;) Конечно, если адреса абсолютно независимы и находятся в разных подсетях, всплеска подозрительной активности может и не обнаружиться, но попробуй-ка запастись адресами из хотя бы пары тысяч абсолютно разных подсетей...
Анализ будет оооочень ресурсоемкий :) зачем им грузить себя лишней работой?
...А если она кешируется? ;) А если куча народа ходит через корпоративный прокси? :) Но именно идеи и нужны. И Яндексу тоже. :)
ну картинку можно называть по всякому и отдавать каждый раз разный поток байт (типа красный пиксел в пнг формате, желтый пиксел в гиф :) ) такое сделать гораздо проще и менее накладней, чем собирать стату по миллиону адрессов, с целью найти потом с них распределенный парсинг. (а еще и искать это в рил тайм уже на грани разумного :) сильно много ресурсов будет жрать)