Key Collector - автоматизированная система анализа семантического ядра. Часть 7.

R3
На сайте с 30.03.2011
Offline
132
#811

меня вордстат блочит уже третий день.

Как дальше работать с программой? Может он навсегда мой адрес заблокировал - у меня статичный.

Василий Колодин
На сайте с 17.12.2008
Offline
250
#812
ruslan3967:
меня вордстат блочит уже третий день.

Как дальше работать с программой? Может он навсегда мой адрес заблокировал - у меня статичный.

У меня тоже статичный.

Предварительно парсили много?

Подождите пару дней - должны разблочить. У меня после каждого этапа парсинга блочат на 2-3 дня, потом работа восстанавливается.

А вообще, есть на яндекс.форуме ссылка, куда писать.

Правда я думаю, что там сейчас все напишут "разблокируйте меня пожалуйста. Я парсил кей-коллектором/магаданом/еще чем-нить" - они соберут базу, посмотрят на характерные признаки парсеров, кроме постоянных запросов, и начнут парсеры любого вида вылавливать еще лучше.

Юзаю Бегет с 2013 года. Начни юзать и ты: https://beget.com/p64496/ru/hosting/virtual
MyOST
На сайте с 22.01.2006
Offline
559
#813

titaniMOZG, да нет, парсеры отловить проблемно, они же иммитируют человека :)

там поход системный будет, просто нужно писать не про то как программно собираете, а про то как офисный IP забанили ;)

titaniMOZG:
В общем, сегодня ночью ставил парсинг вордстата с задержками 4-8 секунд. Итого: было спарсено около 6000 частотностей "!".
До этого, задержки были 1-2 секунды, и парсило порядка 1000 ключей.
В теории, это дает понять, что каждая секунда между запросами, дает "лимит" в тысячу запросов к вордстату.

да, сейчас 4500 - это пожалуй минимально с чего начинать нужно

Блог (http://seom.info/) | Ты уже SEO профессионал? (http://www.key-collector.ru/) Развиваем семантику более 8 лет! ()
R3
На сайте с 30.03.2011
Offline
132
#814
titaniMOZG:
У меня тоже статичный.
Предварительно парсили много?
Подождите пару дней - должны разблочить. У меня после каждого этапа парсинга блочат на 2-3 дня, потом работа восстанавливается.

А вообще, есть на яндекс.форуме ссылка, куда писать.
Правда я думаю, что там сейчас все напишут "разблокируйте меня пожалуйста. Я парсил кей-коллектором/магаданом/еще чем-нить" - они соберут базу, посмотрят на характерные признаки парсеров, кроме постоянных запросов, и начнут парсеры любого вида вылавливать еще лучше.

До этого магаданом парсил полгода но таймаут стоял 20-40 сек и не блочило, на кей коллектор сначала в настройках не трогал ничего - заблочили в первый же день.

можно как-то обойти кроме смены айпи или работать через прокси? Как через прокси работать ? У саппорта есть свои прокси-сервера или еще варианты? Я на магадане пробовал прокси но их блочат тоже.

Смысл на форум писать - это же не поможет, яндекс защищается просто от нагрузки.

S
На сайте с 20.02.2012
Offline
37
#815

Около часа назад программа перестала вычислять конкуренцию по Google.

Проблема еще у кого-нибудь наблюдается?

Василий Колодин
На сайте с 17.12.2008
Offline
250
#816

ruslan3967

Дефолту в КС таймауты стоят меньше. И последнюю неделю Яндекс ведет охоту на ведьм борьбу с парсерами вордстата. У меня еще дней 10 назад на дефолтных настройках тоже парсились десятки тысяч запросов, а вот с недавнего времени - халява кончилась.

Я юзал сеопрокси, но они тоже в бане, судя по всему.

MyOST
На сайте с 22.01.2006
Offline
559
#817
skanja:
Около часа назад программа перестала вычислять конкуренцию по Google.
Проблема еще у кого-нибудь наблюдается?

судя по отсутствию тикетов в тех поддержке на эту тему - проблема носит локальный характер, поэтому добро пожаловать в саппорт, описывайте подробней, будем решать http://www.key-collector.ru/user-support.php

ruslan3967:
У саппорта есть свои прокси-сервера или еще варианты?

рекомендуемый нами глобател тоже частенько попадает в бан, но выделенные прокси мы покупаем там

titaniMOZG:
а вот с недавнего времени - халява кончилась.

в целом оно и понятно, жестко стали его прасить :)

titaniMOZG:
Я юзал сеопрокси, но они тоже в бане, судя по всему.

да, их тоже побанили, видимо много

R3
На сайте с 30.03.2011
Offline
132
#818

В магадане сделан менеджер прокси.

туда вбиваешь урл источника прокси и менеджер магадана обходит эти урлы и собирает бесплатные прокси список которых на этих урлах обновляется. Сейчас я забил порядка 20 урлов со списками прокси (просто нагуглил ) и через них работает вроде.

Можете сделать так же в добавок просто к списку прокси еще добавление площадок со списками проксей, менеджер прокси будет их обходить с заданным таймаутом и снимать списки рабочих прокси. Каждый раз руками в кей коллерктор забивать списки проксей неудобно. А так площадки кто вывешивает списки рабочих прокси сами их обновляют а менеджер прокси парсера их обходит и снимает информацию. Это бесплатно, не все прокси работают, но сейчас у меня эта схема вполне заменила кей коллектор по сбору с вордстата при условии что у меня нет большого списка рабочих прокси и вордстат блокировал мой айпи.

Плюс в том что площадки сами следят за обновлением списков рабочих прокси и не надо перезаливать руками список в программу. Не знаю насколько это живучий и рабочий вариант, но сейчас пересел на эту схему.

R3
На сайте с 30.03.2011
Offline
132
#819

вот скриншот с менеджера урлов для прокси. Полученный магаданом список прокси сохранил в файл и залил в кей коллектор - вроде парсит но нет отключения прямого парсинга через вордстат - выдает ошибку когда напрямую лезет. Да и прокси сбоят тоже...

08.05.2012 0:18:32: страница Yandex.Wordstat содержит ошибки (возможно, в данный момент сервис недоступен или перегружен)

08.05.2012 0:18:38: ошибка NetworkMethods.LoadPage: Unable to connect to the remote server (http://146.115.61.171:1687/)

08.05.2012 0:18:38: при загрузке страницы колонок Yandex.Wordstat возникла ошибка. Повторные попытки не дали результатов. Проверьте качество соединения и работу сервисов. Процесс прерван

08.05.2012 0:18:38: страница Yandex.Wordstat содержит ошибки (возможно, в данный момент сервис недоступен или перегружен)

08.05.2012 0:18:53: страница Yandex.Wordstat содержит ошибки (возможно, в данный момент сервис недоступен или перегружен). Повторная попытка проанализировать страницу

08.05.2012 0:18:59: страница Yandex.Wordstat содержит ошибки (возможно, в данный момент сервис недоступен или перегружен). Повторная попытка проанализировать страницу

08.05.2012 0:19:11: ошибка NetworkMethods.LoadPage: The operation has timed out (http://217.20.245.59/)

jpg 108300.jpg
MIND
На сайте с 08.03.2007
Offline
238
#820
но нет отключения прямого парсинга через вордстат

Вроде, есть: "Использовать основной IP-адрес".

Key Collector - автоматизированная система анализа семантического ядра (/ru/forum/863504)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий