Понимаю, что софт больше для семантики, чем для парсинга выдачи. Но все же хотелось бы увеличить лимит сканирования выдачи с топ50 до то500-топ1000 (в несколько шагов придется парсить топ). Очень часто возникает потребность собрать урлы из топа по ключам в промышленных масштабах. У бесплатных аналогов (Selka) к сожалению проблема с много-поточностью, а KeyCollector очень шустро работает. Кто в теме, подскажите пожалуйста еще какие аналоги по такой задаче, можно в личку, чтобы не засорять топик.
Ну раз уж тему апнули, то отвечу и здесь:
Из-за большой нагрузки другой онлайн-работой вынужден отказаться от таких заработков. Актуальная информация в шапке в картинке. Если что-то изменится, обновлю ее.
Key Collector — http://www.key-collector.ru/news/geo.php
У меня не снимает пока. Подождем.
Важная инфа для парсеров Вордстата: после вчерашнего АПа Яндексоиды опять подкрутили гаечки, и стало намного меньше показывать хвостов для ключей, то есть если раньше у ключа было 2 страницы хвостов, то теперь вдвое меньше (не из-за сезонности запроса). В основном отрезали НЧ. Подобное случалось 2 года назад, только тогда еще нормально работал съем без логинов директа, а с логинами обрезало результаты. Потом через пару АПов все стабилизировалось. Отрывок тогдашней переписки с ТП КК, чтобы Вы понял о чем речь:
Спасибо за наводку одному из клиентов. Надеюсь через пару апов (~ 1 в месяц) все вернется как было.
Скидки 15% на заказы любого размера в ближайшие 48 часов.
Списался утром с автором, прикупил прогу, он оперативно внес правки в софт, теперь все должно летать даже на высоких нагрузках.
Софт еще не купил, но протестировал бетку по полной:
Запустил 20 копий программы с разных каталогов (проц Intel i7-3770K + 16 GB RAM позволили). Загрузил в них списки с ключами, настроил чтобы искало по 20 картинок на ключ и все в одноименную папку с названием ключа сохраняло. Ожидаемый финал – бан гугла где-то на 800-том ключе :).
Встроенный прокси-модуль что-то не работает, не получилось на персональных прокси обойти бан. Но это не беда, - утилитой proxifier настроил каждую копию программы на отдельный прокси при парсинге доменов гугла, а файлы картинок тянуло напрямую.
По такой схеме в минуту успевало обработать ~ 60 ключей (1200 картинок). Но через минут ~30 начинает плавно падать скорость, через 3 часа было уже 10 ключей\минуту. Попускает сразу как очистить полностью журнал (кнопка «Очистить URL). Так что очень бы хотелось что-то типа чек-бокса «авто-очистки URL» или «отключения лога». Я просто сидел и пару раз в час сам очищал, чтобы скорость не падала.
По нагрузкам при такой схеме:
В итоге обработал за сутки 35К ключей = 700 000 картинок = 85 ГБ. Довольный как слон. Так как на подобных парсерах от конкурентов не получалось добиться подобного результата. В основном они страдали сильными нагрузками на и так нехилое железо при попытках ускорить процесс сбора многопоточностью, либо очень часто пропускали часть данных (не парсили ключ до конца, упускали некоторые ключи, даже путали картинки ключей в разных каталогах). Здесь тоже вижу погрешности в виде пустых папок без картинок, но их очень мало (~0,0005 часть).
Сори, забыл уточнить. Нул от МидТим.
Скорее-всего просто совпадение. Мне только-то "Предсудебное уведомление" пришло на сайт-нулевик. 5 страниц, ни беклинков, ни трафика. Лежит мертвым грузом как нереализованная идея. Хостинг в Рашке, так что после жалобы либо переехать, либо убить сайт нафиг.