orka13

orka13
Рейтинг
102
Регистрация
28.03.2011

Понимаю, что софт больше для семантики, чем для парсинга выдачи. Но все же хотелось бы увеличить лимит сканирования выдачи с топ50 до то500-топ1000 (в несколько шагов придется парсить топ). Очень часто возникает потребность собрать урлы из топа по ключам в промышленных масштабах. У бесплатных аналогов (Selka) к сожалению проблема с много-поточностью, а KeyCollector очень шустро работает. Кто в теме, подскажите пожалуйста еще какие аналоги по такой задаче, можно в личку, чтобы не засорять топик.

Ну раз уж тему апнули, то отвечу и здесь:

Из-за большой нагрузки другой онлайн-работой вынужден отказаться от таких заработков. Актуальная информация в шапке в картинке. Если что-то изменится, обновлю ее.

smexoblog.ru:
Так он и остался. Эдвордс не работал с 11-го числа. Сегодня выкатили временную версию, сам еще не пробовал с эдвордс работать после смены верстки

У меня не снимает пока. Подождем.

Важная инфа для парсеров Вордстата: после вчерашнего АПа Яндексоиды опять подкрутили гаечки, и стало намного меньше показывать хвостов для ключей, то есть если раньше у ключа было 2 страницы хвостов, то теперь вдвое меньше (не из-за сезонности запроса). В основном отрезали НЧ. Подобное случалось 2 года назад, только тогда еще нормально работал съем без логинов директа, а с логинами обрезало результаты. Потом через пару АПов все стабилизировалось. Отрывок тогдашней переписки с ТП КК, чтобы Вы понял о чем речь:


Добрый день. Заметил важный глюк. За последние дни (может и раньше) при семе дополнительных слофоворм из левой колонки вордстата через директ не снимает все данные. Напрямую без использования логинов директ снимает нормально.
Вот проект, где с дефолтными настройками собирал для фразы «экология скачать», - собрало 42 результата (настройки дефолтные, поэтому парсит только 1 страницу вордстата). А если получать статистику через директ, то находит только 15 фраз (вторая вкладка). Пробовал разные логины директ – результат тот же.

Спасибо за наводку одному из клиентов. Надеюсь через пару апов (~ 1 в месяц) все вернется как было.

Скидки 15% на заказы любого размера в ближайшие 48 часов.

Списался утром с автором, прикупил прогу, он оперативно внес правки в софт, теперь все должно летать даже на высоких нагрузках.

Софт еще не купил, но протестировал бетку по полной:

Запустил 20 копий программы с разных каталогов (проц Intel i7-3770K + 16 GB RAM позволили). Загрузил в них списки с ключами, настроил чтобы искало по 20 картинок на ключ и все в одноименную папку с названием ключа сохраняло. Ожидаемый финал – бан гугла где-то на 800-том ключе :).

Встроенный прокси-модуль что-то не работает, не получилось на персональных прокси обойти бан. Но это не беда, - утилитой proxifier настроил каждую копию программы на отдельный прокси при парсинге доменов гугла, а файлы картинок тянуло напрямую.

По такой схеме в минуту успевало обработать ~ 60 ключей (1200 картинок). Но через минут ~30 начинает плавно падать скорость, через 3 часа было уже 10 ключей\минуту. Попускает сразу как очистить полностью журнал (кнопка «Очистить URL). Так что очень бы хотелось что-то типа чек-бокса «авто-очистки URL» или «отключения лога». Я просто сидел и пару раз в час сам очищал, чтобы скорость не падала.

По нагрузкам при такой схеме:

  • Нагрузки на CPU практически нет (10-20% все время), немного поднимается при заполнении лога.
  • А вот RAM под конец забило полностью (1 процесс жрал до 700 мб памяти). Файл подкачки отключен, так как RAM=16 GB. Очистка журнала не помогает, только закрытие процесса программы освобождает память.
  • сеть нагружает на уровне 5-20 мбит\с, в зависимости от падений скорости обработки.

В итоге обработал за сутки 35К ключей = 700 000 картинок = 85 ГБ. Довольный как слон. Так как на подобных парсерах от конкурентов не получалось добиться подобного результата. В основном они страдали сильными нагрузками на и так нехилое железо при попытках ускорить процесс сбора многопоточностью, либо очень часто пропускали часть данных (не парсили ключ до конца, упускали некоторые ключи, даже путали картинки ключей в разных каталогах). Здесь тоже вижу погрешности в виде пустых папок без картинок, но их очень мало (~0,0005 часть).

ProLiant:
А скрипт откуда брали? Демо, нулл, или с генератором ключа?

Сори, забыл уточнить. Нул от МидТим.

stier:
На остальные 3 сайта вторые письма недавно пришли, а на этот - нет :) Хотя сам движок нулленый стоит - просто количество статей меньше 100 стало...

Скорее-всего просто совпадение. Мне только-то "Предсудебное уведомление" пришло на сайт-нулевик. 5 страниц, ни беклинков, ни трафика. Лежит мертвым грузом как нереализованная идея. Хостинг в Рашке, так что после жалобы либо переехать, либо убить сайт нафиг.

Всего: 532