- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Можно ли в Вашей программе реализовывать управление с помощью кода как в Browser Automation Studio и ZennoPoster?
Пока нет, но есть в дальних планах. При наличии большого спроса на данную возможность - можно будет сделать раньше.
Можно ли в программе менять User Agent и другие параметры отпечатка браузера
Да, можно. В текущей версии доступно изменение User Agent и Referer. В ближайшей перспективе будет возможность изменять вообще любые заголовки, отправляемые браузером.
Сможет ли ваша программа работать в 200 потоков предположим в проекте с простым хождением по сайту на железе к примеру 2 x Xeon E5 2670, 128 Gb?
Думаю сможет, хотя разумеется есть куча внешних факторов (тип задачи, тяжесть целевых сайтов и тп). В общих чертах я бы пока ответил так - если железо способно запустить 200 процессов голого Chromium (без плагинов и тп) с нужным сайтом - то и FlowCrawler будет работать. Потому что основную нагрузку создаёт как раз Chromium, а оверхед от управляющей логики крайне незначителен.
Есть ли автоматизация мыши?
На данный момент есть возможность эмулировать события мыши (клики, наведение и тп) на нужных элементах страницы. Этого достаточно для большинства задач. Если же вопрос был о натуральной эмуляции движения (когда двигается сам системный курсор), то эта возможность появится в будущем.
Только сформулируйте, пожалуйста, более конкретно, какую задачу вы хотите увидеть и какие результаты оценить.
Вам удалось протестировать софт на Яндексе? Какая максимальная нагрузка была достигнута?
юни, длинный тест на эту тему еще не делал.
Сейчас запустил задание для 265 поисковых фраз (заходим на яндекс, вводим фразу, парсим ссылки с первой страницы - анкор+url). На древнем офисном ПК (AMD Athlon II X2 220, 8gb RAM, Linux Mint) собрал 3589 ссылок за 14 минут. Без проксей, без очистки кук, за один приём.
3589 ссылок за 14 минут
Т.е. четыре или пол-запроса в секунду? Это в один поток?
без очистки кук
А была авторизация в сервисах Яндекса? Я.Элементы установлены? На машине стоит что-либо из их софта (браузер, пунтосвитчер и пр.)?
Т.е. четыре или пол-запроса в секунду? Это в один поток?
Да, в один поток. Такая скорость обусловлена тем, что браузер грузит все скрипты и стили страницы. Это помогает ему выглядеть живым. Плюс, по-умолчанию все действия бота имеют микрозадержки (200мс между кликами, например). Они служат той же цели, но при желании их можно уменьшать.
А была авторизация в сервисах Яндекса? Я.Элементы установлены? На машине стоит что-либо из их софта (браузер, пунтосвитчер и пр.)?
Нет. Ни авторизации, ни софта (тестил под Linux Mint).
Они служат той же цели, но при желании их можно уменьшать.
Тут уместнее рандом, причём нелинейный. Как и ввод запроса с отработкой посказок, если уж на то пошло.
Ни авторизации, ни софта
Это уже лучше.
В целом, для промышленного парсинга нужно увеличить количество потоков на порядок-полтора, а скорость попытаться довести до 1-3 запросов в секунду. Тогда можно будет говорить о практическом применении софта в определённых нишах.
Если не возникнет проблем с капчей и другими видами блокировок.
Позже попробую тот же эксперимент в несколько потоков, отпишу здесь результат.
Как и ввод запроса с отработкой посказок
С этим проблем нет. Можно не нажимать Enter, а кликать по первой подсказке, например.
---------- Добавлено 18.04.2017 в 21:00 ----------
Попробовал
Комп: i5 2500K, 8GB RAM, Windows 7
Поисковых фраз: 265
Потоков: 4
Результат: Собрано 3576 ссылок за 3 мин 46 сек (без прокси)
То есть на нормальной машине в несколько потоков всё работает ощутимо быстрее.
Выпущено очередное обновление программы.
Теперь она умеет работать с изображениями.
Ранее в этой теме я приводил несколько теоретических примеров возможностей программы. Снял на видео реализацию первого из них:
1) Взять папку с фотками на жестком диске, рекурсивно пройти её. Для каждого JPG-файла прочитать EXIF и получить координаты места съемки. С этими координатами открыть маркер на гуглокарте, сделать нужный масштаб, заскриншотить. Обрезать и уменьшить скриншот, наложить его в левый нижний угол исходного фото, сохранить в другую папку. На выходе получить на каждой фотке миникарту с местом съемки в уголке. (все манипуляции с изображениями делаются встроенными средствами, без всяких веб-сервисов).
Осталось всего несколько дней до окончания хороших скидок.
Все подробности здесь: http://flowcrawler.com/buy
Стала доступна полная и подробная документация по программе:
http://flowcrawler.com/ru/docs