FlowCrawler: универсальный парсер и постер

F
На сайте с 11.04.2017
Offline
1
#41
j1gs4w88:
Можно ли в Вашей программе реализовывать управление с помощью кода как в Browser Automation Studio и ZennoPoster?

Пока нет, но есть в дальних планах. При наличии большого спроса на данную возможность - можно будет сделать раньше.

j1gs4w88:
Можно ли в программе менять User Agent и другие параметры отпечатка браузера

Да, можно. В текущей версии доступно изменение User Agent и Referer. В ближайшей перспективе будет возможность изменять вообще любые заголовки, отправляемые браузером.

j1gs4w88:
Сможет ли ваша программа работать в 200 потоков предположим в проекте с простым хождением по сайту на железе к примеру 2 x Xeon E5 2670, 128 Gb?

Думаю сможет, хотя разумеется есть куча внешних факторов (тип задачи, тяжесть целевых сайтов и тп). В общих чертах я бы пока ответил так - если железо способно запустить 200 процессов голого Chromium (без плагинов и тп) с нужным сайтом - то и FlowCrawler будет работать. Потому что основную нагрузку создаёт как раз Chromium, а оверхед от управляющей логики крайне незначителен.

j1gs4w88:
Есть ли автоматизация мыши?

На данный момент есть возможность эмулировать события мыши (клики, наведение и тп) на нужных элементах страницы. Этого достаточно для большинства задач. Если же вопрос был о натуральной эмуляции движения (когда двигается сам системный курсор), то эта возможность появится в будущем.

юни
На сайте с 01.11.2005
Offline
901
#42
FCDev:
Только сформулируйте, пожалуйста, более конкретно, какую задачу вы хотите увидеть и какие результаты оценить.

Вам удалось протестировать софт на Яндексе? Какая максимальная нагрузка была достигнута?

https://a-parser.com/ - парсер для профессионалов SEO, маркетологов, арбитражников и SaaS, https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
F
На сайте с 11.04.2017
Offline
1
#43

юни, длинный тест на эту тему еще не делал.

Сейчас запустил задание для 265 поисковых фраз (заходим на яндекс, вводим фразу, парсим ссылки с первой страницы - анкор+url). На древнем офисном ПК (AMD Athlon II X2 220, 8gb RAM, Linux Mint) собрал 3589 ссылок за 14 минут. Без проксей, без очистки кук, за один приём.

юни
На сайте с 01.11.2005
Offline
901
#44
FCDev:
3589 ссылок за 14 минут

Т.е. четыре или пол-запроса в секунду? Это в один поток?

FCDev:
без очистки кук

А была авторизация в сервисах Яндекса? Я.Элементы установлены? На машине стоит что-либо из их софта (браузер, пунтосвитчер и пр.)?

F
На сайте с 11.04.2017
Offline
1
#45
юни:
Т.е. четыре или пол-запроса в секунду? Это в один поток?

Да, в один поток. Такая скорость обусловлена тем, что браузер грузит все скрипты и стили страницы. Это помогает ему выглядеть живым. Плюс, по-умолчанию все действия бота имеют микрозадержки (200мс между кликами, например). Они служат той же цели, но при желании их можно уменьшать.

юни:
А была авторизация в сервисах Яндекса? Я.Элементы установлены? На машине стоит что-либо из их софта (браузер, пунтосвитчер и пр.)?

Нет. Ни авторизации, ни софта (тестил под Linux Mint).

юни
На сайте с 01.11.2005
Offline
901
#46
FCDev:
Они служат той же цели, но при желании их можно уменьшать.

Тут уместнее рандом, причём нелинейный. Как и ввод запроса с отработкой посказок, если уж на то пошло.

FCDev:
Ни авторизации, ни софта

Это уже лучше.

В целом, для промышленного парсинга нужно увеличить количество потоков на порядок-полтора, а скорость попытаться довести до 1-3 запросов в секунду. Тогда можно будет говорить о практическом применении софта в определённых нишах.

Если не возникнет проблем с капчей и другими видами блокировок.

F
На сайте с 11.04.2017
Offline
1
#47

Позже попробую тот же эксперимент в несколько потоков, отпишу здесь результат.

юни:
Как и ввод запроса с отработкой посказок

С этим проблем нет. Можно не нажимать Enter, а кликать по первой подсказке, например.

---------- Добавлено 18.04.2017 в 21:00 ----------

Попробовал

Комп: i5 2500K, 8GB RAM, Windows 7

Поисковых фраз: 265

Потоков: 4

Результат: Собрано 3576 ссылок за 3 мин 46 сек (без прокси)

То есть на нормальной машине в несколько потоков всё работает ощутимо быстрее.

F
На сайте с 11.04.2017
Offline
1
#48

Выпущено очередное обновление программы.

Теперь она умеет работать с изображениями.

Ранее в этой теме я приводил несколько теоретических примеров возможностей программы. Снял на видео реализацию первого из них:

FCDev:
1) Взять папку с фотками на жестком диске, рекурсивно пройти её. Для каждого JPG-файла прочитать EXIF и получить координаты места съемки. С этими координатами открыть маркер на гуглокарте, сделать нужный масштаб, заскриншотить. Обрезать и уменьшить скриншот, наложить его в левый нижний угол исходного фото, сохранить в другую папку. На выходе получить на каждой фотке миникарту с местом съемки в уголке. (все манипуляции с изображениями делаются встроенными средствами, без всяких веб-сервисов).

Осталось всего несколько дней до окончания хороших скидок.

Все подробности здесь: http://flowcrawler.com/buy

F
На сайте с 11.04.2017
Offline
1
#49

Стала доступна полная и подробная документация по программе:

http://flowcrawler.com/ru/docs

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий