BatchURLScraper - Извлечение данных методами XPath, CSSPath и RegExp

123 4
chaser
На сайте с 03.08.2005
Offline
207
5467

Всем привет!

Представляю вашему вниманию бесплатную программу BatchURLScraper, предназначенную для извлечения данных со страниц сайтов используя XPath, CSS-селекторы и RegExp.





Возможности программы BatchURLScraper:

  • парсинг и извлечение данных по списку URL
  • гибкая настройка парсинга используя XPath, CSSPath и RegExp
  • экспорт отчетов в Excel (CSV-формат)


Страница скачивания (4 МБ): https://site-analyzer.ru/soft/batch-url-scraper/

Буду рад любым отзывам и пожеланиям по работе программы.

SiteAnalyzer ( https://site-analyzer.ru/ ) - аналог Screaming Frog | Majento ( https://majento.ru/index.php?page=seo-analize ) - 70+ бесплатных сервисов SEO-аналитики
chaser
На сайте с 03.08.2005
Offline
207
#1

Новая версия BatchURLScraper 1.2




Что нового:

  • добавлен метод скрапинга через XQuery
  • оптимизирован парсинг HTML-кода
  • оптимизирована настройка фильтров для извлечения данных
  • оптимизирована настройка пресетов для парсинга
  • добавлен модуль для тестирования правил парсинга

 Страница скачивания (5 Мб): BatchURLScraper
S
На сайте с 13.01.2011
Offline
105
#2
Прикольный и потенциально полезный софт, однако мешает ограничение в 1000 урл (
есть миллионы шансов...
chaser
На сайте с 03.08.2005
Offline
207
#3
superb #:
Прикольный и потенциально полезный софт, однако мешает ограничение в 1000 урл (
Возможно пересмотрим кол-во в новой версии.
chaser
На сайте с 03.08.2005
Offline
207
#4

Новая версия BatchURLScraper 1.3




Что нового:

  • расширено число страниц для парсинга с 1000 до 5000 URL
  • добавлена возможность скрапинга через HTML templates
  • добавлена возможность извлечения данных через атрибуты CSS
  • добавлена возможность скрапинга через внешний и внутренний HTML
  • добавлена возможность использования списков Proxy
  • исправлен баг некорректного сохранения User-Agent

Страница скачивания: https://site-analyzer.ru/soft/batch-url-scraper/

chaser
На сайте с 03.08.2005
Offline
207
#5

Новая версия BatchURLScraper 1.4 (build 27), 08.12.2020:

  • исправлена ошибка с валидацией HTML-темплейтов
  • оптимизирована работа с регулярными выражениями
  • добавлена возможность неучета повторений при скрейпинге
  • исправлена проблема с учетом пауз между запросами
  • диапазон пауз между запросами расширен до полутора минут
  • доработан и улучшен перевод программы
  • устранены утечки памяти
Бумеранг777
На сайте с 08.02.2009
Offline
660
#6
а емаилы я могу напарсить так?
Бурж хостинг ( https://vk.cc/8kDAui ) - Разрешён адалт. Секс по телефону ( https://vk.cc/6u7YCX ) - Мужской трафик конвертит на ура. Адалт дейтинг ( https://vk.cc/bZlb2J ) - Смарлинк с высоким EPM
chaser
На сайте с 03.08.2005
Offline
207
#7
Бумеранг777 #:
а емаилы я могу напарсить так?
Да, можете + в самой программе есть уже готовый шаблон правил для этого.
I4
На сайте с 23.01.2021
Offline
0
#8
Здравствуйте. Интересная программа у Вас получилось.
При работе с ней заметил 2 неполадки, а именно:
1) Если информации которую ищешь на странице нет, то программа зависает.
Пример работы: 
Тип "RegEX" правило "[a-zA-Z0-9-_.]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+". Задаём поиск на странице http://psy.univ.kiev.ua/en/database/userprofile/Maksymova-Yuriyivna и http://psy.univ.kiev.ua/ua/database/userprofile/Postoyuk-Nataliya-Valentynivna . 
Программа зависает если нет информации на странице.
2) Когда программа зависла ты пытаешься нажать отмену, то отмена не происходит.
chaser
На сайте с 03.08.2005
Offline
207
#9
info414 #:
Здравствуйте. Интересная программа у Вас получилось.
При работе с ней заметил 2 неполадки, а именно:
1) Если информации которую ищешь на странице нет, то программа зависает.
Пример работы: 
Тип "RegEX" правило "[a-zA-Z0-9-_.]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+". Задаём поиск на странице http://psy.univ.kiev.ua/en/database/userprofile/Maksymova-Yuriyivna и http://psy.univ.kiev.ua/ua/database/userprofile/Postoyuk-Nataliya-Valentynivna
Программа зависает если нет информации на странице.
2) Когда программа зависла ты пытаешься нажать отмену, то отмена не происходит.
Привет. В новой версии SiteAnalyzer появится функция скрейпинга данных. Подобные баги также должны исчезнуть.
A
На сайте с 14.06.2018
Offline
42
#10
chaser :

Всем привет!

Представляю вашему вниманию бесплатную программу BatchURLScraper, предназначенную для извлечения данных со страниц сайтов используя XPath, CSS-селекторы и RegExp.

приветствую,

подскажи пожалуйста, как правильно составить правило для парсинга с сайта ссылок на инстаграм аккаунт?  (есть список сайтов, нужно собрать ссылки на инстаграм аккаунты этих сайтов).

Возможен ли сбор урлов инстаграма  как с первого уровня сайта (site.ru/) так и со второго уровня сайта (site.ru/razdel1/)?

спасибо

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий