Попробуйте вырезать нужные фрагменты из текстового блока - Сервисы и программы для работы с SE

BatchURLScraper - Извлечение данных методами XPath, CSSPath и RegExp

chaser · 2020-11-10T16:56:28.0000000Z

Всем привет! Представляю вашему вниманию бесплатную программу BatchURLScraper , предназначенную для извлечения данных со страниц сайтов используя XPath, CSS-селекторы и RegExp. Возможности программы BatchURLScraper: парсинг и извлечение данных по списку URL гибкая настройка парсинга используя XPath, CSSPath и RegExp экспорт отчетов в Excel (CSV-формат) Страница скачивания (4 МБ): https://site-analyzer.ru/soft/batch-url-scraper/ Буду рад любым отзывам и пожеланиям по работе программы.

228

Lazy Badger

11 апреля 2022, 04:53

#21

1. Отличный инструмент, за счет экспорта в CSV - в некоторых частных случаях даже практичнее, чем то же самое в SA

2. Из коробки и без проксей вполне прилично и очень шустро работает (5 правил на 400+ страниц - 200 секунд)

Есть маленькая низкоприоритетная просьба/пожелание - для облегчения совместной работы над проектом сделать в интерфейсе возможность импорта-экспорта набора правил... взять из BatchURLScraper.json нужную строку/строки и передать ее можно и сейчас, просто будет слегка удобнее, если на той стороне "обезьяна с гранатой"

Производство жести методом непрерывного отжига

Букварикс: бесплатная программа для Бесплатно: Удобный и быстрый Firefox Quantum

214

chaser

11 апреля 2022, 20:12

#22

Lazy Badger #:

1. Отличный инструмент, за счет экспорта в CSV - в некоторых частных случаях даже практичнее, чем то же самое в SA

2. Из коробки и без проксей вполне прилично и очень шустро работает (5 правил на 400+ страниц - 200 секунд)

Есть маленькая низкоприоритетная просьба/пожелание - для облегчения совместной работы над проектом сделать в интерфейсе возможность импорта-экспорта набора правил... взять из BatchURLScraper.json нужную строку/строки и передать ее можно и сейчас, просто будет слегка удобнее, если на той стороне "обезьяна с гранатой"

Если по каким-то причинам решим обновить версию - реализуем, но пока таких планов нет.

SiteAnalyzer ( https://site-analyzer.ru/ ) - аналог Screaming Frog | Majento ( https://majento.ru/index.php?page=seo-analize ) - 70+ бесплатных сервисов SEO-аналитики

DN

0

DemNZV

16 мая 2022, 12:56

#23

Доброго времени суток!

Тривиальная задача - получить пару строчек с текстом с сайта. Но я не программист... даже HTML template не соображу как написать в "Правилах"

Например. Вытащить из https://whois.ru/yandex.ru две сточки текста - domain: YANDEX.RU и paid-till: 2022-09-30T21:00:00Z

Какое "Правило" я должен задать, что бы получить искомое?

определить : НАЙДЕН ПО Работа для вебмастеров, копирайтеров регулярные выражения

GG

0

GaramGor

17 мая 2022, 07:21

#24

День добрый.
Насколько я понимаю, сейчас в программе BatchURLScraper при задании, к примеру 2-х правил и выборке по ним из 10-страниц, сперва выбирается по правилу 1 из всех 10-ти страниц, потом по правилу 2, также из всех 10-ти страниц.
В отчёте это выглядит как 10 результатов по правилу 1, ПОТОМ идут 10 результатов по правилу 2.

Есть ли возможность сделать, чтобы по каждой странице сперва отрабатывали все правила, только потом переходить к обработке следующей?
В отчёте будет результат правила 1, потом правила 2 для первой страницы, потом так же для 2-й страницы и т.д.

Спасибо.

Новичкам: С чего начать Переход всех внешних ссылок Чем теперь мониторить выдачу?

GG

0

GaramGor

17 мая 2022, 08:57

#25

DemNZV #:

Доброго времени суток!

Тривиальная задача - получить пару строчек с текстом с сайта. Но я не программист... даже HTML template не соображу как написать в "Правилах"

Например. Вытащить из https://whois.ru/yandex.ru две сточки текста - domain: YANDEX.RU и paid-till: 2022-09-30T21:00:00Z

Какое "Правило" я должен задать, что бы получить искомое?

День добрый.
Получить текстовый блок, где содержится искомое, Вы можете по выражению: //*/div[2]/pre[@class="raw-domain-info-pre"]
Оттуда отрежьте строки, нужные Вам.

png ya.png

DN

0

DemNZV

17 мая 2022, 13:33

#26

GaramGor #:

День добрый.
Получить текстовый блок, где содержится искомое, Вы можете по выражению: //*/div[2]/pre[@class="raw-domain-info-pre"]
Оттуда отрежьте строки, нужные Вам.

Спасибо!

Пока ждал ответа, наковырял пару других способов... если ничего не получается, в конце концов, прочтите инструкцию! 😀

Для XPath - //*[text()[contains(.,'Domain Name:')]]

Для HTMP template - <pre class="raw-domain-info-pre">{text()}</pre>

Чего пока не смог сделать... даже инструкция пока не помогает... это именно вырезать нужные фрагменты из текстового блока.

спискиcss Affiliate Egg - Wordpress Pre-roll реклама вне плеера

GG

0

GaramGor

17 мая 2022, 14:07

#27

...

Для XPath - //*[text()[contains(.,'Domain Name:')]]

...

Чего пока не смог сделать... даже инструкция пока не помогает... это именно вырезать нужные фрагменты из текстового блока.

Этот xPath у меня не работает - не находит ничего.

По вырезке - так это уже блок, его обрабатывать чем-то другим надо, регекспами, к примеру.
В том же Notepad++ открыть экспорт и регулярками вырезать.

Проблема с WordPress - Ускорение сайта на вордпресс Вырезки из фильмов в

DN

0

DemNZV

17 мая 2022, 14:34

#28

GaramGor #:

Этот xPath у меня не работает - не находит ничего.

По вырезке - так это уже блок, его обрабатывать чем-то другим надо, регекспами, к примеру.
В том же Notepad++ открыть экспорт и регулярками вырезать.

Да... по строке поиска 'Domain Name:' действительно, ничего не найдет. Там такого текста в блоке просто нет. Если вместо него подставить 'paid-till:', то все работает.

А по вырезке... м-да, немного неудобно получается. Ну значит буду Экселем резать лишнее - макросы мне в помощь.

Excel, запрет на ввод Подскажите сервис... Человеческая просьба

GG

0

GaramGor

17 мая 2022, 17:14

#29

DemNZV #:
Если вместо него подставить 'paid-till:', то все работает.

Да, там можно ставить что угодно из содержимого текстового блока, на выбор:

nserver, state, org...

org самый короткий.
Эксель не обязательно запускать. CSV, это текстовый формат, почти любой текстовый редактор открывает.

214

chaser

18 мая 2022, 07:59

#30

Отдельно скрейпер как приложение не факт что будет как-то развиваться или дополняться, так что лучше писать в тему SiteAnalyzer'a так как там по сути тот же самый инструмент

Переиграть и победить: как анализировать конкурентов для продвижения сайта

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

BatchURLScraper - Извлечение данных методами XPath, CSSPath и RegExp