BatchURLScraper - Извлечение данных методами XPath, CSSPath и RegExp

1 234
Lazy Badger
На сайте с 14.06.2017
Offline
228
#21

1. Отличный инструмент, за счет экспорта в CSV - в некоторых частных случаях даже практичнее, чем то же самое в SA

2. Из коробки и без проксей вполне прилично и очень шустро работает (5 правил на 400+ страниц - 200 секунд)

Есть маленькая низкоприоритетная просьба/пожелание - для облегчения совместной работы над проектом сделать в интерфейсе возможность импорта-экспорта набора правил... взять из BatchURLScraper.json нужную строку/строки и передать ее можно и сейчас, просто будет слегка удобнее, если на той стороне "обезьяна с гранатой" 

Производство жести методом непрерывного отжига
chaser
На сайте с 03.08.2005
Offline
214
#22
Lazy Badger #:

1. Отличный инструмент, за счет экспорта в CSV - в некоторых частных случаях даже практичнее, чем то же самое в SA

2. Из коробки и без проксей вполне прилично и очень шустро работает (5 правил на 400+ страниц - 200 секунд)

Есть маленькая низкоприоритетная просьба/пожелание - для облегчения совместной работы над проектом сделать в интерфейсе возможность импорта-экспорта набора правил... взять из BatchURLScraper.json нужную строку/строки и передать ее можно и сейчас, просто будет слегка удобнее, если на той стороне "обезьяна с гранатой" 

Если по каким-то причинам решим обновить версию - реализуем, но пока таких планов нет.
SiteAnalyzer ( https://site-analyzer.ru/ ) - аналог Screaming Frog | Majento ( https://majento.ru/index.php?page=seo-analize ) - 70+ бесплатных сервисов SEO-аналитики
DN
На сайте с 16.05.2022
Offline
0
#23

Доброго времени суток!

Тривиальная задача - получить пару строчек с текстом с сайта. Но я не программист... даже HTML template не соображу как написать в "Правилах"

Например. Вытащить из https://whois.ru/yandex.ru две сточки текста - domain: YANDEX.RU и paid-till: 2022-09-30T21:00:00Z

Какое "Правило" я должен задать, что бы получить искомое?

GG
На сайте с 17.05.2022
Offline
0
#24

День добрый.
Насколько я понимаю, сейчас в программе BatchURLScraper при задании, к примеру 2-х правил и выборке по ним из 10-страниц, сперва выбирается по правилу 1 из всех 10-ти страниц, потом по правилу 2, также из всех 10-ти страниц.
В отчёте это выглядит как 10 результатов по правилу 1, ПОТОМ идут 10 результатов по правилу 2.

Есть ли возможность сделать, чтобы по каждой странице сперва отрабатывали все правила, только потом переходить к обработке следующей?
В отчёте будет результат правила 1, потом правила 2 для первой страницы, потом так же для 2-й страницы и т.д.

Спасибо.

GG
На сайте с 17.05.2022
Offline
0
#25
DemNZV #:

Доброго времени суток!

Тривиальная задача - получить пару строчек с текстом с сайта. Но я не программист... даже HTML template не соображу как написать в "Правилах"

Например. Вытащить из https://whois.ru/yandex.ru две сточки текста - domain: YANDEX.RU и paid-till: 2022-09-30T21:00:00Z

Какое "Правило" я должен задать, что бы получить искомое?

День добрый.
Получить текстовый блок, где содержится искомое, Вы можете по выражению: //*/div[2]/pre[@class="raw-domain-info-pre"]
Оттуда отрежьте строки, нужные Вам.

png ya.png
DN
На сайте с 16.05.2022
Offline
0
#26
GaramGor #:

День добрый.
Получить текстовый блок, где содержится искомое, Вы можете по выражению: //*/div[2]/pre[@class="raw-domain-info-pre"]
Оттуда отрежьте строки, нужные Вам.

Спасибо!

Пока ждал ответа, наковырял пару других способов... если ничего не получается, в конце концов, прочтите инструкцию! 😀

Для XPath - //*[text()[contains(.,'Domain Name:')]]

Для HTMP template<pre class="raw-domain-info-pre">{text()}</pre>


Чего пока не смог сделать... даже инструкция пока не помогает... это именно вырезать нужные фрагменты из текстового блока.

GG
На сайте с 17.05.2022
Offline
0
#27
...

Для XPath - //*[text()[contains(.,'Domain Name:')]]

...

Чего пока не смог сделать... даже инструкция пока не помогает... это именно вырезать нужные фрагменты из текстового блока.

Этот xPath у меня не работает - не находит ничего.


По вырезке - так это уже блок, его обрабатывать чем-то другим надо, регекспами, к примеру. 
В том же Notepad++ открыть экспорт и регулярками вырезать.

DN
На сайте с 16.05.2022
Offline
0
#28
GaramGor #:

Этот xPath у меня не работает - не находит ничего.


По вырезке - так это уже блок, его обрабатывать чем-то другим надо, регекспами, к примеру. 
В том же Notepad++ открыть экспорт и регулярками вырезать.

Да... по строке поиска  'Domain Name:' действительно, ничего не найдет. Там такого текста в блоке просто нет. Если вместо него подставить 'paid-till:', то все работает.

А по вырезке... м-да, немного неудобно получается. Ну значит буду Экселем резать лишнее - макросы мне в помощь.

GG
На сайте с 17.05.2022
Offline
0
#29
DemNZV #:
Если вместо него подставить 'paid-till:', то все работает.

Да, там можно ставить что угодно из содержимого текстового блока, на выбор:

nserver,  state, org...

org самый короткий.
Эксель не обязательно запускать. CSV, это текстовый формат, почти любой текстовый редактор открывает.

chaser
На сайте с 03.08.2005
Offline
214
#30
Отдельно скрейпер как приложение не факт что будет как-то развиваться или дополняться, так что лучше писать в тему SiteAnalyzer'a так как там по сути тот же самый инструмент
1 234

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий