Комментарии - GaramGor - Профиль вебмастера - Форум об интернет-маркетинге

BatchURLScraper - Извлечение данных методами XPath, CSSPath и RegExp

17 мая 2022, 17:14

DemNZV #:
Если вместо него подставить 'paid-till:', то все работает.

Да, там можно ставить что угодно из содержимого текстового блока, на выбор:

nserver, state, org...

org самый короткий.
Эксель не обязательно запускать. CSV, это текстовый формат, почти любой текстовый редактор открывает.

BatchURLScraper - Извлечение данных методами XPath, CSSPath и RegExp

17 мая 2022, 14:07

...

Для XPath - //*[text()[contains(.,'Domain Name:')]]

...

Чего пока не смог сделать... даже инструкция пока не помогает... это именно вырезать нужные фрагменты из текстового блока.

Этот xPath у меня не работает - не находит ничего.

По вырезке - так это уже блок, его обрабатывать чем-то другим надо, регекспами, к примеру.
В том же Notepad++ открыть экспорт и регулярками вырезать.

BatchURLScraper - Извлечение данных методами XPath, CSSPath и RegExp

17 мая 2022, 08:57

DemNZV #:

Доброго времени суток!

Тривиальная задача - получить пару строчек с текстом с сайта. Но я не программист... даже HTML template не соображу как написать в "Правилах"

Например. Вытащить из https://whois.ru/yandex.ru две сточки текста - domain: YANDEX.RU и paid-till: 2022-09-30T21:00:00Z

Какое "Правило" я должен задать, что бы получить искомое?

День добрый.
Получить текстовый блок, где содержится искомое, Вы можете по выражению: //*/div[2]/pre[@class="raw-domain-info-pre"]
Оттуда отрежьте строки, нужные Вам.

png ya.png

BatchURLScraper - Извлечение данных методами XPath, CSSPath и RegExp

17 мая 2022, 07:21

День добрый.
Насколько я понимаю, сейчас в программе BatchURLScraper при задании, к примеру 2-х правил и выборке по ним из 10-страниц, сперва выбирается по правилу 1 из всех 10-ти страниц, потом по правилу 2, также из всех 10-ти страниц.
В отчёте это выглядит как 10 результатов по правилу 1, ПОТОМ идут 10 результатов по правилу 2.

Есть ли возможность сделать, чтобы по каждой странице сперва отрабатывали все правила, только потом переходить к обработке следующей?
В отчёте будет результат правила 1, потом правила 2 для первой страницы, потом так же для 2-й страницы и т.д.

Спасибо.

Что делать, чтобы попасть в ответы Google Bard

Дзен реализовал для авторов возможность вывода денег через СПБ

GaramGor