Вытащить нужный кусок html кода со всех страниц

Brucekiev
На сайте с 30.11.2007
Offline
171
1477

Добрый день.

Прошу помочь решить проблему.. желательно программами, которые можно найти в открытом доступе.

Задача: Есть сайт, который построен на одном шаблоне. В html коде каждой страницы есть уникальные строчки, которые более на странице не повторяются: <h1> бла..бла..бла.. <eho>. Необходимо вытащить html код, который находится внутри этого диапазона, со всех страниц сайта.

Весь html код сайта есть локально на компьютере, но чтобы ручками каждую страницу не открывать и не копировать, нужно автоматом от и до заданного места вытащить все что внутри находиться :)

iqmaker
На сайте с 17.04.2012
Offline
309
#1

python + pyquery

Matman
На сайте с 05.06.2010
Offline
148
#2

Notepad - открыть все файлы и автозаменой шлепнуть)

текст что нужно убрать - на пустое поле

Buylink.pro (https://buylink.pro/) - качественные вечные ссылки
Фома
На сайте с 10.11.2006
Offline
600
#3
Matman:
Notepad - открыть все файлы и автозаменой шлепнуть)
текст что нужно убрать - на пустое поле

Если файлов пару сотен, то да, если значительно больше или сменить надо строк 20, то Notepad бессилен.

Вот этой штукой Search And Replace менял недавно на 20+тыс страницах счётчик Li на Метрику.

Аренда апартаментов на Тенерифе (http://las-americas.ru/).
serjoo
На сайте с 12.09.2011
Offline
389
#4
Фома:
Вот этим Search And Replace менял недавно на 20+тыс страницах счётчик Li на Метрику.

Счетчик изначально в футере разместить не вариант?

Мультур..
Фома
На сайте с 10.11.2006
Offline
600
#5

serjoo, старый, самый первый дор, без инклюдов сделал. Теперь то да, конечно всё разбиваю на инклюды. Но тема вроде как не об этом. 🍿

Brucekiev
На сайте с 30.11.2007
Offline
171
#6
Фома:
Если файлов пару сотен, то да, если значительно больше или сменить надо строк 20, то Notepad бессилен.

Вот этой штукой Search And Replace менял недавно на 20+тыс страницах счётчик Li на Метрику.

Файлов чуть более 3к

И надо не сменить что-то на что-то, а вытащить и поместить в отдельный файл/файлы (текстовые документы) то что вытащили.

Как писал выше, я могу задать только строчку/слово откуда надо начинать вытаскивать и то, где надо закончить.. Внутри разное кол-во текста в html коде.

D
На сайте с 02.02.2010
Offline
138
#7

Content Downloader, но только он платный, можете попросить кого нибудь спарсить.

Фома
На сайте с 10.11.2006
Offline
600
#8
Brucekiev:
И надо не сменить что-то на что-то, а вытащить и поместить в отдельный файл/файлы (текстовые документы) то что вытащили.

В первом посте вроде этого нет.

А всё остальное без проблем:

Утилита для пакетного поиска и замены слов/строк/абзацев в различных файлах. Search And Replace работает с файлами TXT, RTF, WRI, DOC, XML, ASP, HTML. Поддерживаются фильтры для поиска и произвольное редактирование. Программа Search And Replace позволяет устанавливать, где именно нужно редактировать текст: между конкретными строчками, в начале или конце, между определёнными признаками и т.п. Возможно сохранение результатов поиска.
Brucekiev
На сайте с 30.11.2007
Offline
171
#9

Фома, то что надо вытащить писал ранее.. а то что поместить в "левый" файл не писал, да :)

Так что интересует не замена, а именно парсинг определенного заданного участка внутри html кода страницы.

PS спасибо всем кто обратил внимание на мою проблему.. надеюсь что получиться ее решить)

iqmaker
На сайте с 17.04.2012
Offline
309
#10

Brucekiev, можете посмотреть в сторону grep, если в файле искомая строка четко задается регуляркой, то можете поюзать grep -P

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий