массовые замены в .csv с регулярками

cscope
На сайте с 13.02.2005
Offline
525
903

Есть много больших (300-400мб каждый) .csv файлов.

В них контент с кодом.

Есть гиперссылки, которые выглядят так:

<a title="автомобиль" href="../6-13456.html" target="_blank">передачей</a>

надо чтобы осталось только слово "передачей", т.е. убрать все гиперссылки.

Чем можно это сделать? Нотепад не берет, в Text Replacer регулярок вроде как нет.

I
На сайте с 01.05.2015
Offline
72
#1

cscope, например vim мгновенно сделает с таким объемом что угодно. Курите макросы + регулярки в нем или просто замены. Если не работали в нем, то будет непривычно сначала, потом познаете всю его силу =)

https://habr.com/ru/post/119059/

SeVlad
На сайте с 03.11.2008
Offline
1609
#2
cscope:
Нотепад не берет,

Какой "нотепад"? Комп дохлый?

Закрой все программы и открывай нормальным блокнотом. полгига - это не тот объём что бы не открылся на компе даже с 2мя гектарами памяти.

ibatanov:
например vim

Например, по "нотепад" можно догадаться что речь о винде.

Делаю хорошие сайты хорошим людям. Предпочтение коммерческим направлениям. Связь со мной через http://wp.me/P3YHjQ-3.
cscope
На сайте с 13.02.2005
Offline
525
#3
SeVlad:
Какой "нотепад"? Комп дохлый?
Закрой все программы и открывай нормальным блокнотом. полгига - это не тот объём что бы не открылся на компе даже с 2мя гектарами памяти.

Обычный нотепад++ пишет, что файл слишком большой, комп 8гб оперативки.

А в блокноте разве есть регулярки чтобы так сделать?

Там вообще вроде нет возможности массовой замены.

I
На сайте с 01.05.2015
Offline
72
#4
SeVlad:
Например, по "нотепад" можно догадаться что речь о винде.

Например, можно догадаться загуглить "vim windows", прежде чем писать. А так же прочитать http://docs.notepad-plus-plus.org/index.php/Large_Text_Files

W
На сайте с 08.02.2017
Offline
169
#5
cscope:
Чем можно это сделать?

питоном например

Комплексный аудит ИМ. Формирование УТП, анализ юзабилити, каналов продвижения. Контекстная реклама, настройка систем аналитики. Консультация - бесплатно, в ЛС
LEOnidUKG
На сайте с 25.11.2006
Offline
1723
#6
Обычный нотепад++ пишет, что файл слишком большой, комп 8гб оперативки.

Попробуйте akelpad http://akelpad.sourceforge.net/ru/index.php

там есть регулярки и он большие файлы открывает.

✅ Мой Телеграм канал по SEO, оптимизации сайтов и серверов: https://t.me/leonidukgLIVE ✅ Качественное и рабочее размещение SEO статей СНГ и Бурж: https://getmanylinks.ru/
Антон Лавеев
На сайте с 31.10.2005
Offline
425
#7

Да можно Екселем или даже лучше OpenOffice Calc - довольно мощная штука именно для половых актов с такими файлами.

☠️☠️☠️
Glueon
На сайте с 26.07.2013
Offline
172
#8

А не проще это все обработать на сервере/vps через шелл? На никсах работа с регулярками на порядок комфортнее и инструментов множество (личное субъективное мнение).

Есть много IP-сетей в аренду под прокси, парсинг, рассылки (optin), vpn и хостинг. Телега: @contactroot ⚒ ContactRoot команда опытных сисадминов (/ru/forum/861038), свой LIR: сдаем в аренду сети IPv4/v6 (/ru/forum/1012475).
Антон Лавеев
На сайте с 31.10.2005
Offline
425
#9
Glueon:
А не проще это все обработать на сервере/vps через шелл? На никсах работа с регулярками на порядок комфортнее и инструментов множество (личное субъективное мнение).

Если уметь то конечно проще.

cscope
На сайте с 13.02.2005
Offline
525
#10
wicker:
питоном например

Или анакондой.

Glueon:
А не проще это все обработать на сервере/vps через шелл? На никсах работа с регулярками на порядок комфортнее и инструментов множество (личное субъективное мнение).

Ага, проще, уже начал 😂

Я не сторонник решать сложно простые задачи. Спасибо всем, вопрос решил уже.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий