Нужен софт для исправления регистра букв в заголовках

12
K
На сайте с 24.10.2011
Offline
62
1199

Возникла огромная проблема: есть большой сайт по продаже различных товаров для стройки, сада, дома и т.п. 150 000 наименований. Менеджеры заводят карточки товара "как бог на душу положит" и соответственно встречаются наименования где бренд написан полностью заглавными буквами, есть акционный товар в названии которого есть приписки "АКЦИЯ/РАСПРОДАЖА/СКИДКА" тоже полностью заглавными буквами. Мне нужен софт который выделил бы из общего списка товаров только те у которых несколько заглавных букв идут друг за другом. Если есть формулы Excel то был бы признателен за них. Заранее спасибо.

S
На сайте с 25.11.2008
Offline
124
#1

Т.е вы хотите пропарсить свой большой сайт на предмет сбора данных в виде

URL - Title

И потом из этого списка выбрать те пары, у которых Title в верхнем регистре?

Т.е вся сложно именно собрать все тайтлы с сайта?

Где то недавно проскакивала тема про сбор тайтлов с сайта.

Бесплатные виджеты для сайта (https://pfka.ru). Технический анализ сайта ( https://linkonavt.ru/services/sitetechnologies ).
K
На сайте с 24.10.2011
Offline
62
#2
sslab:
Т.е вы хотите пропарсить свой большой сайт на предмет сбора данных в виде
URL - Title
И потом из этого списка выбрать те пары, у которых Title в верхнем регистре?
Т.е вся сложно именно собрать все тайтлы с сайта?
Где то недавно проскакивала тема про сбор тайтлов с сайта.

Нет, дело не в тайтлах, а в заголовках h1. Все они есть списком в Excel, там идет URL и h1 заголовок. Но заголовков 150 000 и искать в ручном режиме сложно. Есть нормальные заголовки (без слов верхним регистром), а есть заголовки в которых отдельные слова написаны верхним регистром. И мне нужен софт для отсеивания заголовков содержащих слова написанные верхним регистром.

Фома
На сайте с 10.11.2006
Offline
600
#3

Kazardum, менеджеров - к ногтю, надеюсь в базе видно кто заполнял такие заголовки, пусть сами и исправляют в свободное от работы время.

Из самого простого - OpenOffice, можно всё перевести в нижний регистр с заглавной буквой, а бренды, которые пишутся с большой буквы прогнать софтиной Search and Replace на предмет замены sony на Sony.

Я когда-то так делал ибо ответа на форуме ждать дольше.

Аренда апартаментов на Тенерифе (http://las-americas.ru/).
K
На сайте с 24.10.2011
Offline
62
#4
Фома:
Kazardum, менеджеров - к ногтю, надеюсь в базе видно кто заполнял такие заголовки, пусть сами и исправляют в свободное от работы время.

Из самого простого - OpenOffice, можно всё перевести в нижний регистр с заглавной буквой, а бренды, которые пишутся с большой буквы прогнать софтиной Search and Replace на предмет замены sony на Sony.

Я когда-то так делал ибо ответа на форуме ждать дольше.

Огромное спасибо, однозначно попробую.

Фома
На сайте с 10.11.2006
Offline
600
#5

Kazardum, для OpenOffice всё переносите в doc, дальше формат->регистр. Не знаю потянет 150 тыс или нет.

Упс, соврал я вроде про Search and Replace, он хорош для замены кусков кода. Нужный софт для замены списка на список есть у Pandorabox, ща найду.

По моему этот: http://topperharley.ru/2009/09/totalreplacer/

S
На сайте с 25.11.2008
Offline
124
#6

из общедоступного еще notepad++ умеет делать массовую замену строк в файле(-ах), в том числе с учетом регистра и по регуляркам

http://prntscr.com/gsqfy6

Фома
На сайте с 10.11.2006
Offline
600
#7

sslab, в notepad++ только регистр сменить, первую букву в строке заглавной он не сделает. Во всяком случае без сторонних плагинов. Я в своё время не нашёл, потому и выпендривался через OpenOffice.

Ну и по одиночке менять названия которые начинаются с заглавной буквы (бренды, города, метро) через notepad++ тоже весело. Когда их 20-30, это ладно, у меня их больше 500 было.

DV
На сайте с 01.05.2010
Offline
644
#8

Наймите программиста за еду, он вам автоматизирует.

VDS хостинг ( http://clck.ru/0u97l ) Нет нерешаемых задач ( https://searchengines.guru/ru/forum/806725 ) | Перенос сайтов на Drupal 7 с любых CMS. ( https://searchengines.guru/ru/forum/531842/page6#comment_10504844 )
wwwwww
На сайте с 29.04.2011
Offline
195
#9

Если же задача проста, то можете открыть Word

скопировать строки

затем shift + F3 (сколько нужно раз - переводит первый символ в верхний регистр, все символы в нижний, все символы в верхний)

Notepad++ и regExp в помощь.

Алгоритм такой:

В notepad режим замена, пишите регулярное выражение по:

- перевод всех символов в нижний регистр

- перевод первых символов в верхний регистр

RegExp - это специальные строки, которые позволяют делать замену по шаблону (шаблоны огуть быть самые разные, пишете самостоятельно исходя из правил).

Видишь? Свободная подпись.
S
На сайте с 24.10.2014
Offline
94
#10

В notepad++ если нет плагина textFX возьмите здесь https://www.yandex.ru/yandsearch?clid=9582&text=textfx%20notepad%2B%2B&l10n=ru&lr=56 и установите. Далее TextFX-TextFX Characters-Sentence case. Здесь подробности http://blog.harrix.org/article/186

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий