Osavul, это то на что заменяется, а не то что искать нужно.
(\d+)\s+([a-zа-я]+)
на
$1\t$2
[ATTACH]175485[/ATTACH]
С украинскими буквами лучше так:
(\d+)\s+([\u0400-\u052F\u2DE0-\u2DFF\uA640-\uA69F']+)
В путях и названиях файлов в папке регистр букв одинаковый?
Так если всё равно удалять зачем два раза конвертировать, Acrobat его меньше создаёт чем Word.
_SP_, я попробовал там проблема та-же, в коде куча мусора получается.
Перепробовал кучу вариантов, везде какие-то косяки вылазят. Остановился на самом Акробате, там оказывается тоже можно пакетно экспортировать, правда форматирует тоже так себе но хоть слова не разрывает и кракозябры не выдаёт.
Разница должна быть, страницы с фреймами вылазят по запросам текст которых внутри фрейма находится, даже если фрейм с другого сайта. Тут тоже контент в страницу встроен, а не просто ссылка на него.
Мне не нужно закрывать, мне нужно узнать что в выдаче будет, страница с вставленным на неё файлом или сам файл.
Из того что смотрел более-менее подходит вот эта программа: http://www.freepdfsolutions.com/free-pdf-to-html.html но только вот в исходном коде html файла жесть творится. [ATTACH]175242[/ATTACH]
<div itemscope itemtype="http://schema.org/Organization"> <h2><span itemprop="name">Название</span></h2> <p style="text-align: left;" itemprop="address" itemscope itemtype="https://schema.org/PostalAddress"> <strong>Наш адрес: </strong><span itemprop="streetAddress"> ул. Такая-то, д. N</span>, <span itemprop="addressLocality">г. Такой-то</span> , <span itemprop="addressRegion">Такая-то обл.</span></p> <strong>Телефон:</strong>*<a href="tel:+77777777777"><span itemprop="telephone">+7 (777) 777-77-77</span></a> </div>
А как им пакетно конвертировать? Указать папку с тысячами файлов и что-бы он сам всё сделал.