Проблема с извлечением текст файлов из rar архива

I
На сайте с 14.10.2008
Offline
190
1413

Запостил в курилке, но там видимо мало кто плотно с текстами работает, может здесь кто поможет.

Есть rar архив в нем много текст файлов на португальском языке, кодировка скорее всего utf-8, как только текст извлекаю из архива он сразу становится ansi, а в ansi португальский текст нельзя конвертить так как некоторые буквы крякозябрами становятся. Пробовал сразу из архива в notepad перетаскивать, но один чёрт ansi выходит, настройки там в notepad по разному ставил, все равно не выходит utf-8. Только ворд кодировку различил и правильно открыл текст, но текстов то много и всё их надо открыть и объединить в один текст файл utf-8, в ворде так не выходит. Может кто то подскажет, как их открыть и объединить всё таки?

До этого парсил текст португальский, норм открывался в notepad. Попробовал в винде поставить поддержку языков дополнительных, но один чёрт не помогает, хз может и не там настраивал конечно, но больше там в винде не нашел языковых настроек.

Может кто то подскажет, как их открыть и объединить всё таки?

📝 Нейро Тексты для сайтов, быстро, дешево и качественно 👉 https://bit.ly/xgptwriter 👈 | ►►► ✔100% загон в индекс ГУГЛА — Быстро и Недорого 👉 https://bit.ly/Link_index 💡 Проверено лично 2024 👍
response
На сайте с 01.12.2004
Offline
324
#1
igoreff:

Есть rar архив в нем много текст файлов на португальском языке, кодировка скорее всего utf-8, как только текст извлекаю из архива он сразу становится ansi, а в ansi португальский текст нельзя конвертить так как некоторые буквы крякозябрами становятся.

Рар работает с файлами как с бинарными данными, дело не в архиваторе, а в том, как и чем смотрите. Проверить можно по размеру несжатого файла, указанного архиватором, и фактическому размеру после распаковки. Может в архив уже "неправильные" файлы попали?

igoreff:
До этого парсил текст португальский, норм открывался в notepad. Попробовал в винде поставить поддержку языков дополнительных, но один чёрт не помогает, хз может и не там настраивал конечно, но больше там в винде не нашел языковых настроек.

Вот сам ищу, не находится что-то - была там такая галочка, типа поддержка расширенного набора кодировок _в программах_. Без нее на нулевой винде иногда глюки подобные. А вообще, скачать FAR и посмотреть по F4 им. По Shift+F8, кажется, там кодировку выбирать явно. Даже в Notepad++ иногда непонятно почему кодировка не переключается, а в фаре все железно.

Однопоточный парсер ключевых слов Магадан (http://magadanparser.ru) (со свистелками) Многопоточный парсер ключевых слов Солнечный (http://sunnyparser.ru) (без свистелок)
DV
На сайте с 01.05.2010
Offline
644
#2

На расстоянии не видно, где у вас затык.

VDS хостинг ( http://clck.ru/0u97l ) Нет нерешаемых задач ( https://searchengines.guru/ru/forum/806725 ) | Перенос сайтов на Drupal 7 с любых CMS. ( https://searchengines.guru/ru/forum/531842/page6#comment_10504844 )
I
На сайте с 14.10.2008
Offline
190
#3

response, скачал я FAR, но туда то с архива сразу текст не перетянешь, а если на винду сначала перекидывать то текст там уже в ansi, потом бесполезно кодировку менять, короче надо такую прогу в которую можно сразу с архива тексты перетащить с правильной кодировкой, ну и сохранить пакетно или объединить.

В винде только вот такое нашел, больше фиг его знает где и что искать.

DV
На сайте с 01.05.2010
Offline
644
#4

igoreff, по-моему, вы чего-то недопонимаете в тех процессах, которые провоцируете.

Кодировка файлов не может измениться при извлечении. Открытие файлов в архиве = извлечение во временную директорию и открытию там.

I
На сайте с 14.10.2008
Offline
190
#5

Так я и не спорю, что недопонимаю этот процесс, потому и спрашиваю.

DenisVS:
igoreffКодировка файлов не может измениться при извлечении. Открытие файлов в архиве = извлечение во временную директорию и открытию там.

Насчёт этого могу одно сказать, во первых, тексты на португальском языке, скачаны с зарубежного сайта, причём несколько раз из разных мест и разные тексты пробовал, а ansi там никак не может быть, так как текст тогда плохо читаем, да и по названиям текстов в архиве видать, что там не ansi кодировка. Во вторых, в Ворде открывался норм текст, значит там не ansi кодировка.

Вот скрин архива на всякий случай, где видать буквы не стандартные, я их подчеркнул

DV
На сайте с 01.05.2010
Offline
644
#6

1. Имена файлов не влияют на их содержимое.

2. Откройте в нормальном блокноте после извлечения. notepad.exe это породия на блокнот.

I
На сайте с 14.10.2008
Offline
190
#7

Короче разобрался, кодировка там западно европейская ISO-8859-1 оказалась и просто после распаковки из ansi можно без потерь в эту кодировку сконвертировать и выходит норм текст. Не понятно только почему нигде сразу в этой кодировке текст не открывался, в нескольких разных блокнотах пробовал, всем спасибо за помощь и подсказки.

Dos3
На сайте с 07.01.2011
Offline
363
#8
DenisVS:
Откройте в нормальном блокноте после извлечения. notepad.exe это породия на блокнот.

он имел ввиду Notepad2

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий