Технический вопрос по MS Word

юни
На сайте с 01.11.2005
Offline
933
524

поэтому - сюда.

Есть текстовый файл на русском, в котором около 0,5% составляют разноязычне термины. Проблема в следующем: часть русских слов содержит визуально похожие латинские символы. Задача: привести все русские слова в надлежащий вид, не затронув при этом терминов на латиннице.

Встроенные средства подобного не позволяют (во всём документе можно поменять только отдельные пары-тройки символов (единичные нельзя - затронутся иностранные термины), а их ещё нужно найти).

Есть решения? Вручную долго, в документе около полумиллиона знаков.

https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
gerkon
На сайте с 21.10.2005
Offline
40
#1

Теоретически - если простой текст - можно прогнать по пхп скрипту, который при наличии русских букв и английских в слове заменит на нужное.

Можно посмотреть в сторону OpenOffice - там вроде есть поиск по регулярным выражениям.

Если просто текст и не секретный - стукните 323918 - вечерком попробую помучать известные программы.

C уважением, Андрей. Пользуюсь этим хостингом уже 4 года! (http://www.replay.ru/index.php?part_id=3600) Ведущий манул Pixshock.net (http://www.pixshock.net)
moldu
На сайте с 27.04.2006
Offline
432
#2

юни, а поменять все визуально похожие буквы на кириллицу, а потом проверить орфографию? Количество различных иностранных терминов какое?

Глаза боятся, а руки-крюки.
юни
На сайте с 01.11.2005
Offline
933
#3

moldu, проверять, опять же, вручную придётся, да и затыкается ворд на таком количестве ("слишком много ошибок в документе").

И 1) где взять список всех визуально похожих символов (нужно ещё разницу в регистрах учесть) и 2) как потом заставить ворд разом их все заменить? По CTRL+F?

gerkon, не найдём решения здесь - постучу.

gerkon
На сайте с 21.10.2005
Offline
40
#4

Хорошо. Скиньте если несложно в ЛС кусочек текста с примерами содержания латинских букв в русских словах - просто уже самому интересно алгоритм на пхп написать для таких случаев.

moldu
На сайте с 27.04.2006
Offline
432
#5
юни:
moldu, проверять, опять же, вручную придётся, да и затыкается ворд на таком количестве ("слишком много ошибок в документе").

И 1) где взять список всех визуально похожих символов (нужно ещё разницу в регистрах учесть) и 2) как потом заставить ворд разом их все заменить? По CTRL+F?

Орфографию проверять - после замены, ошибок будет по-любому меньше.

Список - не знаю, я всегда по алфавиту действую А, В, Д?, Е, З? и т.д., но у тебя сложнее, у тебя еще и РеГиСтР букв может существовать роль. ;)

Разом - только если скрипт или макрос писать

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий