Программы для качетсвенной обработки текста.

Ashina
На сайте с 17.05.2008
Offline
19
741

Здравствуйте. У меня вопрос в первую очередь к тем, кто занимается созданием контента путем сканирования текста. Раньше я покупал контент, теперь нанял человека, который этим занимается. Хочется оптимизировать его работу.

Дело в том что после сканирования и разбора текста ADOBE Reader остается огромное количество переносов, ошибок и прочего мусора. Естественно руками выгребать все это очень долго. Отсюда вопросы:

1) Существует ли программа по чистке текста от переносов, работающая примерно следующим образом: анализ слова -> подбор предполагаемого слова.

2) Какие еще советы по оптимизации работы сканировальщика можете дать?

Акша Туралы (http://akshaturaly.info/) - Сайт о заработке в интернете.
gspseo
На сайте с 01.10.2007
Offline
42
#1
Ashina:
Здравствуйте. У меня вопрос в первую очередь к тем, кто занимается созданием контента путем сканирования текста. Раньше я покупал контент, теперь нанял человека, который этим занимается. Хочется оптимизировать его работу.

Дело в том что после сканирования и разбора текста ADOBE Reader остается огромное количество переносов, ошибок и прочего мусора. Естественно руками выгребать все это очень долго. Отсюда вопросы:

1) Существует ли программа по чистке текста от переносов, работающая примерно следующим образом: анализ слова -> подбор предполагаемого слова.

2) Какие еще советы по оптимизации работы сканировальщика можете дать?

А стандартные функции ворда не подходят? Поиск + замена для удаления переносов, Проверка орфографии-(заменить все) для текста

Реклама...
Ashina
На сайте с 17.05.2008
Offline
19
#2
А стандартные функции ворда не подходят? Поиск + замена для удаления переносов, Проверка орфографии-(заменить все) для текста

Проверка орфографии - пробовали, слова сильно покалеченные нераспознаются вордом, а так работает.

поиск + замена - приедтся использовать для каждого слова отдельно.

Tyomos
На сайте с 13.05.2008
Offline
80
#3

Ashina, ай-ай-ай, нехорошо. Скан запрещён на форуме.Возможно, здесь запрещена лишь его продажа(точно не припомню), но авторские права в любом случае нарушаются

R
На сайте с 22.06.2007
Offline
174
#4
Ashina:
..ADOBE Reader..

А чем FineReader не устраивает?

Ashina
На сайте с 17.05.2008
Offline
19
#5
Ashina, ай-ай-ай, нехорошо. Скан запрещён на форуме.Возможно, здесь запрещена лишь его продажа(точно не припомню), но авторские права в любом случае нарушаются

Не знал, спасибо что сказали. Но мы оцифровываем классику, который в интернете нет (кто - нибудь слышал про произведения Шакарима Кудайбердиева в интернете? :) )

А классика как известно вещь такая - тут точность нужна.

А чем FineReader не устраивает?

Его и имел в виду. Просто недописал )

Tyomos
На сайте с 13.05.2008
Offline
80
#6

Во что нашёл:☝

О сканировании

Сканирование по Закону считается репродуцированием, что запрещено даже в личных целях.

Распространение сканов в сети Интернет является уголовным преступлением.

Репродуцированные материалы немедленно уничтожаются, а лица, допустившие нарушение, наказываются в соответствии с Правилами SE.

Ссылка на первоисточник:

R3
На сайте с 26.02.2009
Offline
0
#7

Не совсем согласен с тем, что это должно наказываться. Здесь главное знать цель, если коммерция то да, а если благотворительность то нет. А то под таким девизом и старые здания (архитектурные памятники) не должны реконструироваться.

Меняюсь ссылками Строительство, дизайн, графика. Писать в личку.
SA
На сайте с 03.03.2009
Offline
11
#8

если не брать в расчет незаконность сканирования (ведь скан может быть использован в личных целях), расскажу как делал в свое время я. Тоже промышлял когда то сканом.

В общем чтобы не сильно парится с вордом (хотя там все тоже достаточно легко) - тупо копировал текст в вордпад. Там эти ненавистные перевернутые Г видны. Заменой на пустой символ удаляешь эти боковые Г.

Потом кпипаст в ворд.

Все.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий