Программы для качетсвенной обработки текста.

19

Ashina

1 марта 2009, 22:50

754

Здравствуйте. У меня вопрос в первую очередь к тем, кто занимается созданием контента путем сканирования текста. Раньше я покупал контент, теперь нанял человека, который этим занимается. Хочется оптимизировать его работу.

Дело в том что после сканирования и разбора текста ADOBE Reader остается огромное количество переносов, ошибок и прочего мусора. Естественно руками выгребать все это очень долго. Отсюда вопросы:

1) Существует ли программа по чистке текста от переносов, работающая примерно следующим образом: анализ слова -> подбор предполагаемого слова.

2) Какие еще советы по оптимизации работы сканировальщика можете дать?

Акша Туралы (http://akshaturaly.info/) - Сайт о заработке в интернете.

42

gspseo

1 марта 2009, 22:52

#1

Ashina:
Здравствуйте. У меня вопрос в первую очередь к тем, кто занимается созданием контента путем сканирования текста. Раньше я покупал контент, теперь нанял человека, который этим занимается. Хочется оптимизировать его работу.

Дело в том что после сканирования и разбора текста ADOBE Reader остается огромное количество переносов, ошибок и прочего мусора. Естественно руками выгребать все это очень долго. Отсюда вопросы:

1) Существует ли программа по чистке текста от переносов, работающая примерно следующим образом: анализ слова -> подбор предполагаемого слова.

2) Какие еще советы по оптимизации работы сканировальщика можете дать?

А стандартные функции ворда не подходят? Поиск + замена для удаления переносов, Проверка орфографии-(заменить все) для текста

Реклама...

19

Ashina

1 марта 2009, 22:56

#2

А стандартные функции ворда не подходят? Поиск + замена для удаления переносов, Проверка орфографии-(заменить все) для текста

Проверка орфографии - пробовали, слова сильно покалеченные нераспознаются вордом, а так работает.

поиск + замена - приедтся использовать для каждого слова отдельно.

80

Tyomos

1 марта 2009, 23:13

#3

Ashina, ай-ай-ай, нехорошо. Скан запрещён на форуме.Возможно, здесь запрещена лишь его продажа(точно не припомню), но авторские права в любом случае нарушаются

R

174

Reise

1 марта 2009, 23:17

#4

Ashina:
..ADOBE Reader..

А чем FineReader не устраивает?

19

Ashina

1 марта 2009, 23:20

#5

Ashina, ай-ай-ай, нехорошо. Скан запрещён на форуме.Возможно, здесь запрещена лишь его продажа(точно не припомню), но авторские права в любом случае нарушаются

Не знал, спасибо что сказали. Но мы оцифровываем классику, который в интернете нет (кто - нибудь слышал про произведения Шакарима Кудайбердиева в интернете? :) )

А классика как известно вещь такая - тут точность нужна.

А чем FineReader не устраивает?

Его и имел в виду. Просто недописал )

80

Tyomos

1 марта 2009, 23:27

#6

Во что нашёл:☝

О сканировании

Сканирование по Закону считается репродуцированием, что запрещено даже в личных целях.

Распространение сканов в сети Интернет является уголовным преступлением.

Репродуцированные материалы немедленно уничтожаются, а лица, допустившие нарушение, наказываются в соответствии с Правилами SE.

Ссылка на первоисточник:

R3

0

roman3000

2 марта 2009, 06:53

#7

Не совсем согласен с тем, что это должно наказываться. Здесь главное знать цель, если коммерция то да, а если благотворительность то нет. А то под таким девизом и старые здания (архитектурные памятники) не должны реконструироваться.

Меняюсь ссылками Строительство, дизайн, графика. Писать в личку.

SA

11

Sky-art

12 марта 2009, 22:22

#8

если не брать в расчет незаконность сканирования (ведь скан может быть использован в личных целях), расскажу как делал в свое время я. Тоже промышлял когда то сканом.

В общем чтобы не сильно парится с вордом (хотя там все тоже достаточно легко) - тупо копировал текст в вордпад. Там эти ненавистные перевернутые Г видны. Заменой на пустой символ удаляешь эти боковые Г.

Потом кпипаст в ворд.

Все.

Переиграть и победить: как анализировать конкурентов для продвижения сайта

Google: E-E-A-T не является фактором ранжирования