Распознование текста

SN
На сайте с 09.08.2012
Offline
104
986

Добрый день, нужно отсканировать большое кол-во текста.

Использую Fine Reader 12 с задачей он справляется, но есть 2 минуса - это переносы - но их можно поправить уже в ручную. А вот вторая проблема - это пробелы внутри слов , с которой ни как не справится. Их крайне много и в ручную их не сделать, автопроверяльщик орфографии вордовских их не воспринимает как единое слово и им тоже не прогнать будет.

outtime
На сайте с 04.05.2008
Offline
198
#1

Сканируйте с бОльшим разрешением. Будет дольше, зато распознает качественнее.

Либо нанимайте человека, который будет вычиткой заниматься

Предлагаю воспользоваться моими услугами корректора. Проверю и уберу все ошибки, поправлю грамматику и склонения, сделаю текст лучше и читабельнее. Высокая скорость работы, цена 20 р за 1000 символов.
treshnyuk
На сайте с 17.02.2013
Offline
222
#2

Копирайтеры на текстовых биржах сделают дешевле секретарши.

Viliaes
На сайте с 04.02.2018
Offline
22
#3
outtime:
Сканируйте с бОльшим разрешением. Будет дольше, зато распознает качественнее.

Либо нанимайте человека, который будет вычиткой заниматься

Мне большее разрешение не помогло ( На 300 dpi ставил ... Больше ставить что-ли? 300 ведь самой оптимальной счтается

Переводы от носителя испанского, английского, румынского языков со знаниями SEO и crowd-маркетинга /ru/forum/1016371 (/ru/forum/1016371)
sergv
На сайте с 13.04.2006
Offline
286
#4

Да у вас у самих пробелы внутри слов

Seo_nub:
в ручную
Seo_nub:
ни как

Так что, вероятно, в вашем случае это не такая уж большая проблема :)

---------- Добавлено 14.09.2018 в 15:10 ----------

Viliaes:
Мне большее разрешение не помогло ( На 300 dpi ставил ... Больше ставить что-ли? 300 ведь самой оптимальной счтается

300 - это большое??? 😕

К 300 больше подходит понятие "стандартное".

Текст я ниже 600 вообще никогда не сканирую, а в большинстве своем проще сразу 1200 выставить. Да, долго получается, зато потом не сидеть над ним пол дня, особенно, если он мелкий был. Но попробуйте 600 - может хватить.

Продвигай свои сайты на MainLink (http://mailink.ru) Регистрация и продление доменов в российских и международных зонах по честным ценам без звездочек. (https://RegHome.ru) (R01, WebNames, UK2). Принимаем WMR, WMP, ЯД, Visa, MasterCard, Мир
tolika
На сайте с 13.03.2009
Offline
116
#5

Кстати, сканируйте в градациях серого, а не в черно-белом режиме!

Первый онлайн заём под 0% до 15 дней. До 15000 рублей. (https://vk.cc/avyWFG) ТЕКСТЫ для экономных SEO-мастеров и РАБОТА для начинающих копирайтеров. (http://www.etxt.ru/?r=anatol)
cblcg
На сайте с 28.06.2012
Online
231
#6

и старайтесь чтобы листы плотно к сканеру прилегали, чтобы не изгибался шрифт, а то а старой работе помню сканировали не закрывая крышку сверху и жаловались что плохо распознает, а оказалось что все строки кривят и иногда четкости не хватало

Высокие ставки в 3snet на офферы букмекеров, казино, форекс, дейтинг, займы. ( https://my.3snet.co/signup )
<!--WEB-->
На сайте с 25.01.2009
Offline
517
#7
sergv:
Текст я ниже 600 вообще никогда не сканирую, а в большинстве своем проще сразу 1200 выставить. Да, долго получается, зато потом не сидеть над ним пол дня, особенно, если он мелкий был. Но попробуйте 600 - может хватить

300 точек практически во всех случаях — за глаза. Если текст нормально читается, то с таким разрешением он и распознаётся нормально. А если читается плохо, то увеличение dpi не поможет.

---------- Добавлено 15.09.2018 в 22:17 ----------

cblcg:
старайтесь чтобы листы плотно к сканеру прилегали

Это верно, но если сканер хороший, то не критично.

Проверяю позиции сайта в сервисе Серпхант ( https://serphunt.ru ) – быстро, качественно, доступно! Почему я не всем отвечаю ( )
Segey
На сайте с 23.08.2005
Offline
404
#8
sergv:
К 300 больше подходит понятие "стандартное".

Тут видимо в скорости дело, у меня на сканере вроде 19200 максимум и когда я на нем фото сканировал мне показалось проще будет срисовать за это время маслом на холсте.

Вообще вопрос странный, все что я понимаю в распознании картинок - пробел между буквами это нонсенс. Тут настройки ПО кажется какие-то невнятные, если так получается. В любой книге пробел между буквами в одном слове жестко фиксирован правилами типографскими и такого быть не должно.

Brexit - уже совсем рядом. (https://about-this-model.blogspot.com/2019/03/brexit.html)
sergv
На сайте с 13.04.2006
Offline
286
#9
<!--WEB-->:
300 точек практически во всех случаях — за глаза. Если текст нормально читается, то с таким разрешением он и распознаётся нормально. А если читается плохо, то увеличение dpi не поможет.

Не не, если текст мелкий - онли 600. Размер, как говорится, имеет значение :)

На 300 возможна неведомая куча ошибок типа М-Н, Л-А, Л-П (тут в зависимости от шрифтов) Ш-Щ - да куча...

Исключение - свежая, современная, чистая печать.

---------- Добавлено 15.09.2018 в 22:24 ----------

Segey:
у меня на сканере вроде 19200

ух ) такое разрешение будет вечность сканиться ))

<!--WEB-->
На сайте с 25.01.2009
Offline
517
#10
sergv:
Не не, если текст мелкий - онли 600

Если пятым кеглем набрано? Да. Часто такие попадаются?

Стандарт для газеты — 8-9 пунктов, для книг — 10-12 пунктов. Сноски мельче — 6-7 пунктов — тоже отлично распознаётся при 300 dpi.

sergv:
тут в зависимости от шрифтов

Если ошибки связаны с особенностями гарнитуры, то большее разрешение поможет мало. Но для этих случаев в файнридере есть функция «Поиск и замена». При обнаружении закономерности прекрасно помогает обрабатывать огромные массивы текста. Я дореформенные книги и газеты распознавал и в полуавтоматическом режиме заменял все яти и т.д. на правильные символы.

Кроме того, файнридер можно «обучать» особенностям шрифтов, я эту функцию несколько раз использовал тоже.

Я уже 20 лет этим занимаюсь практически ежедневно по 3-10 часов, распознанный объём по объёму равен хорошей семейной библиотеке (около 1000 книг). Среди распознанного — несколько годичных подшивок газет начала XX века. Представляете, какое там качество и какой там алфавит? И даже для них 300 точек — за глаза.

---------- Добавлено 16.09.2018 в 08:53 ----------

Газеты, кстати, я вообще переснимал на камеру в режиме пересъёмки документов (повышенный контраст). Прекрасно распознаются с разрешением 72 dpi и общей плотности около 7 мегапикселей на формат ~А5.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий