Распознование текста

SN
На сайте с 09.08.2012
Offline
121
999

Добрый день, нужно отсканировать большое кол-во текста.

Использую Fine Reader 12 с задачей он справляется, но есть 2 минуса - это переносы - но их можно поправить уже в ручную. А вот вторая проблема - это пробелы внутри слов , с которой ни как не справится. Их крайне много и в ручную их не сделать, автопроверяльщик орфографии вордовских их не воспринимает как единое слово и им тоже не прогнать будет.

outtime
На сайте с 04.05.2008
Offline
197
#1

Сканируйте с бОльшим разрешением. Будет дольше, зато распознает качественнее.

Либо нанимайте человека, который будет вычиткой заниматься

Предлагаю воспользоваться моими услугами корректора. Проверю и уберу все ошибки, поправлю грамматику и склонения, сделаю текст лучше и читабельнее. Высокая скорость работы, цена 20 р за 1000 символов.
treshnyuk
На сайте с 17.02.2013
Offline
231
#2

Копирайтеры на текстовых биржах сделают дешевле секретарши.

Viliaes
На сайте с 04.02.2018
Offline
40
#3
outtime:
Сканируйте с бОльшим разрешением. Будет дольше, зато распознает качественнее.

Либо нанимайте человека, который будет вычиткой заниматься

Мне большее разрешение не помогло ( На 300 dpi ставил ... Больше ставить что-ли? 300 ведь самой оптимальной счтается

Оплата хоста и Paypal https://searchengines.guru/ru/forum/1060969
sergv
На сайте с 13.04.2006
Offline
420
#4

Да у вас у самих пробелы внутри слов

Seo_nub:
в ручную
Seo_nub:
ни как

Так что, вероятно, в вашем случае это не такая уж большая проблема :)

---------- Добавлено 14.09.2018 в 15:10 ----------

Viliaes:
Мне большее разрешение не помогло ( На 300 dpi ставил ... Больше ставить что-ли? 300 ведь самой оптимальной счтается

300 - это большое??? 😕

К 300 больше подходит понятие "стандартное".

Текст я ниже 600 вообще никогда не сканирую, а в большинстве своем проще сразу 1200 выставить. Да, долго получается, зато потом не сидеть над ним пол дня, особенно, если он мелкий был. Но попробуйте 600 - может хватить.

https://REGHOME.ru - регистрация и продление доменов от 169₽ в российских и международных зонах по честным ценам без звездочек. (R01, WebNames, UK2). Принимаем Ю-Money, Visa, MasterCard, Мир
Анатолий
На сайте с 13.03.2009
Offline
138
#5

Кстати, сканируйте в градациях серого, а не в черно-белом режиме!

Пишу на любые темы, в т.ч. и на сложные технические (https://t.me/Pisar1). Стоимость: от 100р./1000сп +- Готов рассмотреть Ваши предложения и выполнить небольшое тестовое задание. Примеры моих статей: ------------------- https://dzen.ru/media/pisec/gerwin--eto-iipisec-realnyi-pomoscnik-i-konkurent-dlia-kopiraiterov-63acb833886e17677f48b4b7 https://nag.ru/news/20989 https://nag.ru/material/20822 http://habrahabr.ru/post/254609/
cblcg
На сайте с 28.06.2012
Offline
232
#6

и старайтесь чтобы листы плотно к сканеру прилегали, чтобы не изгибался шрифт, а то а старой работе помню сканировали не закрывая крышку сверху и жаловались что плохо распознает, а оказалось что все строки кривят и иногда четкости не хватало

Алексей Черкасов
На сайте с 25.01.2009
Offline
514
#7
sergv:
Текст я ниже 600 вообще никогда не сканирую, а в большинстве своем проще сразу 1200 выставить. Да, долго получается, зато потом не сидеть над ним пол дня, особенно, если он мелкий был. Но попробуйте 600 - может хватить

300 точек практически во всех случаях — за глаза. Если текст нормально читается, то с таким разрешением он и распознаётся нормально. А если читается плохо, то увеличение dpi не поможет.

---------- Добавлено 15.09.2018 в 22:17 ----------

cblcg:
старайтесь чтобы листы плотно к сканеру прилегали

Это верно, но если сканер хороший, то не критично.

Отдаю даром хорошие книги — https://author.today/post/499024
Segey
На сайте с 23.08.2005
Offline
404
#8
sergv:
К 300 больше подходит понятие "стандартное".

Тут видимо в скорости дело, у меня на сканере вроде 19200 максимум и когда я на нем фото сканировал мне показалось проще будет срисовать за это время маслом на холсте.

Вообще вопрос странный, все что я понимаю в распознании картинок - пробел между буквами это нонсенс. Тут настройки ПО кажется какие-то невнятные, если так получается. В любой книге пробел между буквами в одном слове жестко фиксирован правилами типографскими и такого быть не должно.

Brexit - уже совсем рядом. (https://about-this-model.blogspot.com/2019/03/brexit.html)
sergv
На сайте с 13.04.2006
Offline
420
#9
<!--WEB-->:
300 точек практически во всех случаях — за глаза. Если текст нормально читается, то с таким разрешением он и распознаётся нормально. А если читается плохо, то увеличение dpi не поможет.

Не не, если текст мелкий - онли 600. Размер, как говорится, имеет значение :)

На 300 возможна неведомая куча ошибок типа М-Н, Л-А, Л-П (тут в зависимости от шрифтов) Ш-Щ - да куча...

Исключение - свежая, современная, чистая печать.

---------- Добавлено 15.09.2018 в 22:24 ----------

Segey:
у меня на сканере вроде 19200

ух ) такое разрешение будет вечность сканиться ))

Алексей Черкасов
На сайте с 25.01.2009
Offline
514
#10
sergv:
Не не, если текст мелкий - онли 600

Если пятым кеглем набрано? Да. Часто такие попадаются?

Стандарт для газеты — 8-9 пунктов, для книг — 10-12 пунктов. Сноски мельче — 6-7 пунктов — тоже отлично распознаётся при 300 dpi.

sergv:
тут в зависимости от шрифтов

Если ошибки связаны с особенностями гарнитуры, то большее разрешение поможет мало. Но для этих случаев в файнридере есть функция «Поиск и замена». При обнаружении закономерности прекрасно помогает обрабатывать огромные массивы текста. Я дореформенные книги и газеты распознавал и в полуавтоматическом режиме заменял все яти и т.д. на правильные символы.

Кроме того, файнридер можно «обучать» особенностям шрифтов, я эту функцию несколько раз использовал тоже.

Я уже 20 лет этим занимаюсь практически ежедневно по 3-10 часов, распознанный объём по объёму равен хорошей семейной библиотеке (около 1000 книг). Среди распознанного — несколько годичных подшивок газет начала XX века. Представляете, какое там качество и какой там алфавит? И даже для них 300 точек — за глаза.

---------- Добавлено 16.09.2018 в 08:53 ----------

Газеты, кстати, я вообще переснимал на камеру в режиме пересъёмки документов (повышенный контраст). Прекрасно распознаются с разрешением 72 dpi и общей плотности около 7 мегапикселей на формат ~А5.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий