Распознование текста

121

Seo_nub

13 сентября 2018, 22:54

1047

Добрый день, нужно отсканировать большое кол-во текста.

Использую Fine Reader 12 с задачей он справляется, но есть 2 минуса - это переносы - но их можно поправить уже в ручную. А вот вторая проблема - это пробелы внутри слов , с которой ни как не справится. Их крайне много и в ручную их не сделать, автопроверяльщик орфографии вордовских их не воспринимает как единое слово и им тоже не прогнать будет.

197

outtime

14 сентября 2018, 06:26

#1

Сканируйте с бОльшим разрешением. Будет дольше, зато распознает качественнее.

Либо нанимайте человека, который будет вычиткой заниматься

Предлагаю воспользоваться моими услугами корректора. Проверю и уберу все ошибки, поправлю грамматику и склонения, сделаю текст лучше и читабельнее. Высокая скорость работы, цена 20 р за 1000 символов.

231

treshnyuk

14 сентября 2018, 11:54

#2

Копирайтеры на текстовых биржах сделают дешевле секретарши.

1

61

Viliaes

14 сентября 2018, 12:08

#3

outtime:
Сканируйте с бОльшим разрешением. Будет дольше, зато распознает качественнее.

Либо нанимайте человека, который будет вычиткой заниматься

Мне большее разрешение не помогло ( На 300 dpi ставил ... Больше ставить что-ли? 300 ведь самой оптимальной счтается

Оплата хоста и Paypal https://searchengines.guru/ru/forum/1060969

454

sergv

14 сентября 2018, 12:09

#4

Да у вас у самих пробелы внутри слов

Seo_nub:
в ручную

Seo_nub:
ни как

Так что, вероятно, в вашем случае это не такая уж большая проблема :)

---------- Добавлено 14.09.2018 в 15:10 ----------

Viliaes:
Мне большее разрешение не помогло ( На 300 dpi ставил ... Больше ставить что-ли? 300 ведь самой оптимальной счтается

300 - это большое??? 😕

К 300 больше подходит понятие "стандартное".

Текст я ниже 600 вообще никогда не сканирую, а в большинстве своем проще сразу 1200 выставить. Да, долго получается, зато потом не сидеть над ним пол дня, особенно, если он мелкий был. Но попробуйте 600 - может хватить.

Динамическая монетизация 2.0 в Вы чувствуете себя оскорбленным Адсенс через ИП. Подскажите

138

Анатолий

14 сентября 2018, 16:42

#5

Кстати, сканируйте в градациях серого, а не в черно-белом режиме!

Пишу на любые темы, в т.ч. и на сложные технические (https://t.me/Pisar1). Стоимость: от 100р./1000сп +- Готов рассмотреть Ваши предложения и выполнить небольшое тестовое задание. Примеры моих статей: ------------------- https://dzen.ru/media/pisec/gerwin--eto-iipisec-realnyi-pomoscnik-i-konkurent-dlia-kopiraiterov-63acb833886e17677f48b4b7 https://nag.ru/news/20989 https://nag.ru/material/20822 http://habrahabr.ru/post/254609/

232

cblcg

15 сентября 2018, 18:11

#6

и старайтесь чтобы листы плотно к сканеру прилегали, чтобы не изгибался шрифт, а то а старой работе помню сканировали не закрывая крышку сверху и жаловались что плохо распознает, а оказалось что все строки кривят и иногда четкости не хватало

Система яндекс Online поиск шрифтов. Блока питания ноутбука отключается

514

Алексей Черкасов

15 сентября 2018, 19:16

#7

sergv:
Текст я ниже 600 вообще никогда не сканирую, а в большинстве своем проще сразу 1200 выставить. Да, долго получается, зато потом не сидеть над ним пол дня, особенно, если он мелкий был. Но попробуйте 600 - может хватить

300 точек практически во всех случаях — за глаза. Если текст нормально читается, то с таким разрешением он и распознаётся нормально. А если читается плохо, то увеличение dpi не поможет.

---------- Добавлено 15.09.2018 в 22:17 ----------

cblcg:
старайтесь чтобы листы плотно к сканеру прилегали

Это верно, но если сканер хороший, то не критично.

Выбор сканера А какое разрешение у imagecreatefromjpeg

404

Segey

15 сентября 2018, 19:22

#8

sergv:
К 300 больше подходит понятие "стандартное".

Тут видимо в скорости дело, у меня на сканере вроде 19200 максимум и когда я на нем фото сканировал мне показалось проще будет срисовать за это время маслом на холсте.

Вообще вопрос странный, все что я понимаю в распознании картинок - пробел между буквами это нонсенс. Тут настройки ПО кажется какие-то невнятные, если так получается. В любой книге пробел между буквами в одном слове жестко фиксирован правилами типографскими и такого быть не должно.

Brexit - уже совсем рядом. (https://about-this-model.blogspot.com/2019/03/brexit.html)

вопросы по Adsense: максимум Garant.pro - претензии по Подскажите, правильно ли я

454

sergv

15 сентября 2018, 19:24

#9

:
300 точек практически во всех случаях — за глаза. Если текст нормально читается, то с таким разрешением он и распознаётся нормально. А если читается плохо, то увеличение dpi не поможет.

Не не, если текст мелкий - онли 600. Размер, как говорится, имеет значение :)

На 300 возможна неведомая куча ошибок типа М-Н, Л-А, Л-П (тут в зависимости от шрифтов) Ш-Щ - да куча...

Исключение - свежая, современная, чистая печать.

---------- Добавлено 15.09.2018 в 22:24 ----------

Segey:
у меня на сканере вроде 19200

ух ) такое разрешение будет вечность сканиться ))

Правильный url для яндекса Ручное размещение вечных статей Биткоин готовится к новому

514

Алексей Черкасов

16 сентября 2018, 05:49

#10

sergv:
Не не, если текст мелкий - онли 600

Если пятым кеглем набрано? Да. Часто такие попадаются?

Стандарт для газеты — 8-9 пунктов, для книг — 10-12 пунктов. Сноски мельче — 6-7 пунктов — тоже отлично распознаётся при 300 dpi.

sergv:
тут в зависимости от шрифтов

Если ошибки связаны с особенностями гарнитуры, то большее разрешение поможет мало. Но для этих случаев в файнридере есть функция «Поиск и замена». При обнаружении закономерности прекрасно помогает обрабатывать огромные массивы текста. Я дореформенные книги и газеты распознавал и в полуавтоматическом режиме заменял все яти и т.д. на правильные символы.

Кроме того, файнридер можно «обучать» особенностям шрифтов, я эту функцию несколько раз использовал тоже.

Я уже 20 лет этим занимаюсь практически ежедневно по 3-10 часов, распознанный объём по объёму равен хорошей семейной библиотеке (около 1000 книг). Среди распознанного — несколько годичных подшивок газет начала XX века. Представляете, какое там качество и какой там алфавит? И даже для них 300 точек — за глаза.

---------- Добавлено 16.09.2018 в 08:53 ----------

Газеты, кстати, я вообще переснимал на камеру в режиме пересъёмки документов (повышенный контраст). Прекрасно распознаются с разрешением 72 dpi и общей плотности около 7 мегапикселей на формат ~А5.

работа по обработке текста Типография, оборудование и Linux Нейросеть Яндекса за год

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Все что нужно знать о DDоS-атаках грамотному менеджеру