Автоматическая расстановка знаков препинания (пунктуации) в полотне тексте без единого знака препинания

А
На сайте с 08.08.2018
Offline
30
9081

Добрый день.

Имеем большое кол-во текста (очень большое) без знаков препинания, просто полотно текста. Объем каждого текста 5-10к символов. Ищу сервис/программу/скрипт который позволит автоматически расставить в них знаки препинания (подойдет и с ошибками, лишь бы в самых банальных/распространенных случаях знаки препинания были расставлены. Конечно, чем более качественное решение - тем лучше). Нужна возможность автоматизации, т.е. не в ворд вставлять руками текст и править, потом куда-то копировать. А возможность на каком-либо языке программирования запустить это дело в поток. Т.е. на входе имеем полотно текста -> на выходе этот же текст с расставленными знаками препинания. Желательно на php/js, но не принципиально, можно на любом языке, лишь бы скрипт или набор решений -> собственно выдавал то что нужно.

Практически все сервисы рассмотрены, наподобие:

textis.ru -> выдает подсказки и большинство случаев это выглядит так: здесь много n, возможно пропущены запятые.

text.ru -> аналогично

orfogrammka.ru -> учитывая что объемы в миллиардах знаках, выходит дороговато(

russiancorrector.com -> аналогично 1му

languagetool.org -> аналогично 1му

и т.д.

Программы/скрипты практически не рассматривал, т.к. не нашел толковые. Возможно есть библиотеки готовые на каком-либо языке программирования?

Поделитесь, пожалуйста, Вашим мнением как можно решить эту задачу

ДП
На сайте с 23.11.2009
Offline
203
#1

Если из самого банального - я бы попробовал ставить запятые перед словами "а","но","который", т.е. банальная автозамена " а" на ", а". Но вот как быть с точками - тут у меня вариантов нет.

А
На сайте с 08.08.2018
Offline
30
#2
Дикий пионер:
Если из самого банального - я бы попробовал ставить запятые перед словами "а","но","который", т.е. банальная автозамена " а" на ", а". Но вот как быть с точками - тут у меня вариантов нет.

https://sinoni.men/ - вот этот сервис расставляет точки и запятые, если в качестве оригинала вставить полотно текста без знаков препинания. У Вас нету мыслей какую программу/библиотеку они могут использовать?

SeVlad
На сайте с 03.11.2008
Offline
1609
#3
Арген:
автоматически расставить в них знаки препинания (подойдет и с ошибками, лишь бы в самых банальных/распространенных случаях знаки препинания были расставлены.

казнить нельзя помиловать

:)

Делаю хорошие сайты хорошим людям. Предпочтение коммерческим направлениям. Связь со мной через http://wp.me/P3YHjQ-3.
Алеандр
На сайте с 08.12.2010
Offline
183
#4
Арген:
https://sinoni.men/ - вот этот сервис расставляет точки и запятые, если в качестве оригинала вставить полотно текста без знаков препинания. У Вас нету мыслей какую программу/библиотеку они могут использовать?

Не думаю, что есть такие готовые библиотеки в общем доступе. Есть, конечно, всякие морфологические и синонимические базовые, но они давно известны и написаны в то время, когда больше думали о реализации интересного, чем о славе и деньгах. Сейчас такие библиотеки никто в открытый доступ не выложит, а сделает сервис и будет на нем зарабатывать.

Боюсь, что в вашем случае вариантов немного: или платные сервисы или же - заказывать индивидуальный алгоритм. Учитывая, что вам не нужна большая точность - вполне допускаю, что можно написать по определенным правилам и каким-то базовым исключениям, но дешево это стоить тоже не будет.

Lazy Badger
На сайте с 14.06.2017
Offline
231
#5

Корректора-человека не пробовали подумать пригласить? Если только пунктуация - то это быстро и недорого относительно

Производство жести методом непрерывного отжига
А
На сайте с 08.08.2018
Offline
30
#6
LazyBadger:
Корректора-человека не пробовали подумать пригласить? Если только пунктуация - то это быстро и недорого относительно

Объемы слишком большие. И из-за этого в конечном итоге либо будет слишком долго, либо дорого

---------- Добавлено 16.07.2019 в 21:41 ----------

Алеандр:
Не думаю, что есть такие готовые библиотеки в общем доступе. Есть, конечно, всякие морфологические и синонимические базовые, но они давно известны и написаны в то время, когда больше думали о реализации интересного, чем о славе и деньгах. Сейчас такие библиотеки никто в открытый доступ не выложит, а сделает сервис и будет на нем зарабатывать.

Боюсь, что в вашем случае вариантов немного: или платные сервисы или же - заказывать индивидуальный алгоритм. Учитывая, что вам не нужна большая точность - вполне допускаю, что можно написать по определенным правилам и каким-то базовым исключениям, но дешево это стоить тоже не будет.

Примерно можете сориентировать, пожалуйста? Дешево / дорого понятие относительное и слишком абстрактное

---------- Добавлено 16.07.2019 в 21:41 ----------

LazyBadger:
Корректора-человека не пробовали подумать пригласить? Если только пунктуация - то это быстро и недорого относительно

Хотя возможно я не в теме. Сколько человек будет брать за 1к символов и сколько будет у него занимать в среднем обработка текста скажем 10к символов?

Lazy Badger
На сайте с 14.06.2017
Offline
231
#7
Арген:
Сколько человек будет брать за 1к символов и сколько будет у него занимать в среднем обработка текста скажем 10к символов?

Точных цен не скажу, но:

- полноценный корректор, который кроме пунктуации, правит все, что не относится к литредатированию, по старорежимным нормативам делал 5 а.л. в рабочий день (это порядка 200 000 знаков), на чисто пунктуации может быть и больше

- цена на полноценную корректуру, т.е. исправление опечаток, пунктуационных и орфографических ошибок (которая вам и не нужна - или все же нужна будет?) в месте, исполнителям которого я доверяю - "свыше 100 стр. - 75 р/страница" ("страница" - 1800 знаков /с пробелами, кому важно/), пунктуационная корректура соответственно еще дешевле (но не десятка за килознак все же)

Сколько будет занимать - могу поставить эксперимент (честный) на себе: читаю я быстро, над ошибками не задумываюсь (я просто знаю, как правильно), кто-то в среднем может и быстрее меня это делать, но +- немного. Студентам и школоте пунктуацию в любом случае отдавать нельзя - они может и реактивнее, но вот с "катастрофой пунктуации" уже ничего не поделать - она состоялась

Samail
На сайте с 10.05.2007
Offline
361
#8
Арген:
Сколько человек будет брать за 1к символов и сколько будет у него занимать в среднем обработка текста скажем 10к символов?

Ну явно же дороже и дольше чем:

Арген:
orfogrammka.ru -> учитывая что объемы в миллиардах знаках, выходит дороговато(

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий