Подскажите по регулярным выражениям

FatBoy
На сайте с 03.02.2010
Offline
25
626

Для чистки текстовки пользуюсь скриптом или десктопной программой - (до чего руки быстрее дотянутся:))

Очень часто в текстах попадаются сокращения, типа, "т.к." или "см. стр. такую-то" и после очистки в некоторых предложениях последнее слово получается очень короткое и вообще смотрится "не фонтан". Есть ли регулярное выражение, которое бы позволило удалять предложение в котором последнее слово перед точкой короче четырех символов?

A1
На сайте с 25.05.2010
Offline
25
#1

У тебя текст в чём в юникоде? Делаешь замену "(\s\w{1,3})\." на "." Если у тебя русский язык и не юникод, то можешь попробовать "(\s\S{1,3})\.", но сюда и цифры попадут. Вывод лучше перевести в юникод. А вообще если вопросы будут по парсингу пиши сюда постараюсь помочь.

Если надо выпилить всё предложение то "[^\.!?]+?\s\w{1,3}[\.!?]". Полагаю что не все предложения повествовательные ;)

FatBoy
На сайте с 03.02.2010
Offline
25
#2

Спасибо. Попробую.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий