Вывести n строк из файла.

1 234
Lazy Badger
На сайте с 14.06.2017
Offline
228
#31
Ну хоть один вспомнил про 
array_slice()

и то хорошо. А то я просто ржал с индусского кода

А массив предложений делать проще с 

preg_match_all("/.*?[.?!](?:\s|$)/s"
Производство жести методом непрерывного отжига
T7
На сайте с 19.09.2018
Offline
63
#32
silicoid #:
Ловите
#смотрим на последующие символы, в зависимости от (. А) или (. а)

"Масса может быть в кг. -  20 мм. меньше 1 т. и больше  22 км. в час! Нет проверки уппер_кейс после т.н. пробела"

SeVlad
На сайте с 03.11.2008
Offline
1609
#33
timo-71 #:
"Масса может быть в кг. -  20 мм. меньше 1 т. и больше  22 км. в час! Нет проверки уппер_кейс после т.н. пробела"

наименования единиц измерений пишутся без точек.

Делаю хорошие сайты хорошим людям. Предпочтение коммерческим направлениям. Связь со мной через http://wp.me/P3YHjQ-3.
T7
На сайте с 19.09.2018
Offline
63
#34
SeVlad #:
наименования единиц измерений пишутся без точек

Согласен. И 20 мм меньше 1 тонны🙄  Странно все это. 

Буквоед😊

Гипер утрированный намек на точки внутри предложения. Только и всего 

S
На сайте с 13.10.2014
Offline
171
#35
А я тут слегка переработал регэкспу.
$text = preg_replace(['/\R+|\t+|\]|\[/imu', '/\s+/imu', '/(\S)\s\,/imu', '/^\s+/imu', '/(\.+|\?+|\!+)(\s+)([A-Z|А-Я|\-]+)/u' ],['', ' ', '$1,', '', '$1$2{:separate:}$3'], $text);

Она теперь удаляет пробелы перед запятой (запятая не должна отбиваться от текста) Ну и исправил тему с точкой в середине предложения.
пример такого текста с "левой" точкой может быть  "Новости, статьи и т.д. должны быть переименованы!"
делилка на устойчивые сокращения срабатывать не должна.

В самом начале, также выпиливаются квадратные скобки.
дело в том, что я тестирую этого "желтого полосатика" на Войне и Мире и там море сносок, обернутых в квадратные скобки.

S
На сайте с 13.10.2014
Offline
171
#36

Но тут возник еще один вопрос. Если у нас есть прямая речь, состоящая из двух предложений, например:

В записочках, разосланных утром с красным лакеем, было написано без различия во всех: "Si vous n'avez rien de mieux a faire, M. le comte (или mon prince), et si la perspective de passer la soiree chez une pauvre malade ne vous effraye pas trop, je serai charmee de vous voir chez moi entre 7 et 10 heures. Annette Scherer".


то по-хорошему, пилить внутри прямой речи текст нельзя

S
На сайте с 13.10.2014
Offline
171
#37
Потестил на полном томе Войны и мира. Работает достаточно шустро. Текстовый файл в 1.21Мегабайта, содержащий 8003 предложения, деребанит примерно за 0.06 секунды на PHP 7.0
D
На сайте с 01.01.2016
Offline
43
#38

можно потеряться))

какой итоговый код, то? 

Пусто...
S
На сайте с 13.10.2014
Offline
171
#39
Drinktea #:

можно потеряться))

какой итоговый код, то? 

https://searchengines.guru/ru/forum/1036230/page3#comment_16532933

но надо заменить одну строку  отсюда:
https://searchengines.guru/ru/forum/1036230/page4#comment_16532962

HM
На сайте с 14.01.2012
Offline
249
#40
vanderlee/php-sentence
vanderlee/php-sentence
  • vanderlee
  • github.com
Copyright © 2016-2019 Martijn van der Lee (@vanderlee), parts copyright © 2017 @marktaw. MIT Open Source license applies. Introduction PHP natural language sentence segmentation (splitting) and counting. Sentence boundary disambiguation. Still early, but should support most western languages. If you find any problems, please let me know...
1 234

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий