- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Переиграть и победить: как анализировать конкурентов для продвижения сайта
С помощью Ahrefs
Александр Шестаков
да текстовку анг он почистить хочет
про удаление он не про регулярку отдельно, а про функцию говорит
не забивай человеку мозг
про удаление он не про регулярку отдельно, а про функцию говорит
не забивай человеку мозг
Если не нужна выборка, а только проверка по шаблону используются начало и конец строки ^$
посоветуйте хорошую пп, без з****=)
буду рефом, давно не делал доры решил вернутся
Teasernet.com
Если не нужна выборка, а только проверка по шаблону используются начало и конец строки ^$
не проверка, а удаление лишних символов
нахера тут начало и конец строки если текст весь в одну строку
любишь ты даипаться 😂
не проверка, а удаление лишних символов
Не удаление, а отбор символов, соответствующих выражению.
Я просто не понимаю, что вам даст такой массив на выходе?
причём тут массив, вот чего ему надо
echo preg_replace("#[^a-z0-9_ .,\?]#i", "", "_Snake_умничает-блять)))");
Что то типо такого, должно выбрать нормализованные предложения. Не идеально конечно, можно допиливать и допиливать, но под пивасик сойдёт 🍿
preg_match_all('/[A-Z][a-z]{0,19}(?: |,?){1,3}(?:[A-z]{1,20}(?: |,|-){1,3}){4,60}[A-z]{2,20}(?:\.|\?|!)/u',$file, $match);
file_put_contents(__DIR__.'/2.txt', implode("\n",array_unique ($match[0])));
как сказал Dos3, мне просто надо почистить текстовку англ. от ненужных символов и русских букв)
раньше скриптом этим чистил ру, вот и спросил как переделать, чтобы чистить англ)
_Snake_, такой вопрос, как почистить окончания строк, от "и." ",но" итд, не зная заранее кодировки этого текста ? т.е разная кодировка :)
не зная заранее кодировки этого текста ? т.е разная кодировка :)
Ну насчёт кодировки это извечная проблема. Криво работает детекст в php... Но в данном случае, насчёт этого не стоит заморачиваться, т.к текст будет браться из файла, а кодировку файла указываешь уже ты. Т.ч весь текст там будет одной кодировки. Можешь сделать чекбок, добавляющий/убирающий модификтор "u", если он тебя смущает :)
_Snake_, такой вопрос, как почистить окончания строк, от "и." ",но" итд
Если ты ссылаешься на мою регулярку, то там это учтено. Естественно она далека от идеала, и в этом я признался честно. Это не защита от дураков и не полноценный текстовый процессор 😂.
[A-Z][a-z]{0,19}(?: |,?){1,3}(?:[A-z]{1,20}(?: |,|-){1,3}){4,60}[A-z]{2,20}(?:\.|\?|!)
[A-Z][a-z]{0,19} - Указывает, что первым будет идти слово из 1-19 букв первая должна быть большой(что указывает на начало предложения)
(?: |,?){1,3} - Дальше, указанно, что должны идти от 1 до 3 пробела или запятых(тут хочу отметить, что я сделал от 1 до 3 потому, что отсекалось много текста, в котором было больше одного пробела вподряд, это можно профиксить, предварительно пройдясь по тексту функцией автозамены "сдвоенных символов", то есть заменит идущие в подряд две запятые на одну, пробельные символы на один и т.д).
(?:[A-z]{1,20}(?: |,|-){1,3}){4,60} Это основная часть, указывающая, что будет браться от 4 до 60 слов, длиной от 1 до 20 букв любого регистра, слова могут иметь такие разделители (?: |,|-){1,3} - тут можно дописывать, например ":" т.д... Я не стал заморачиваться, т.к. контент мне не жалко, собираю не я а программа, пусть режется то, что не подходит 😂
[A-z]{2,20}(?:\.|\?|!) Ну а это уже окончание, которое означает, что перед закрывающим предложение символом(точкой, вопросом, или восклицательным знаком) должно идти слово длиной от 2х до 20ти символов в любом регистре.
Тут конечно можно было, дописать и по умнее, например, учесть сокращения "и т.д." внутри и в конце текста, исключить возможность писать слово "полностью большими буквами", различить дефис от тире, нормализовав отображение слов через тире. Но задача была написать скрипт быстро, чтобы не потратить на его написание столько же времени сколько на чистку в полуавтоматическом режими. Да, я ленивый! 😂