Что то типо такого, должно выбрать нормализованные предложения. Не идеально конечно, можно допиливать и допиливать, но под пивасик сойдёт 🍿
Не удаление, а отбор символов, соответствующих выражению.
Я просто не понимаю, что вам даст такой массив на выходе?
Если не нужна выборка, а только проверка по шаблону используются начало и конец строки ^$
Вы не правильно понимаете механизм регулярных выражений. Они не удаляют, а наоборот отбирают подходящее под шаблон.
То есть ваша строка означает, что отбираются все символы НЕ принадлежащие русскому алфавиту, цифрам, тире, запятой и пробелу.
Объясни, чего ты хочешь добиться, желательно на примере.
babuler, Посещения это одно, а конверт это другое. Можно выхватить быстробота, и получить тонну мусорного трафика. А можно иметь посещаемость в 10 раз меньше, но конверт лучше. Я это к тому, что по сути цифры и графики из лайв интернета это лишь пузомерка, есть ли вообще в них смысл?
Слушайте господа... Я не понимаю во таких. Тут шло обсуждение технической части клоакинга, как это организовать. Вы запёрлись в беседу, начали свою пропаганду:
Я не понимаю, у вас высшая цель "наставить всех заблудших на путь истинный"?
Вы своим поведением мне высокомерных тёлок напоминаете "ой мне не нравится в этом заведении... тут всё тухло".
- Ну не нравится так иди мимо!
А если какой-то диапазон IP ПС освободит и он перейдёт под контроль какого-нибудь провайдера?
IP как бы не бесплатные, значит есть смысл.
Ну смотри, тебе всё равно ведь надо будет обновлять информацию об IP. Ты же не засунешь IP в перманентный бан из-за того, что сегодня у тебя под этим IP пришёл бот.
В зависимости от того, сколько трафика будет обрабатывать серверный скрипт, надо будет под настраивать время обновления актуальности данных. Допустим в течении недели собираешь данные, а потом АП :). Так вот, кроме известных(оффициальных) диапазонов закреплёнными за ПС которые можно посмотреть по базе geoip. Могут собираться "не известные" IP, которые могут встать в ряд 90.30.0.1 .. 90.30.0.30 вот ты и записываешь этот ряд как диапазон. А через неделю, при следующем АПе информация обновится.
Когда клиент будет запрашивать инфо по IP он получит этот диапазон и обновит информацию в своей базе.
Ну, а если трафа будет мало, чтобы поддерживать клоаку в актуальном состоянии, то и нету смысла её делать, т.к можно и весь интернет загнать в базу за 5 лет, в которой будет 1% актуальной информации. Чем больше трафа - тем точнее клоака.
Мне кажется мы не до поняли друг друга, это я описывал как будут эти диапазоны формироваться на стороне сервера, клиент естественно этого делать не будет.