_Snake_

_Snake_
Рейтинг
151
Регистрация
06.12.2010
Dos3:
и где же там Бабуляр в списке ?

Что то типо такого, должно выбрать нормализованные предложения. Не идеально конечно, можно допиливать и допиливать, но под пивасик сойдёт 🍿

$file = file_get_contents(__DIR__.'/1.txt');
preg_match_all('/[A-Z][a-z]{0,19}(?: |,?){1,3}(?:[A-z]{1,20}(?: |,|-){1,3}){4,60}[A-z]{2,20}(?:\.|\?|!)/u',$file, $match);
file_put_contents(__DIR__.'/2.txt', implode("\n",array_unique ($match[0])));

Dos3:
не проверка, а удаление лишних символов

Не удаление, а отбор символов, соответствующих выражению.

Я просто не понимаю, что вам даст такой массив на выходе?

Dos3:

про удаление он не про регулярку отдельно, а про функцию говорит
не забивай человеку мозг

Если не нужна выборка, а только проверка по шаблону используются начало и конец строки ^$

everton17:
Есть строка: /[^а-я0-9ё \-,]/i , которая = удалять предложения, в которых присутствуют любые символы отличные от русских букв, цифр, тире и запятой.
Нужно чтобы было для "отличных от англ. букв"
Подскажите нубу плиз))

Вы не правильно понимаете механизм регулярных выражений. Они не удаляют, а наоборот отбирают подходящее под шаблон.

То есть ваша строка означает, что отбираются все символы НЕ принадлежащие русскому алфавиту, цифрам, тире, запятой и пробелу.

Объясни, чего ты хочешь добиться, желательно на примере.

babuler, Посещения это одно, а конверт это другое. Можно выхватить быстробота, и получить тонну мусорного трафика. А можно иметь посещаемость в 10 раз меньше, но конверт лучше. Я это к тому, что по сути цифры и графики из лайв интернета это лишь пузомерка, есть ли вообще в них смысл?

Утренний стояк:
вы меня убедили этим)))

Слушайте господа... Я не понимаю во таких. Тут шло обсуждение технической части клоакинга, как это организовать. Вы запёрлись в беседу, начали свою пропаганду:


Это всё ерунда..
Это не поможет...
Вот как надо...

Я не понимаю, у вас высшая цель "наставить всех заблудших на путь истинный"?

Вы своим поведением мне высокомерных тёлок напоминаете "ой мне не нравится в этом заведении... тут всё тухло".

- Ну не нравится так иди мимо!

TopperHarley:

Помоему да, в бан навеки.

А если какой-то диапазон IP ПС освободит и он перейдёт под контроль какого-нибудь провайдера?

Утренний стояк:
я имею в виду что если вы хотите клоачить от гугла то смысла заморачиватся с ip нет

IP как бы не бесплатные, значит есть смысл.

TopperHarley:

Мне кажется это нереально. В диапазоне будет дофига дырок.
Идея была в том что если на сервер конкретный ip попал в диапазон то забирать себе весь диапазон.
А не в том чтобы генерить диапазоны на лету.

Ну смотри, тебе всё равно ведь надо будет обновлять информацию об IP. Ты же не засунешь IP в перманентный бан из-за того, что сегодня у тебя под этим IP пришёл бот.

В зависимости от того, сколько трафика будет обрабатывать серверный скрипт, надо будет под настраивать время обновления актуальности данных. Допустим в течении недели собираешь данные, а потом АП :). Так вот, кроме известных(оффициальных) диапазонов закреплёнными за ПС которые можно посмотреть по базе geoip. Могут собираться "не известные" IP, которые могут встать в ряд 90.30.0.1 .. 90.30.0.30 вот ты и записываешь этот ряд как диапазон. А через неделю, при следующем АПе информация обновится.

Когда клиент будет запрашивать инфо по IP он получит этот диапазон и обновит информацию в своей базе.

Ну, а если трафа будет мало, чтобы поддерживать клоаку в актуальном состоянии, то и нету смысла её делать, т.к можно и весь интернет загнать в базу за 5 лет, в которой будет 1% актуальной информации. Чем больше трафа - тем точнее клоака.

TopperHarley:

Идея была в том что если на сервер конкретный ip попал в диапазон то забирать себе весь диапазон.
А не в том чтобы генерить диапазоны на лету.

Мне кажется мы не до поняли друг друга, это я описывал как будут эти диапазоны формироваться на стороне сервера, клиент естественно этого делать не будет.

Всего: 1049