Чтобы уменьшить нагрузку на поиск и построение дерева каталогов и файлов - оптимально хранить id не в одной папке, а в нескольких - Веб-строительство

include в php большого файла

Алексей Теплов · 2024-01-11T06:07:50.0000000Z

Вообщем у меня сайт по скачиванию видео с Ютуба, активно сотрудничаю с правообладателями и РКН, абузы сыпятся сотнями в сутки... Не придумал не чего лучше чем с админки добавляю ссылку на видео, а скрипт обработчик даписывает ID видео в файл php в котором 2 одномерных массива айдишников, один от правообладателей, второй от РКН. Перед выдачей юзеру страницы с видео инклайдится файл php и сравнивается ID видео с айдишниками из стоп-листа. Как бы всё работает, вот только файл стоп-листа разрастается прям на глазах, в связи с чем возник вопрос: Интерпретатор php тратит ресурсы на распарсивание большого файла, а затем держит в памяти сервера весь стоп-лист... Есть ли более дешёвый способ по затратам ресурса сервера на поиск айдишника в стоп-листе? Самый очевидный вариант писать айдишники в БД, а потом запустить поиск по БД. Какой вариант лучше? Или посоветуйте свой вариант!

207

Алеандр

14 января 2024, 12:53

#41

Может быть, невнимательно прочитал все ответы, но по искомой задаче: зачем все id хранить в одном файле? У меня полно сайтов-самописов, с похожими задачами, решаю элементарно - создаю файл с нужным id в структуре папок. Проверка на наличие этого id не требует каких-либо ресурсов, кроме того, чтобы проверить, есть ли такой файл в системе. Причем, если нужно зачем-то отмечать, от кого именно блок этого id - в сам файл записывать эту информацию. На проверку наличия файла это никак не влияет, а если нужна расширенная информация - она есть в самом файле. И, собственно, все.

нужно удалить файл в О непорядочных людях. Обман domains24 - скрипт Панели

S3

368

Sly32

14 января 2024, 12:56

#42

Алеандр #:
Может быть, невнимательно прочитал все ответы, но по искомой задаче: зачем все id хранить в одном файле? У меня полно сайтов-самописов, с похожими задачами, решаю элементарно - создаю файл с нужным id в структуре папок. Проверка на наличие этого id не требует каких-либо ресурсов, кроме того, чтобы проверить, есть ли такой файл в системе. Причем, если нужно зачем-то отмечать, от кого именно блок этого id - в сам файл записывать эту информацию. На проверку наличия файла это никак не влияет, а если нужна расширенная информация - она есть в самом файле. И, собственно, все.

такой вариант обсуждался. Я пока реализовал альтернативный. Высказывались опасения - как себя будет вести файловая система с миллионом файлов, насколько легко это все будет забэкапить. Поделитесь опытом.

Sly32 #:
все id хранить в одном файле?

Не все, разбивается на батчи по первым двум цифрам например и потом поиск идет только в соответсвующем файле

Где хранить настройки сайта? БД файлового хранилища подскажите Хочу купить сообщество, прошу

263

Shelton724

14 января 2024, 13:06

#43

Sly32 #:
Высказывались опасения - как себя будет вести файловая система с миллионом файлов, насколько легко это все будет забэкапить. Поделитесь опытом.

Про миллион не знаю, но есть у меня один "странный" проект, где файлов больше 400 000 (ну так исторически сложилось), сервер с ним бэкапится примерно за то же время, что и соседний, где файлов в 100 раз меньше, файл бэкапа не раздут.

1

Пустые базы данных после FTP хранилище Помогите найти бейкап хранилище

S3

368

Sly32

14 января 2024, 13:15

#44

Shelton724 #:

Про миллион не знаю, но есть у меня один "странный" проект, где файлов больше 400 000 (ну так исторически сложилось), сервер с ним бэкапится примерно за то же время, что и соседний, где файлов в 100 раз меньше, файл бэкапа не раздут.

Понятно, до этой части я не дошел. Проверю в моем случае как только перепишу скрипт по принципу 1 айпишник - 1 файл.

А можно поинтересоваться - что значит бэкапить сервер? Что вы именно там бэкапите если базы нет? Имеете ввиду вот эти 400 тыщ?

Что стряслось с ispserver? wmz-host умирает? Как откатить Dle 9.0

207

Алеандр

14 января 2024, 13:41

#45

Sly32 #:

Высказывались опасения - как себя будет вести файловая система с миллионом файлов, насколько легко это все будет забэкапить. Поделитесь опытом.

На счет миллиона файлов не подскажу, такого объема не было, было в несколько сотен тысяч, где-то до полумиллиона. Причем, по глупости, я в первый раз запулил почти сотню тысяч файлов в один каталог. Этот сайт до сих пор прекрасно себя чувствует и работает без проблем с высокой скоростью. Тут весь смысл в том, что при такой постановке задачи сайту и серверу не требуется делать списки каталога, он обращается напрямую к уже указанному пути файла, т.е. не тратит какие-либо иные ресурсы кроме конкретной задачи чтения данного файла или, если нужно просто проверить наличие файла - то это еще проще и быстрее.

Т.е., если нет задачи найти искомый id в папке, а уже зная этот id проверить его наличие - это быстро. Если же в задаче, по какой-то причине, нужно делать листинг каталога и потом искать подходящие файлы - вот это будет ооооочень медленно на больших объемах файлов.

Чтобы уменьшить нагрузку на поиск и построение дерева каталогов и файлов - оптимально хранить id не в одной папке, а в нескольких, например id "11112222333" хранить в папке 1/11/, а id "222333444" в папке 2/22. Тут вариантов вложений может быть сколь угодно, сильно зависит от того, какие именно id и группы повторов у них есть, чтобы выбрать оптимальный путь каталогов. Тогда и проблем с построением папок будет значительно меньше, поскольку одна папка будет содержать список не в сотни тыс файлов, а в сотни-тысячи, что позволяет работать гораздо быстрее.

С бэкапом так же проблем нет. Основная проблема тут в том, что, конечно, самих файлов много и будет значительно дольше собираться сам архив, но, кроме этого - никаких трудностей.

Как лучше сделать короткие Целесообразно ли использовать MySQL Не отображаются картинки на

207

Алеандр

14 января 2024, 13:44

#46

Shelton724 #:

Про миллион не знаю, но есть у меня один "странный" проект, где файлов больше 400 000 (ну так исторически сложилось), сервер с ним бэкапится примерно за то же время, что и соседний, где файлов в 100 раз меньше, файл бэкапа не раздут.

Если вы делаете снапшот всего сервера - разницы не будет, факт. Если же вы делаете бэкап, условно, через tar gzip папки, то 400 000 будут собираться дольше, чем 400 файлов именно в силу того, что нужно значительное время на поштучный обход и добавление каждого файла в архив. По крайней мере, у меня именно так.

Как заархивировать с паролем? Перенос папки с картинками Спрашиваем и отвечаем по

376

Artisan

15 января 2024, 12:00

#47

NoMoreContent #:
В последнее время меня удивляют типичные реакции людей в интернете. Какое-то тотальное недоверие всех ко всем.

Это тотальная самоуверенность людей в интернете.

Все всё знают, все всё умеют, и дальше по списку.

www.leak.info / ДАРОМ линки конкурентов и забытых доменов

S3

368

Sly32

15 января 2024, 12:58

#48

Алеандр #:
С бэкапом так же проблем нет. Основная проблема тут в том, что, конечно, самих файлов много и будет значительно дольше собираться сам архив, но, кроме этого - никаких трудностей.

Я например могу накидать вам кучу трудностей, которые вы даже не отследите. Например, у вас будет бэкапится файл с ошибкой и вы даже не будете понимать что не так: просто он будет исключен их поиска, соответственно результат не нарантирован. А найти ошибку - ну я даже не представляю навскидку как.

При правильной организации БД это будет исключено. Роллбэк неправильно транзакции нарантирует что у вас БД будет D- устойчивой. Опять же правильно нстроенный бэкап позволяет хранить кучу версий базы на промежуток времени.

Найти sql в бэкапах Мастерхост: Работа над ошибками Требования ТЗ

30

NoMoreContent

15 января 2024, 13:57

#49

Sly32 #:
with open(f"file_finder/storage/{filename}") as f:
                data_ip = f.read()
                if data_ip:
                    ip_list = data_ip.split(' ')

Отличный скрипт.
Только вот тут каждый раз происходит чтение всего файла в память, а затем разбивка по пробелам?

В некоторых случаях эффективнее было бы читать построчно файл, где по 1 записи на строку.
Если строка найдена, то прерывать цикл поиска.

with open(filename) as file:
    for line in file:
        print(line.rstrip())

или

with open(filename) as file:
    while line := file.readline():
        print(line.rstrip())

(с) ShadowRanger с SOF

Помогите написать php цикл Поиск и запись в Спрашиваем и отвечаем по

Д

166

Дадуда

15 января 2024, 14:14

#50

MySQL(i),memcached,файловая система кэшировать.

Зачем быть уникальным в мире, где все можно скопировать

Open AI тестирует память для ChatGPT

include в php большого файла