Зачем вы пытаетесь изобрести SQLite? - Веб-строительство

include в php большого файла

Алексей Теплов · 2024-01-11T06:07:50.0000000Z

Вообщем у меня сайт по скачиванию видео с Ютуба, активно сотрудничаю с правообладателями и РКН, абузы сыпятся сотнями в сутки... Не придумал не чего лучше чем с админки добавляю ссылку на видео, а скрипт обработчик даписывает ID видео в файл php в котором 2 одномерных массива айдишников, один от правообладателей, второй от РКН. Перед выдачей юзеру страницы с видео инклайдится файл php и сравнивается ID видео с айдишниками из стоп-листа. Как бы всё работает, вот только файл стоп-листа разрастается прям на глазах, в связи с чем возник вопрос: Интерпретатор php тратит ресурсы на распарсивание большого файла, а затем держит в памяти сервера весь стоп-лист... Есть ли более дешёвый способ по затратам ресурса сервера на поиск айдишника в стоп-листе? Самый очевидный вариант писать айдишники в БД, а потом запустить поиск по БД. Какой вариант лучше? Или посоветуйте свой вариант!

C

117

chaturanga

12 января 2024, 12:22

#21

Sly32 #:

Мне кажется, ты счас описал NoSQL))) Ну примерно.

Ну там всё сложнее, тот же редис использует разные способы индексации, в некоторых случаях и классический B-Tree

Sly32 #:

Но правильно я понял - хэши имен файлов нужно где-то хранить?

Нет, хеши вычисляются в момент обращения (чтения/записи)

S3

368

Sly32

12 января 2024, 12:56

#22

chaturanga #:
Нет, хеши вычисляются в момент обращения (чтения/записи)

Тогда я не понимаю как это будет работать.
вот есть на диске условно 10 файлов. 1.txt, 2.txt, 3.txt ... мне нужно обратиться системными средствами к нужному каталогу, вычитать все имена файлов в нем - это уже IO операция. Потом для каждого имени получить MD и уже на его основе построить дерево?

Подскажите, как построить дерево Что будет за дублирование Начало роботы с Joomla

319

Aisamiery

12 января 2024, 13:10

#23

Зачем вы пытаетесь изобрести SQLite? это и так 1 файл и гуляет вместе с проектом.

Но на самом деле, если у ТС небольшой файл, например меньше 10Мб (а это очень много ID, но размер можно подобрать в целом, лучше чтоб он был в размер opcache конфига для файлов, тогда он вообще уже байт кодом ляжет), то наверное лучше было бы его создавать как

<?php

return [
// тут список ID через , например через функцию implode
];

А в вызывающем коде сделать что то типа:

$array = include("path/to/file.php");
$array = array_flip($array);

// проверяем
if (isset($array[$videoId])) {
    // есть в массиве
}

Разработка проектов на Symfony, Laravel, 1C-Bitrix, UMI.CMS, OctoberCMS

Размеры файла sitemap чем-нибудь Всегда интересовал вопрос. Вес Народ, помогите разобраться: php-картинки

C

117

chaturanga

12 января 2024, 13:21

#24

Sly32 #:

вычитать все имена файлов в нем - это уже IO операция. Потом для каждого имени получить MD и уже на его основе построить дерево?

не ВСЕ имена. В одном файле - одно значение. По сути, если значение не нужно (а нужны только ключи), то файл может быть пустым и даже не быть вообще - финальным будет также каталог

Sly32 #:

вот есть на диске условно 10 файлов. 1.txt, 2.txt, 3.txt ... мне нужно обратиться системными средствами к нужному каталогу

У нас есть 2 задачи:

1) внести имя файла в список
2) узнать, есть ли такое имя файла в списке

в обоих случаях мы вычисляем хеш файла (пусть md5, хотя это не лучший вариант)

MD5 (1.txt) = dd7ec931179c4dcb6a8ffb8b8786d20b
MD5 (2.txt) = c3d57eb88086a04b1e04d06a9b6188e5
MD5 (3.txt) = 3d70dca5cadfff6563d95a05a0b2a0f3
MD5 (10.txt) = ecd44780e3d8ebde70851f940606bc7e

то есть файлы лягут в каталоги, и если нам нужен только хеш, то даже файла создавать не будем

$ mkdir -p "./dd/7e/c9/31/17/9c/4d/cb/6a/8f/fb/8b/87/86/d2/0b"

1.txt:
dd
  7e
    c9
      ...
        0b
2.txt:
c3
  d5
    7e
      ...
        e5
3.txt:
3d
  70
    dc
      ...
        f3
10.txt:
ec
  d4
    47
      ...
        7e

2) узнать, есть ли такое имя файла в списке (опять же вычисляем хеш и проверям есть ли такой каталог)

$ ls -1 "./dd/7e/c9/31/17/9c/4d/cb/6a/8f/fb/8b/87/86/d2/0b" && echo "exists"
exists

$ ls -1 "./dd/7e/c9/31/17/9c/4d/cb/6a/8f/fb/8b/87/86/d2/AA" || echo "not exists"
ls: ./dd/7e/c9/31/17/9c/4d/cb/6a/8f/fb/8b/87/86/d2/AA: No such file or directory
not exists

Самое сложное для конкретной задачи подобрать быструю и надёжную хеш-функцию. Например для вычисления 2-х координат мы можем использовать функцию Кантора - универсально и вроде неплохо, но если мы знаем точный размер карты (пусть10x10), то можем написать её намного проще а-ля hash = x*10+y и получим огромный прирост скорости.

1

Признаки похожести Умер рынок разработки сайтов Вот вам ещё тема

C

117

chaturanga

12 января 2024, 13:24

#25

Aisamiery #:

Зачем вы пытаетесь изобрести SQLite?

Так пятница же :)

1

319

Aisamiery

12 января 2024, 13:42

#26

chaturanga #:
mkdir -p "./dd/7e/c9/31/17/9c/4d/cb/6a/8f/fb/8b/87/86/d2/0b"

Не боитесь что у вас inode закончатся в системе?

S3

368

Sly32

12 января 2024, 13:47

#27

chaturanga #:
узнать, есть ли такое имя файла в списке (опять же вычисляем хеш и проверям есть ли такой каталог)

То есть правильно я понял - имя файла соответствует искомому айдишнику? Если я хочу проверить например айди 12345, я вычисляю хэш от него и пытаюсь на диске найти файл с соответствующим именем(хэшем)? А как формируется дерево? Или оно не нужно? Я думал так:

если мне прилетает айди 10010 - я его ищу в каталоге 10000
если 22000 - ищу в каталоге 20000
и так далее,
Или все файлы в одном каталоге?

Как реализовать отслеживание изменений Отдушина для пострадавших от Критерий полезности "тематических" каталогов.

C

117

chaturanga

12 января 2024, 20:45

#28

Aisamiery #:

Не боитесь что у вас inode закончатся в системе?

неа, я осознаю с чем работаю и (по-прежнему) больше боюсь кривой хеш-функции

C

117

chaturanga

12 января 2024, 20:54

#29

Sly32 #:

То есть правильно я понял - имя файла соответствует искомому айдишнику? Если я хочу проверить например айди 12345

что в вашей задаче ключ, и что его значение?
в предложенном решении файл - ключ, содержимое - значение

225

htexture

13 января 2024, 03:21

#30

NoMoreContent #:
СУБД - хорошая штука. Они придуманы не зря. Только ну очень долго разворачиваются из бэкапа

Ну так для таких штук насколько я помню, придумали не бекапы уже, а master-slave сервера баз данных. Я после 4гиговых баз уже остро ощущаю как автомайсклбекап ложит сайт на пару минут, что уже напрягает.

Ну и плюс, если не ссд, использование текстового варианта нагружает и растут IOPsы, что влияет на скорость работы с текстовыми файалами.

1

Вопрос по MySql базе dns хостинг MySQL: не работает Slave

Google: E-E-A-T не является фактором ранжирования

Зачем быть уникальным в мире, где все можно скопировать

include в php большого файла