- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Через недельку по материалам темы можно будет диссертацию защищать :)
С CRC мысль здравая, индексный файл меньше будет весить. Насчет записи в файлы имхо изврат, для того БД и созданы. На PHP уж точно с файлами работаться будет медленнее, чем с MySQL.
Md5 действительно совпасть может, сопадения в него заложены "генетически". Но вероятность совпадения даже если вариантов будет 1,5трлн. 10-в-минус-дохе*атой степени :) и временем на сравнение самих строк можно пренебречь. Кстати, 1500/50/2 не 15? :) При первом запросе индексный файл закешируется и после время на чтение не потребуется.
Не спорю, возможно твой способ и оптимален, тут все зависит от количества и длины строк. Но я настаиваю - с помощью md5, MySQL и в крайнем случае хитрых индексов задача легко решается при любой погоде :)
doggystyle, это ж надо локалхост с 2 гигами памяти иметь :D
Интересно, автору поста еще нужно решение, или у нас просто дискуссия? Автор отзовись! Решил проблему или нет? Если решил, то как.
А спорить про алгоритм можно бесконечно. Сначала можно обсуждать максимально оптимальный вариант написания скрипта на PHP, потом перейти на Си, и так далее до написания программы на Ассемблере, которая будет расходовать минимум ресурсов и отсеет все дубли за время на доли секунды больше, чем займет чтение всех этих файлов с диска. Я думаю, здесь не стоит перегибать палку. Нужно найти более или менее оптимальный вариант и реализовать его, если это еще нужно.
Прав на 100%.
Но этим оно и интересно :)
Прав на 100%.
Но этим оно и интересно :)
Это точно. Интересно, как автор поста проблему решил, если решил конечно.
<удалено>...
doggystyle, это ж надо локалхост с 2 гигами памяти иметь :D
Я думаю, что в наше время 2 гига на домашнем компе - не редкость ;)
Как Вам такой вариант: программа сортирует строки (можно предварительно в БД записать, смотря сколько их), далее идет по порядку и сверяет N с N+1, если одинаковый - запоминаем.
После этой процедуры идем по файлам и оставляем только первый встретившийся из запомненных(дублей).
Работать будет дольше, но код проще, такой баксов за пять может какой школьник и напишет.