Удаление дублей

dino_spomoni · 2008-11-30T13:11:51.0000000Z

Есть штук 50 текстовых файлов. Размер всех - около 1,5 Гб. Нужно почистить на дубли. Содержание файлов вида Text1 Text2 Text3 Text4 Text5 ... Чем можно это сделать? Пробовал найдеными PHP скриптами - конечно же не хватает памяти. Спасибо.

73

BigBoss

5 декабря 2008, 22:01

#11

Через недельку по материалам темы можно будет диссертацию защищать :)

С CRC мысль здравая, индексный файл меньше будет весить. Насчет записи в файлы имхо изврат, для того БД и созданы. На PHP уж точно с файлами работаться будет медленнее, чем с MySQL.

Md5 действительно совпасть может, сопадения в него заложены "генетически". Но вероятность совпадения даже если вариантов будет 1,5трлн. 10-в-минус-дохе*атой степени :) и временем на сравнение самих строк можно пренебречь. Кстати, 1500/50/2 не 15? :) При первом запросе индексный файл закешируется и после время на чтение не потребуется.

Не спорю, возможно твой способ и оптимален, тут все зависит от количества и длины строк. Но я настаиваю - с помощью md5, MySQL и в крайнем случае хитрых индексов задача легко решается при любой погоде :)

doggystyle, это ж надо локалхост с 2 гигами памяти иметь :D

Avtoprogon.ru - белые, серые регистрации: 8000 русских, 8000 англ., 1300 кат. статей. VIP-регистрации. Дорегистрация в новых каталогах (http://www.avtoprogon.ru/) Добавление ссылок на индексацию в Ya, Go. (http://www.avtoprogon.ru/yandex/)

WP

2

WebProgrammer

6 декабря 2008, 20:34

#12

Интересно, автору поста еще нужно решение, или у нас просто дискуссия? Автор отзовись! Решил проблему или нет? Если решил, то как.

А спорить про алгоритм можно бесконечно. Сначала можно обсуждать максимально оптимальный вариант написания скрипта на PHP, потом перейти на Си, и так далее до написания программы на Ассемблере, которая будет расходовать минимум ресурсов и отсеет все дубли за время на доли секунды больше, чем займет чтение всех этих файлов с диска. Я думаю, здесь не стоит перегибать палку. Нужно найти более или менее оптимальный вариант и реализовать его, если это еще нужно.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

73

BigBoss

6 декабря 2008, 20:46

#13

Прав на 100%.

Но этим оно и интересно :)

WP

2

WebProgrammer

6 декабря 2008, 20:53

#14

BigBoss:
Прав на 100%.
Но этим оно и интересно :)

Это точно. Интересно, как автор поста проблему решил, если решил конечно.

P0

145

Platon007

7 декабря 2008, 09:04

#15

<удалено>...

D

11

doggystyle

7 декабря 2008, 15:53

#16

BigBoss:

doggystyle, это ж надо локалхост с 2 гигами памяти иметь :D

Я думаю, что в наше время 2 гига на домашнем компе - не редкость ;)

165

Vanich

7 декабря 2008, 18:28

#17

Как Вам такой вариант: программа сортирует строки (можно предварительно в БД записать, смотря сколько их), далее идет по порядку и сверяет N с N+1, если одинаковый - запоминаем.

После этой процедуры идем по файлам и оставляем только первый встретившийся из запомненных(дублей).

Работать будет дольше, но код проще, такой баксов за пять может какой школьник и напишет.

Онлайн-консультант для юридических, медицинских, компьютерных, туристических сайтов. Удобно пользователю, прибыльно вебмастеру. (http://webmasters.leadia.ru/?ref=bIoqZIaath) MONKEYWRITE ТЕПЕРЬ БЕСПЛАТНО (https://yadi.sk/d/Hd9mbvyzeMMfp)

Резкий всплеск прямых заходов. Google Updates - апдейты В Яндекс.Метрике появился новый

Переиграть и победить: как анализировать конкурентов для продвижения сайта

Яндекс Вебмастер вынес товарные фиды в отдельный раздел