Удалить дубли - 80кк строк

BredoGen.
На сайте с 19.10.2009
Offline
98
#31
bmwm3:
хз, по моему если отсортировать по алфавиту(или даже к примеру первым 3 символам), кол. символов в строке, сохранить в разные файлы, то можно хоть 10гб провернуть ))

Тогда легче уже разбить файл на части и нормально обработать каждый (:

Ограничением будет только размер жесткого диска.

bmwm3
На сайте с 21.10.2009
Offline
35
#32
BredoGen.:
Тогда легче уже разбить файл на части и нормально обработать каждый (:
Ограничением будет только размер жесткого диска.

ну так если просто разбить на части то нужно будет сравнивать строки из разнх частей, а в моём случае только внутри каждой части )

или мы об одном и том же )

Лучше решение под даттинг трафик!!!! (http://tinyurl.com/39lto3z) авто постинг в форумы(все движки)
A1
На сайте с 25.05.2010
Offline
25
#33
BredoGen.:
Тогда легче уже разбить файл на части и нормально обработать каждый (:

Учи уроки двоечник!

Беру свои слова обратно! Смотря как разбить!

.:nbd:.
На сайте с 04.11.2008
Offline
98
#34
alex1113:
Учи уроки двоечник!

Разбить на куски и сделать из них выборки по алфавиту, почистить на дубли и собрать обратно. В чем проблема?

Палю тему Дорген (/ru/forum/439165) + кеи + контент (http://datarama.biz/) + еще немного кеев и скриптов (http://amazingsoftware.ru/) = $$$ Мы делаем доры, а не пишем романы (c) один Дима рефка dino_spomoni (http://goo.gl/w62v3)
T
На сайте с 06.11.2009
Offline
24
#35
waal:
геморно, не ? + память быстрее.

конечно быстрее, но только в случае с хэшами

иначе её много надо

1 кей это ~20-25 символов

80 лям * 20 ~ 2гига

покупаю худеющий ру-траф в любых кол-вах от $15 за кило | стоимость смс на номер (http://stoimost-sms.ru) | мой опыт работы с секс-шопами (/ru/forum/552912)
BredoGen.
На сайте с 19.10.2009
Offline
98
#36
bmwm3:
ну так если просто разбить на части то нужно будет сравнивать строки из разнх частей, а в моём случае только внутри каждой части )

или мы об одном и том же )

Не сразу втыкнул, что ты имеешь в виду. Об одном и том же, в принципе. Но гемерно это все.

Если так рассчитать, то для обработки 300кк строк (где-то 10гб с лишним), нужно чуть более гига оперативы для хранения хешей, что не проблема для любого десктопа...

Но при таких объемах, чую, хеш начнет иногда повторяться, хоть это и не особо критично.

alex1113:
Учи уроки двоечник!
Беру свои слова обратно! Смотря как разбить!

Сформулировал мысль в голове => Обдумал => [Сформулировал конкретнее|Передумал] => Обдумал еще лучше => [Напечатал|Передумал] => Нажал "Ответить".

На стенку, около рабочего места.

BredoGen. добавил 07.12.2010 в 11:15

terramona:
конечно быстрее, но только в случае с хэшами
иначе её много надо
1 кей это ~20-25 символов
80 лям * 20 ~ 2гига

Это если ключевики из символов кодируемыми одним байтом. Т.е юникод кириллица идет лесом и будет жрать целых 2 байта за символ... А это уже ~4гб, что уже дохрена :)

A1
На сайте с 25.05.2010
Offline
25
#37

ТС с этой базой похож на хомяка с набитым ртом. Ахахаххахахаа! Набрал и на знает что делать!

kxk
На сайте с 30.01.2005
Offline
990
kxk
#38

alex1113, В точку

Ваш DEVOPS
Дeнис
На сайте с 14.05.2009
Offline
67
#39

ну может он какой нить мета-поисковик долго-долго парсил. решил сделать свою базу Пастухова.

[]
tipagraf
На сайте с 24.08.2010
Offline
18
#40
BredoGen.:
Строки занимают слишком много памяти, их лучше вообще не хранить.

Мой вариант:
Версия для винды: http://dl.dropbox.com/u/16333142/unique.tar.gz

Доброго времени, уважаемый.

извиняюсь за нубский вопрос, подскажи пожалуйста как пользоваться этим скриптиком, или где можно почитать руководство...🚬 Заранее Благодарен за ответ.

"Слышу и забываю, Смотрю и запоминаю, Делаю и понимаю."

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий