Если в памяти есть много уникальных строк, то сохраните массив хэшей от 80кк строк - Doorways & Cloaking

Удалить дубли - 80кк строк

leo3331 · 2010-12-05T13:22:07.0000000Z

Здравствуйте, чем можно удалить дубли по строкам? В файле 80кк ключевиков.

AX

133

ApocX

6 декабря 2010, 12:32

#21

BredoGen.:
Хранишь массив с хешами в памяти

Ну сохрани массив хэшей от 80кк строк в памяти...

Как вариант - резать файл на более мелкие, и тогда уже более реально его обработать.

ТС, сколько весит файл с 80кк ключами? А то я даже представить не могу...

К концу года в Google о том, стоит Facebook представил переработанную версию

98

BredoGen.

6 декабря 2010, 12:35

#22

ApocX:
Ну сохрани массив хэшей от 80кк строк в памяти...

Как вариант - резать файл на более мелкие, и тогда уже более реально его обработать.

ТС, сколько весит файл с 80кк ключами? А то я даже представить не могу...


bredogen@debian:~/Работа/unique$ du file.txt

922104	file.txt

bredogen@debian:~/Работа/unique$ wc -l file.txt

25994075 file.txt

bredogen@debian:~/Работа/unique$ ./unique

Path to file: file.txt

Save to: my.txt



Finished with 803047 unique lines! Time elapsed: 99775ms

512RAM

Файл размером в 900мб и 26кк строк спокойно поместился и обработался за 99секунд. У меня все работает, ЧЯДНТ? (:

80кк будет весить около 3гб... Как минимум 2гб оперативной памяти нужно будет, если там много уникальных строк.

Мобильная Почта Mail.Ru реализовала В 2023 году пользователи Яндекс.Диск начал продажу дополнительного

35

bmwm3

6 декабря 2010, 12:38

#23

а если сначало отсортировать строки по кол. символов а потом в них уже сравнивать ключи + алфавит ))

Лучше решение под даттинг трафик!!!! (http://tinyurl.com/39lto3z) авто постинг в форумы(все движки)

68

firacet

6 декабря 2010, 16:59

#24

Еще вариант, сохранять строку в массив но не как значение а как ключь. тогда в памяти будут только уникальные строки.

Сбылись мечты народный: Мир-Труд-Май

98

BredoGen.

6 декабря 2010, 18:16

#25

firacet:
Еще вариант, сохранять строку в массив но не как значение а как ключь. тогда в памяти будут только уникальные строки.

Строки занимают слишком много памяти, их лучше вообще не хранить.

Мой вариант:

Версия для винды: http://dl.dropbox.com/u/16333142/unique.tar.gz

Для Ъ & линуксоидов (исходники): http://dl.dropbox.com/u/16333142/unique_src.tar.gz

В памяти хранится контейнер с числовыми хешами. Т.е теоретически каждая строка [хеш каждой строки] будет занимать 4 байта. В реальности все не так хорошо и для обработки 80кк понадобится чуть больше.

По скорости вроде рвет всех и вся. Удалось скормить 26кк (900мб), как будет вести с более весомыми данными (и вообще на винде) - не знаю.

Вопрос по нагрузке на OVZ для клиента вдс/впс Подскажите идей для скриптов

W

21

waal

6 декабря 2010, 19:15

#26

Кто это напарсил 80кк и забыл проверить их на дубли 0_o ..... просто интересно :)

Конверт 253$/1k - здесь (http://tinyurl.com/3xtjr7e)!

S

37

senlik

6 декабря 2010, 20:42

#27

BredoGen.:
Строки занимают слишком много памяти, их лучше вообще не хранить.

Мой вариант:
Версия для винды: http://dl.dropbox.com/u/16333142/unique.tar.gz
Для Ъ & линуксоидов (исходники): http://dl.dropbox.com/u/16333142/unique_src.tar.gz

В памяти хранится контейнер с числовыми хешами. Т.е теоретически каждая строка [хеш каждой строки] будет занимать 4 байта. В реальности все не так хорошо и для обработки 80кк понадобится чуть больше.
По скорости вроде рвет всех и вся. Удалось скормить 26кк (900мб), как будет вести с более весомыми данными (и вообще на винде) - не знаю.

Большое спасибо! То что нужно. Скормил 5Гб и отлично почистило)

T

24

terramona

6 декабря 2010, 22:37

#28

ещё можно читать файл построчно и сохранять в виде файлов на диске каждый кей

только надо на диры разбить по 1й букве например, а то 80кк файлов в одной дире не откроются

будет 100% уникальность + в памяти максимум одна строка

покупаю худеющий ру-траф в любых кол-вах от $15 за кило | стоимость смс на номер (http://stoimost-sms.ru) | мой опыт работы с секс-шопами (/ru/forum/552912)

Яндекс.Диск упрощает работу с Google Фото поможет очистить Яндекс.Диск научился автоматически сохранять

W

21

waal

6 декабря 2010, 22:53

#29

terramona:
ещё можно читать файл построчно и сохранять в виде файлов на диске каждый кей
только надо на диры разбить по 1й букве например, а то 80кк файлов в одной дире не откроются
будет 100% уникальность + в памяти максимум одна строка

геморно, не ? + память быстрее.

35

bmwm3

7 декабря 2010, 05:53

#30

хз, по моему если отсортировать по алфавиту(или даже к примеру первым 3 символам), кол. символов в строке, сохранить в разные файлы, то можно хоть 10гб провернуть ))

Google: E-E-A-T не является фактором ранжирования

Что такое Power BI и зачем это нужно бизнесу

Удалить дубли - 80кк строк