Попробуйте разбить файл на части и сделать выборки по алфавиту - Doorways & Cloaking

Удалить дубли - 80кк строк

leo3331 · 2010-12-05T13:22:07.0000000Z

Здравствуйте, чем можно удалить дубли по строкам? В файле 80кк ключевиков.

98

BredoGen.

7 декабря 2010, 06:19

#31

bmwm3:
хз, по моему если отсортировать по алфавиту(или даже к примеру первым 3 символам), кол. символов в строке, сохранить в разные файлы, то можно хоть 10гб провернуть ))

Тогда легче уже разбить файл на части и нормально обработать каждый (:

Ограничением будет только размер жесткого диска.

35

bmwm3

7 декабря 2010, 06:24

#32

BredoGen.:
Тогда легче уже разбить файл на части и нормально обработать каждый (:
Ограничением будет только размер жесткого диска.

ну так если просто разбить на части то нужно будет сравнивать строки из разнх частей, а в моём случае только внутри каждой части )

или мы об одном и том же )

Лучше решение под даттинг трафик!!!! (http://tinyurl.com/39lto3z) авто постинг в форумы(все движки)

A1

25

alex1113

7 декабря 2010, 07:27

#33

BredoGen.:
Тогда легче уже разбить файл на части и нормально обработать каждый (:

Учи уроки двоечник!

Беру свои слова обратно! Смотря как разбить!

98

.:nbd:.

7 декабря 2010, 07:49

#34

alex1113:
Учи уроки двоечник!

Разбить на куски и сделать из них выборки по алфавиту, почистить на дубли и собрать обратно. В чем проблема?

Палю тему Дорген (/ru/forum/439165) + кеи + контент (http://datarama.biz/) + еще немного кеев и скриптов (http://amazingsoftware.ru/) = $$$ Мы делаем доры, а не пишем романы (c) один Дима рефка dino_spomoni (http://goo.gl/w62v3)

T

24

terramona

7 декабря 2010, 07:53

#35

waal:
геморно, не ? + память быстрее.

конечно быстрее, но только в случае с хэшами

иначе её много надо

1 кей это ~20-25 символов

80 лям * 20 ~ 2гига

покупаю худеющий ру-траф в любых кол-вах от $15 за кило | стоимость смс на номер (http://stoimost-sms.ru) | мой опыт работы с секс-шопами (/ru/forum/552912)

98

BredoGen.

7 декабря 2010, 08:03

#36

bmwm3:
ну так если просто разбить на части то нужно будет сравнивать строки из разнх частей, а в моём случае только внутри каждой части )

или мы об одном и том же )

Не сразу втыкнул, что ты имеешь в виду. Об одном и том же, в принципе. Но гемерно это все.

Если так рассчитать, то для обработки 300кк строк (где-то 10гб с лишним), нужно чуть более гига оперативы для хранения хешей, что не проблема для любого десктопа...

Но при таких объемах, чую, хеш начнет иногда повторяться, хоть это и не особо критично.

alex1113:
Учи уроки двоечник!
Беру свои слова обратно! Смотря как разбить!

Сформулировал мысль в голове => Обдумал => [Сформулировал конкретнее|Передумал] => Обдумал еще лучше => [Напечатал|Передумал] => Нажал "Ответить".

На стенку, около рабочего места.

BredoGen. добавил 07.12.2010 в 11:15

terramona:
конечно быстрее, но только в случае с хэшами
иначе её много надо
1 кей это ~20-25 символов
80 лям * 20 ~ 2гига

Это если ключевики из символов кодируемыми одним байтом. Т.е юникод кириллица идет лесом и будет жрать целых 2 байта за символ... А это уже ~4гб, что уже дохрена :)

Владимир Офицеров: «Если вы Форум технологий Mail.Ru Group: 23 тезиса из доклада

A1

25

alex1113

7 декабря 2010, 08:18

#37

ТС с этой базой похож на хомяка с набитым ртом. Ахахаххахахаа! Набрал и на знает что делать!

990

kxk

7 декабря 2010, 08:39

#38

alex1113, В точку

Ваш DEVOPS

67

Дeнис

7 декабря 2010, 08:48

#39

ну может он какой нить мета-поисковик долго-долго парсил. решил сделать свою базу Пастухова.

[]

18

tipagraf

7 декабря 2010, 14:20

#40

BredoGen.:
Строки занимают слишком много памяти, их лучше вообще не хранить.

Мой вариант:
Версия для винды: http://dl.dropbox.com/u/16333142/unique.tar.gz

Доброго времени, уважаемый.

извиняюсь за нубский вопрос, подскажи пожалуйста как пользоваться этим скриптиком, или где можно почитать руководство...🚬 Заранее Благодарен за ответ.

"Слышу и забываю, Смотрю и запоминаю, Делаю и понимаю."

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Все что нужно знать о DDоS-атаках грамотному менеджеру

Удалить дубли - 80кк строк