10 млрд. кейвордов. Как удалить дубли?

12
Astaldo
На сайте с 28.01.2006
Offline
174
1940

Всем привет.

Напарсили из прямого эфира 10 млрд. кейвордов.

Дублей наверное 80-90%, не знаем как их удалить, хотя бы по точному соответствию.

Какие есть сервисы/скрипты для такого дела?

Live as if you were to die tomorrow. Learn as if you were to live forever. Mahatma Gandhi
Z0G SYSTEM
На сайте с 08.12.2009
Offline
126
#1
Astaldo:
Всем привет.

Напарсили из прямого эфира 10 млрд. кейвордов.
Дублей наверное 80-90%, не знаем как их удалить, хотя бы по точному соответствию.
Какие есть сервисы/скрипты для такого дела?

Могу очистить от дуплей базу, но результат очищенный остается нам обоим! За 2-3 дня будет готово. Есть база у самого на 35 миллионов с прямого эфира почищенная на дупли, но возможно ешё дополню свою немного с вашей. Если интересно, по контактам Аська 2229193 Скайп seobasetrust

TOBBOT
На сайте с 04.11.2014
Offline
41
#2

какой размеры базы в мегабайтах?

Инструменты интернет-маркетинга - JLAB (http://jlab.io/) Бесплатная автоматизация с программой TOBBOT (http://tobbot.com/)
Z0G SYSTEM
На сайте с 08.12.2009
Offline
126
#3
TOBBOT:
какой размеры базы в мегабайтах?

1,25 Гб (UTF) - 35 миллионов строк база прямого эфира, вот и прикинь примерный размер базы ТС.

---------------------------------------------------------------------------------------------------------------------

40 Гб (UTF) - Полтора миллиарда строк, база Метрики Яндекс, но там строки от очень коротких до очень длинных

C
На сайте с 26.10.2013
Offline
54
#4

Интересно, справится ли?

cat keywords.txt | sort | uniq > new_keywords.txt

Услуги по парсингу данных (/ru/forum/939826), единоразовый и регулярный сбор данных. Любые объемы. Скрипты на PHP, создание и доработка, решение проблем с сайтами Пишите в личные сообщения или скайп
S0
На сайте с 06.01.2011
Offline
81
#5

Качай Пингвин и решай все свои вопросы

Z0G SYSTEM
На сайте с 08.12.2009
Offline
126
#6
Sergi0k:
Качай Пингвин и решай все свои вопросы

Ты для начала сам попробуй 10 миллиардов обработать, прежде чем советовать, а потом всё поймёшь. 500 миллионов ешё нормально отсортировать, а вот больший размер проблема упирающаяся в оперативку + время на удаление дуплей!

---------- Добавлено 04.05.2016 в 18:25 ----------

colorito:
Интересно, справится ли? cat keywords.txt | sort | uniq > new_keywords.txt

С файлами на 2 миллиарда справляется без проблем, оперативки щас уже не припомню, но что-то около 10 гигов жрало. Если все делать на серверном оборудовании, без проблем должно вытянуть 10 миллиардов.

У меня немного другой алгоритм выполнения действий по удалению дуплей, но тут обсуждать я его не буду, пока сам пользуюсь таковым!

C
На сайте с 26.10.2013
Offline
54
#7
knowing2business:

С файлами на 2 миллиарда справляется без проблем, оперативки щас уже не припомню, но что-то около 10 гигов жрало. Если все делать на серверном оборудовании, без проблем должно вытянуть 10 миллиардов.

Можно для начала разбить 10 млрд строк на 10 файлов по 1млрд в каждом

split -l 1000000000 keywords.txt

Потом эти файлы отсортировать, очистить от дублей командой выше, склеить все обратно и опять отсортировать и очистить

Можно склеить, потом разбить еще раз (выборка будет уже другая), тоже отсортировать, уникализировать и склеить

И так до тех пор, пока не получим один файл, подходящий нам по размеру, который система сможет обработать

Z0G SYSTEM
На сайте с 08.12.2009
Offline
126
#8
colorito:
Можно для начала разбить 10 млрд строк на 10 файлов по 1млрд в каждом

split -l 1000000000 keywords.txt

Потом эти файлы отсортировать, очистить от дублей командой выше, склеить все обратно и опять отсортировать и очистить

Можно склеить, потом разбить еще раз (выборка будет уже другая), тоже отсортировать, уникализировать и склеить

И так до тех пор, пока не получим один файл, подходящий нам по размеру, который система сможет обработать

Согласен! Можно и таким макаром, вопрос упирается во временной промежуток и лишние телодвижения! ТС спрашивает про сервисы, таких думаю не существует! Поэтому и предложил свою услугу в замен на очищенный результат. Бесплатно никто и ничего делать не будет, нужен взаимовыгодный обмен.

Хотя есть сомнения насчёт пополнения своей базы на 35 миллионов, так как тоже по максимуму выпаршивал прямой эфир яндекса и убирал дупли + все коме латиницы и кирилицы и знаков отличных от , . и т.п.

cscope
На сайте с 13.02.2005
Offline
525
#9

Есть бесплатные проги типа keywasher, можно разделить файл на 10-20 частей, а потом обработать каждый функцией "удалить дубли". Но это в теории, а на практике думаю нужен очень мощный комп, чтобы это все обработал, а не завис.

P.S. у меня тоже есть база типа мини-моаб, хз сколько там кеев, но файлов 70к, вес 54гб, тоже никак руки не дойдут разобраться с этой базой.

A
На сайте с 19.07.2010
Offline
130
#10
colorito:
Можно для начала разбить 10 млрд строк на 10 файлов по 1млрд в каждом
split -l 1000000000 keywords.txt
Потом эти файлы отсортировать, очистить от дублей командой выше, склеить все обратно и опять отсортировать и очистить
Можно склеить, потом разбить еще раз (выборка будет уже другая), тоже отсортировать, уникализировать и склеить
И так до тех пор, пока...

Более логично - сформировать на каждую букву по отдельному файлу, это можно сделать grep-ами.

Затем каждый файл очистить от дупов - sort -u

Если возникнет желание, то потом склеить результат.

ps: можно было сразу при парсинге раскладывать кейворды по буквам и периодически по крону зачищать дупы, а не копить себе будущую головную боль. :)

.............
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий