10 млрд. кейвордов. Как удалить дубли?

174

Astaldo

4 мая 2016, 13:34

1940

Всем привет.

Напарсили из прямого эфира 10 млрд. кейвордов.

Дублей наверное 80-90%, не знаем как их удалить, хотя бы по точному соответствию.

Какие есть сервисы/скрипты для такого дела?

Live as if you were to die tomorrow. Learn as if you were to live forever. Mahatma Gandhi

126

Z0G SYSTEM

4 мая 2016, 14:32

#1

Astaldo:
Всем привет.

Напарсили из прямого эфира 10 млрд. кейвордов.
Дублей наверное 80-90%, не знаем как их удалить, хотя бы по точному соответствию.
Какие есть сервисы/скрипты для такого дела?

Могу очистить от дуплей базу, но результат очищенный остается нам обоим! За 2-3 дня будет готово. Есть база у самого на 35 миллионов с прямого эфира почищенная на дупли, но возможно ешё дополню свою немного с вашей. Если интересно, по контактам Аська 2229193 Скайп seobasetrust

41

TOBBOT

4 мая 2016, 14:48

#2

какой размеры базы в мегабайтах?

Инструменты интернет-маркетинга - JLAB (http://jlab.io/) Бесплатная автоматизация с программой TOBBOT (http://tobbot.com/)

126

Z0G SYSTEM

4 мая 2016, 14:59

#3

TOBBOT:
какой размеры базы в мегабайтах?

1,25 Гб (UTF) - 35 миллионов строк база прямого эфира, вот и прикинь примерный размер базы ТС.

---------------------------------------------------------------------------------------------------------------------

40 Гб (UTF) - Полтора миллиарда строк, база Метрики Яндекс, но там строки от очень коротких до очень длинных

C

54

colorito

4 мая 2016, 15:16

#4

Интересно, справится ли?

cat keywords.txt | sort | uniq > new_keywords.txt

2

Услуги по парсингу данных (/ru/forum/939826), единоразовый и регулярный сбор данных. Любые объемы. Скрипты на PHP, создание и доработка, решение проблем с сайтами Пишите в личные сообщения или скайп

S0

81

Sergi0k

4 мая 2016, 15:20

#5

Качай Пингвин и решай все свои вопросы

126

Z0G SYSTEM

4 мая 2016, 15:23

#6

Sergi0k:
Качай Пингвин и решай все свои вопросы

Ты для начала сам попробуй 10 миллиардов обработать, прежде чем советовать, а потом всё поймёшь. 500 миллионов ешё нормально отсортировать, а вот больший размер проблема упирающаяся в оперативку + время на удаление дуплей!

---------- Добавлено 04.05.2016 в 18:25 ----------

colorito:
Интересно, справится ли? cat keywords.txt | sort | uniq > new_keywords.txt

С файлами на 2 миллиарда справляется без проблем, оперативки щас уже не припомню, но что-то около 10 гигов жрало. Если все делать на серверном оборудовании, без проблем должно вытянуть 10 миллиардов.

У меня немного другой алгоритм выполнения действий по удалению дуплей, но тут обсуждать я его не буду, пока сам пользуюсь таковым!

C

54

colorito

4 мая 2016, 15:35

#7

knowing2business:

С файлами на 2 миллиарда справляется без проблем, оперативки щас уже не припомню, но что-то около 10 гигов жрало. Если все делать на серверном оборудовании, без проблем должно вытянуть 10 миллиардов.

Можно для начала разбить 10 млрд строк на 10 файлов по 1млрд в каждом

split -l 1000000000 keywords.txt

Потом эти файлы отсортировать, очистить от дублей командой выше, склеить все обратно и опять отсортировать и очистить

Можно склеить, потом разбить еще раз (выборка будет уже другая), тоже отсортировать, уникализировать и склеить

И так до тех пор, пока не получим один файл, подходящий нам по размеру, который система сможет обработать

1

126

Z0G SYSTEM

4 мая 2016, 15:41

#8

colorito:
Можно для начала разбить 10 млрд строк на 10 файлов по 1млрд в каждом

split -l 1000000000 keywords.txt

Потом эти файлы отсортировать, очистить от дублей командой выше, склеить все обратно и опять отсортировать и очистить

Можно склеить, потом разбить еще раз (выборка будет уже другая), тоже отсортировать, уникализировать и склеить

И так до тех пор, пока не получим один файл, подходящий нам по размеру, который система сможет обработать

Согласен! Можно и таким макаром, вопрос упирается во временной промежуток и лишние телодвижения! ТС спрашивает про сервисы, таких думаю не существует! Поэтому и предложил свою услугу в замен на очищенный результат. Бесплатно никто и ничего делать не будет, нужен взаимовыгодный обмен.

Хотя есть сомнения насчёт пополнения своей базы на 35 миллионов, так как тоже по максимуму выпаршивал прямой эфир яндекса и убирал дупли + все коме латиницы и кирилицы и знаков отличных от , . и т.п.

525

cscope

4 мая 2016, 17:01

#9

Есть бесплатные проги типа keywasher, можно разделить файл на 10-20 частей, а потом обработать каждый функцией "удалить дубли". Но это в теории, а на практике думаю нужен очень мощный комп, чтобы это все обработал, а не завис.

P.S. у меня тоже есть база типа мини-моаб, хз сколько там кеев, но файлов 70к, вес 54гб, тоже никак руки не дойдут разобраться с этой базой.

A

130

admak

4 мая 2016, 17:57

#10

colorito:
Можно для начала разбить 10 млрд строк на 10 файлов по 1млрд в каждом
split -l 1000000000 keywords.txt
Потом эти файлы отсортировать, очистить от дублей командой выше, склеить все обратно и опять отсортировать и очистить
Можно склеить, потом разбить еще раз (выборка будет уже другая), тоже отсортировать, уникализировать и склеить
И так до тех пор, пока...

Более логично - сформировать на каждую букву по отдельному файлу, это можно сделать grep-ами.

Затем каждый файл очистить от дупов - sort -u

Если возникнет желание, то потом склеить результат.

ps: можно было сразу при парсинге раскладывать кейворды по буквам и периодически по крону зачищать дупы, а не копить себе будущую головную боль. :)

.............

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Маркетинг для шоколадной фабрики. На 34% выше средний чек