10 млрд. кейвордов. Как удалить дубли?

12
SZ
На сайте с 14.03.2005
Offline
129
#11

Если у Вас 10 млрд кейвордов и 90% дубли, то после их удаления останется 1 млрд.

И что Вы предполагаете с этим делать?

Технологии нефтепереработки (http://www.oil-solutions.ru) Технологии виртуализации (http://www.VDI-Tech.ru)
redeyer
На сайте с 27.01.2010
Offline
102
#12
colorito:
Интересно, справится ли?

cat keywords.txt | sort | uniq > new_keywords.txt

Справляется. Я тоже парсил прямой эфир и потом этими утилитами обрабатывал. Самый лучший способ - это сделать список с частотностями. Я делал вот так:

cat keys.txt |sort|uniq -c -i|sort -n -r > sorted-with-count.txt

На выходе получаем файл со списком ключей и их частотностью, за период парсинга. Т.е все "дубли" будут собраны в кучки и посчитаны. После этого файл в сотни раз уменьшится.

Примерно вот такой список (выделен красной рамкой):

А потом уже можно ковырять эти списки другими операторами, анализировать, формировать семантические ядра по тематикам и нишам и т. д. Ну вот, на этом же скрине видно как я распарсивал и подчитывал ключи по частотностям.

Услуги сисадмина. Настройка и оптимизация VPS https://searchengines.guru/ru/forum/928318 . Поднятие своих прокси, восстановление сайтов из вебархива. Мой канал о хостингах https://t.me/hostingexpert
Astaldo
На сайте с 28.01.2006
Offline
174
#13
colorito:

cat keywords.txt | sort | uniq > new_keywords.txt

А что это?

😕

---------- Добавлено 08.05.2016 в 13:57 ----------

redeyer:
Справляется. Я тоже парсил прямой эфир и потом этими утилитами обрабатывал. Самый лучший способ - это сделать список с частотностями. Я делал вот так:
cat keys.txt |sort|uniq -c -i|sort -n -r > sorted-with-count.txt


Прям то, что надо, можете растолковать что такое "cat keys.txt |sort|uniq -c -i|sort -n -r > sorted-with-count.txt" ?

😕

Live as if you were to die tomorrow. Learn as if you were to live forever. Mahatma Gandhi
MA
На сайте с 24.06.2012
Offline
74
#14
admak:
Более логично - сформировать на каждую букву по отдельному файлу, это можно сделать grep-ами.
Затем каждый файл очистить от дупов - sort -u
Если возникнет желание, то потом склеить результат.

не нужно придумывать лишних сущностей :) авторы sort умнее нас вместе взятых, программа сама прекрасно понимает, что память не резиновая и умеет использовать временные файлы :)

Вот прямо сейчас выполняется

nice -n 19 ionice -c2 -n7 sort ./id.01.txt -uo ./sort.id.01.txt -T ./_temp/

размер файла около 8гигов. На обычном сервере с 16G памяти и обычными дисками , отрабатывает за 1-2 часа.

Artisan
На сайте с 04.03.2005
Offline
354
#15
Astaldo:
А что это? Прям то, что надо, можете растолковать что такое?

Это люди показывают, что они

не умеют читать описания прилад.

"cat" лишний в обоих случаях.

"sort" может работать

с файлом на диске.

www.leak.info / ДАРОМ линки конкурентов и забытых доменов
Astaldo
На сайте с 28.01.2006
Offline
174
#16
Artisan:
Это люди показывают, что они
не умеют читать описания прилад.

"cat" лишний в обоих случаях.

"sort" может работать
с файлом на диске.

Не, я в том смысле, что я, вообще, не знаю из какой это оперы, скажите как гуглить, что это за слова такие?)

Artisan
На сайте с 04.03.2005
Offline
354
#17
Astaldo:
Не, я в том смысле, что я, вообще, не знаю из какой это оперы,
скажите как гуглить, что это за слова такие?)

www.google.com / freebsd sort

https://www.freebsd.org/cgi/man.cgi?query=sort&sektion=1

The sort utility is compliant with the

IEEE Std 1003.1-2008 (“POSIX.1”) specification.

redeyer
На сайте с 27.01.2010
Offline
102
#18
Astaldo:
рям то, что надо, можете растолковать что такое "cat keys.txt |sort|uniq -c -i|sort -n -r > sorted-with-count.txt" ?

Это стандартные утилиты linux. Они есть на любом VPS, через консоль(bash) запускаете обработку. Вместо файла keys.txt указываете путь к своему файлу, вместо sorted-with-count.txt произвольное имя для файла, куда вы хотите сохранить результат обработки.

Утилита cat извлекает все что есть из файла keys.txt, отдает результат утилите sort, которая выстраивает ключи в алфавитном порядке, чтобы дубли сгруппировались. Это нужно, чтобы затем утилита uniq могла определить неповторяющися ключи, при этом запущенная с ключом -с она подсчитывает количество повторений каждого ключа в группе и выводит уже список в виде "количество - ключ". Результат снова передается утилите sort, чтобы она отсортировала уже ключи по частотности, при этом по умолчанию она отсортирует по возрастанию, а ключ -r переворачивает её результат, чтобы он был по убыванию. Таким образом самые высокочастотные ключи будут первыми в списке.

Artisan:
Это люди показывают, что они
не умеют читать описания прилад.

"cat" лишний в обоих случаях.

"sort" может работать
с файлом на диске.

Ну ладно уж, сделайте скидку, мы просто пока еще не такие гуру и вместо умничанья, отсылки в гуглы и чтения описаний "приклад", мы сразу даём работающее решение. По поводу cat - это не имеет особого значения.

В данном случае я привык использовать так, чтобы не путаться в синтаксисе с пайпами и есть мнение, что cat считывает файл на stout гораздо быстрее, чем это сделает sort. Даже если вспомнить философию unix-way - каждая утилита делает что-то одно, но делает это наилучшим способом.

Astaldo
На сайте с 28.01.2006
Offline
174
#19
Artisan:
www.google.com / freebsd sort

https://www.freebsd.org/cgi/man.cgi?query=sort&sektion=1

The sort utility is compliant with the
IEEE Std 1003.1-2008 (“POSIX.1”) specification.

О, шикарно, спасибо огромное!))

iccup
На сайте с 01.05.2016
Offline
195
#20

KeyWordKeeper 4.2.4

kimsufi.com ( https://www.kimsufi.com ) очень дешевые и качественные дедики https://clck.ru/gvF9p - антибот, использую уже 3 года.
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий