Если у вас 10 млрд Кейвордов, то после их удаления останется 1 млрд - Сервисы и программы для работы с SE

SZ

129

Sergey_Z

4 мая 2016, 18:07

#11

Если у Вас 10 млрд кейвордов и 90% дубли, то после их удаления останется 1 млрд.

И что Вы предполагаете с этим делать?

Технологии нефтепереработки (http://www.oil-solutions.ru) Технологии виртуализации (http://www.VDI-Tech.ru)

102

redeyer

4 мая 2016, 21:06

#12

colorito:
Интересно, справится ли?

cat keywords.txt | sort | uniq > new_keywords.txt

Справляется. Я тоже парсил прямой эфир и потом этими утилитами обрабатывал. Самый лучший способ - это сделать список с частотностями. Я делал вот так:

cat keys.txt |sort|uniq -c -i|sort -n -r > sorted-with-count.txt

На выходе получаем файл со списком ключей и их частотностью, за период парсинга. Т.е все "дубли" будут собраны в кучки и посчитаны. После этого файл в сотни раз уменьшится.

Примерно вот такой список (выделен красной рамкой):

А потом уже можно ковырять эти списки другими операторами, анализировать, формировать семантические ядра по тематикам и нишам и т. д. Ну вот, на этом же скрине видно как я распарсивал и подчитывал ключи по частотностям.

Услуги сисадмина. Настройка и оптимизация VPS https://searchengines.guru/ru/forum/928318 . Поднятие своих прокси, восстановление сайтов из вебархива. Мой канал о хостингах https://t.me/hostingexpert

Расширение Яндекс.Wordstat для Chrome Как вы собираете семантическое Парсинг Liveinternet (LI), помощь

174

Astaldo

8 мая 2016, 10:56

#13

colorito:

cat keywords.txt | sort | uniq > new_keywords.txt

А что это?

😕

---------- Добавлено 08.05.2016 в 13:57 ----------

redeyer:
Справляется. Я тоже парсил прямой эфир и потом этими утилитами обрабатывал. Самый лучший способ - это сделать список с частотностями. Я делал вот так:

cat keys.txt |sort|uniq -c -i|sort -n -r > sorted-with-count.txt

Прям то, что надо, можете растолковать что такое "cat keys.txt |sort|uniq -c -i|sort -n -r > sorted-with-count.txt" ?

😕

Live as if you were to die tomorrow. Learn as if you were to live forever. Mahatma Gandhi

MA

74

Maxim_Aminov

8 мая 2016, 11:22

#14

admak:
Более логично - сформировать на каждую букву по отдельному файлу, это можно сделать grep-ами.
Затем каждый файл очистить от дупов - sort -u
Если возникнет желание, то потом склеить результат.

не нужно придумывать лишних сущностей :) авторы sort умнее нас вместе взятых, программа сама прекрасно понимает, что память не резиновая и умеет использовать временные файлы :)

Вот прямо сейчас выполняется

nice -n 19 ionice -c2 -n7 sort ./id.01.txt -uo ./sort.id.01.txt -T ./_temp/

размер файла около 8гигов. На обычном сервере с 16G памяти и обычными дисками , отрабатывает за 1-2 часа.

Хостинг с большим объемом FirstVDS - отзывы Надежный реселлинг с DirectAdmin,

375

Artisan

8 мая 2016, 11:24

#15

Astaldo:
А что это? Прям то, что надо, можете растолковать что такое?

Это люди показывают, что они

не умеют читать описания прилад.

"cat" лишний в обоих случаях.

"sort" может работать

с файлом на диске.

www.leak.info / ДАРОМ линки конкурентов и забытых доменов

174

Astaldo

8 мая 2016, 11:42

#16

Artisan:
Это люди показывают, что они
не умеют читать описания прилад.

"cat" лишний в обоих случаях.

"sort" может работать
с файлом на диске.

Не, я в том смысле, что я, вообще, не знаю из какой это оперы, скажите как гуглить, что это за слова такие?)

375

Artisan

8 мая 2016, 11:51

#17

Astaldo:
Не, я в том смысле, что я, вообще, не знаю из какой это оперы,
скажите как гуглить, что это за слова такие?)

www.google.com / freebsd sort

https://www.freebsd.org/cgi/man.cgi?query=sort&sektion=1

The sort utility is compliant with the

IEEE Std 1003.1-2008 (“POSIX.1”) specification.

102

redeyer

8 мая 2016, 12:09

#18

Astaldo:
рям то, что надо, можете растолковать что такое "cat keys.txt |sort|uniq -c -i|sort -n -r > sorted-with-count.txt" ?

Это стандартные утилиты linux. Они есть на любом VPS, через консоль(bash) запускаете обработку. Вместо файла keys.txt указываете путь к своему файлу, вместо sorted-with-count.txt произвольное имя для файла, куда вы хотите сохранить результат обработки.

Утилита cat извлекает все что есть из файла keys.txt, отдает результат утилите sort, которая выстраивает ключи в алфавитном порядке, чтобы дубли сгруппировались. Это нужно, чтобы затем утилита uniq могла определить неповторяющися ключи, при этом запущенная с ключом -с она подсчитывает количество повторений каждого ключа в группе и выводит уже список в виде "количество - ключ". Результат снова передается утилите sort, чтобы она отсортировала уже ключи по частотности, при этом по умолчанию она отсортирует по возрастанию, а ключ -r переворачивает её результат, чтобы он был по убыванию. Таким образом самые высокочастотные ключи будут первыми в списке.

Artisan:
Это люди показывают, что они
не умеют читать описания прилад.

"cat" лишний в обоих случаях.

"sort" может работать
с файлом на диске.

Ну ладно уж, сделайте скидку, мы просто пока еще не такие гуру и вместо умничанья, отсылки в гуглы и чтения описаний "приклад", мы сразу даём работающее решение. По поводу cat - это не имеет особого значения.

В данном случае я привык использовать так, чтобы не путаться в синтаксисе с пайпами и есть мнение, что cat считывает файл на stout гораздо быстрее, чем это сделает sort. Даже если вспомнить философию unix-way - каждая утилита делает что-то одно, но делает это наилучшим способом.

Apache2 забивает процессы и Посоветуйте дорген под схему Excel для SEO: 5

174

Astaldo

8 мая 2016, 12:11

#19

Artisan:
www.google.com / freebsd sort

https://www.freebsd.org/cgi/man.cgi?query=sort&sektion=1

The sort utility is compliant with the
IEEE Std 1003.1-2008 (“POSIX.1”) specification.

О, шикарно, спасибо огромное!))

205

iccup

9 мая 2016, 05:07

#20

KeyWordKeeper 4.2.4

kimsufi.com ( https://www.kimsufi.com ) очень дешевые и качественные дедики https://clck.ru/gvF9p - антибот, использую уже 3 года.

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

10 млрд. кейвордов. Как удалить дубли?