- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Зачем быть уникальным в мире, где все можно скопировать
Почему так важна уникальность текста и как она влияет на SEO
Ingate Organic
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Если у Вас 10 млрд кейвордов и 90% дубли, то после их удаления останется 1 млрд.
И что Вы предполагаете с этим делать?
Интересно, справится ли?
cat keywords.txt | sort | uniq > new_keywords.txt
Справляется. Я тоже парсил прямой эфир и потом этими утилитами обрабатывал. Самый лучший способ - это сделать список с частотностями. Я делал вот так:
На выходе получаем файл со списком ключей и их частотностью, за период парсинга. Т.е все "дубли" будут собраны в кучки и посчитаны. После этого файл в сотни раз уменьшится.
Примерно вот такой список (выделен красной рамкой):
А потом уже можно ковырять эти списки другими операторами, анализировать, формировать семантические ядра по тематикам и нишам и т. д. Ну вот, на этом же скрине видно как я распарсивал и подчитывал ключи по частотностям.
cat keywords.txt | sort | uniq > new_keywords.txt
А что это?
😕
---------- Добавлено 08.05.2016 в 13:57 ----------
Справляется. Я тоже парсил прямой эфир и потом этими утилитами обрабатывал. Самый лучший способ - это сделать список с частотностями. Я делал вот так:
Прям то, что надо, можете растолковать что такое "cat keys.txt |sort|uniq -c -i|sort -n -r > sorted-with-count.txt" ?
😕
Более логично - сформировать на каждую букву по отдельному файлу, это можно сделать grep-ами.
Затем каждый файл очистить от дупов - sort -u
Если возникнет желание, то потом склеить результат.
не нужно придумывать лишних сущностей :) авторы sort умнее нас вместе взятых, программа сама прекрасно понимает, что память не резиновая и умеет использовать временные файлы :)
Вот прямо сейчас выполняется
nice -n 19 ionice -c2 -n7 sort ./id.01.txt -uo ./sort.id.01.txt -T ./_temp/
размер файла около 8гигов. На обычном сервере с 16G памяти и обычными дисками , отрабатывает за 1-2 часа.
А что это? Прям то, что надо, можете растолковать что такое?
Это люди показывают, что они
не умеют читать описания прилад.
"cat" лишний в обоих случаях.
"sort" может работать
с файлом на диске.
Это люди показывают, что они
не умеют читать описания прилад.
"cat" лишний в обоих случаях.
"sort" может работать
с файлом на диске.
Не, я в том смысле, что я, вообще, не знаю из какой это оперы, скажите как гуглить, что это за слова такие?)
Не, я в том смысле, что я, вообще, не знаю из какой это оперы,
скажите как гуглить, что это за слова такие?)
www.google.com / freebsd sort
https://www.freebsd.org/cgi/man.cgi?query=sort&sektion=1
The sort utility is compliant with the
IEEE Std 1003.1-2008 (“POSIX.1”) specification.
рям то, что надо, можете растолковать что такое "cat keys.txt |sort|uniq -c -i|sort -n -r > sorted-with-count.txt" ?
Это стандартные утилиты linux. Они есть на любом VPS, через консоль(bash) запускаете обработку. Вместо файла keys.txt указываете путь к своему файлу, вместо sorted-with-count.txt произвольное имя для файла, куда вы хотите сохранить результат обработки.
Утилита cat извлекает все что есть из файла keys.txt, отдает результат утилите sort, которая выстраивает ключи в алфавитном порядке, чтобы дубли сгруппировались. Это нужно, чтобы затем утилита uniq могла определить неповторяющися ключи, при этом запущенная с ключом -с она подсчитывает количество повторений каждого ключа в группе и выводит уже список в виде "количество - ключ". Результат снова передается утилите sort, чтобы она отсортировала уже ключи по частотности, при этом по умолчанию она отсортирует по возрастанию, а ключ -r переворачивает её результат, чтобы он был по убыванию. Таким образом самые высокочастотные ключи будут первыми в списке.
Это люди показывают, что они
не умеют читать описания прилад.
"cat" лишний в обоих случаях.
"sort" может работать
с файлом на диске.
Ну ладно уж, сделайте скидку, мы просто пока еще не такие гуру и вместо умничанья, отсылки в гуглы и чтения описаний "приклад", мы сразу даём работающее решение. По поводу cat - это не имеет особого значения.
В данном случае я привык использовать так, чтобы не путаться в синтаксисе с пайпами и есть мнение, что cat считывает файл на stout гораздо быстрее, чем это сделает sort. Даже если вспомнить философию unix-way - каждая утилита делает что-то одно, но делает это наилучшим способом.
www.google.com / freebsd sort
https://www.freebsd.org/cgi/man.cgi?query=sort&sektion=1
The sort utility is compliant with the
IEEE Std 1003.1-2008 (“POSIX.1”) specification.
О, шикарно, спасибо огромное!))
KeyWordKeeper 4.2.4