Как найти слово в файле по количеству вхождений?

UL

68

use_linux

6 июля 2019, 22:40

353

Как одинаковые строки найти я знаю, а вот повторяющиеся слова (заранее неизвестные) в них я не пойму никак.

С uniq + grep пока ничего не добился.

228

Lazy Badger

7 июля 2019, 02:54

#1

"Правильно заданный вопрос - половина ответа", а из написанного - я не понял вообще, что надо. Потрудитесь немного поработать головой и оформить свои мысли во что-то однозначно конкретное, а не воду общих слов, типа (формулировка задачи)

Что есть

URL HTML-страницы

Что нужно

Найти все слова, повторяющиеся в тексте N раз

Что пробовал

Что получил

Что ожидалось получить

Производство жести методом непрерывного отжига

Вопрос насчет перелинковки Почему не стоит пользоваться Комплексное продвижение для англоязычных

UL

68

use_linux

7 июля 2019, 17:46

#2

LazyBadger, есть текстовый файл, в котором таблица. Нужно в bash вывести из него любые повторяющиеся СЛОВА. Использовать одну из утилит линукса: uniq, head, awk, sort; ну, можно и другие. Лабораторная работа у меня такая.

По шаблону, нет проблем, вывести могу что угодно, фишка в том, что заранее я не знаю какие слова там повторяются, поэтому этот подход не катит. Никак не найду нужную команду :(

Автоматизация обратного DNS-запроса 10 млрд. кейвордов. Как как бороться с этим

228

Lazy Badger

7 июля 2019, 21:06

#3

use_linux, уже лучше. Осталось доопределить (хотя бы для меня), что такое "таблица" (потому что термин многозначный, а одинаковое понимание - нужно)

Вообще-то делается чистым gawk, код мне писать лень, но если постановка задачи такова

Есть многострочный файл, каждая строка состоит из множества слов (алфавитно-цифровых символов), разделенными пробельными символами

то в gawk (man gawk)

* проходим по всем строкам

* в каждой строке циклом - по всем словам (полям в терминах гавка) строки (записи в терминах гавка) и автоинкрементим значение массива с индексом "значение поля"

* в секции END foreach-ем делается проход по собранному массиву и вывод индекса, если значение больше 1

Как-то так, написать осталось и отладить эту заготовку

Особенности продвижения в Google Дмитрий Завалишин (Digital Zone) Полный курс SEO от

IL

435

ivan-lev

7 июля 2019, 21:51

#4

use_linux:
Лабораторная работа у меня такая.

use_linux:
use_linux

ник в помощь.. ))

и гугл: тынц

... :) Облачные серверы от RegRu - промокод 3F85-3D10-806D-7224 ( http://levik.info/regru )

UL

68

use_linux

8 июля 2019, 09:46

#5

LazyBadger, В моем случае таблица - текстовый файл, в котором по колонкам написан текст. На колонки разделены пробелом.

---------- Добавлено 08.07.2019 в 13:50 ----------

ivan-lev, тебе легко говорить, если знаешь, что искать на английском. Мне одну "воду" выдает.

Не могу найти ошибку Спрашиваем и отвечаем по Переключить язык на странице

Яндекс Вебмастер вынес товарные фиды в отдельный раздел

Что такое Power BI и зачем это нужно бизнесу