Как найти слово в файле по количеству вхождений?

UL
На сайте с 04.08.2013
Offline
68
349

Как одинаковые строки найти я знаю, а вот повторяющиеся слова (заранее неизвестные) в них я не пойму никак.

С uniq + grep пока ничего не добился.

Lazy Badger
На сайте с 14.06.2017
Offline
231
#1

"Правильно заданный вопрос - половина ответа", а из написанного - я не понял вообще, что надо. Потрудитесь немного поработать головой и оформить свои мысли во что-то однозначно конкретное, а не воду общих слов, типа (формулировка задачи)

Что есть

URL HTML-страницы

Что нужно

Найти все слова, повторяющиеся в тексте N раз

Что пробовал

Что получил

Что ожидалось получить

Производство жести методом непрерывного отжига
UL
На сайте с 04.08.2013
Offline
68
#2

LazyBadger, есть текстовый файл, в котором таблица. Нужно в bash вывести из него любые повторяющиеся СЛОВА. Использовать одну из утилит линукса: uniq, head, awk, sort; ну, можно и другие. Лабораторная работа у меня такая.

По шаблону, нет проблем, вывести могу что угодно, фишка в том, что заранее я не знаю какие слова там повторяются, поэтому этот подход не катит. Никак не найду нужную команду :(

Lazy Badger
На сайте с 14.06.2017
Offline
231
#3

use_linux, уже лучше. Осталось доопределить (хотя бы для меня), что такое "таблица" (потому что термин многозначный, а одинаковое понимание - нужно)

Вообще-то делается чистым gawk, код мне писать лень, но если постановка задачи такова

Есть многострочный файл, каждая строка состоит из множества слов (алфавитно-цифровых символов), разделенными пробельными символами

то в gawk (man gawk)

* проходим по всем строкам

* в каждой строке циклом - по всем словам (полям в терминах гавка) строки (записи в терминах гавка) и автоинкрементим значение массива с индексом "значение поля"

* в секции END foreach-ем делается проход по собранному массиву и вывод индекса, если значение больше 1

Как-то так, написать осталось и отладить эту заготовку

IL
На сайте с 20.04.2007
Offline
435
#4
use_linux:
Лабораторная работа у меня такая.
use_linux:
use_linux

ник в помощь.. ))

и гугл: тынц

... :) Облачные серверы от RegRu - промокод 3F85-3D10-806D-7224 ( http://levik.info/regru )
UL
На сайте с 04.08.2013
Offline
68
#5

LazyBadger, В моем случае таблица - текстовый файл, в котором по колонкам написан текст. На колонки разделены пробелом.

---------- Добавлено 08.07.2019 в 13:50 ----------

ivan-lev, тебе легко говорить, если знаешь, что искать на английском. Мне одну "воду" выдает.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий