- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
есть текстовый файл "big.txt", требуется удалить из него дубли
заливаю файл на сервер и ввожу из putty команды
cat big.txt
sort big.txt
sort big.txt | uniq
файл с русскими словами в кодировке cp1251
после ввода команд дубли не удалены
пытался переконвертировать из cp1251 в utf8 - русский текст превращается в кракозябры
как можно удалить дубликаты русских строк в фале?
ps в unix полный дуб
Спасибо!
Результат будет в big.txt-copy.
Либо сразу(но лучше не надо):
Сентябрь, только отсортировал
было в big.txt
слово 3
слово
слово 1
слово
слово 2
стало в big.txt-copy
слово
слово 1
слово 2
слово 2
слово 3
дубли остались ((
cat big.txt | sort| uniq > big_sorted.txt
Ylich, покажите пример данных.
sort | uniq должны сделать свое дело.
V2NEK, пример с данными в третьем посте - используются русские слова
iamsens, тоже не помогло, думаю проблема как раз в русскоязычности, если в файле как пример ввести англоязычные слова все сортируется и удаляется, но проблема, что исходный файл в котором удалять также русскоязычный
язык тут не причем
для sort и uniq, не важно, что находится внутри, он нормально и бинарные строки сортирует
кинь сюда 30-40 строк с файла, посмотрим что с ним не так
сделал также текстовый файл с "два три два три", закинул на впс, зашел из под putty и прям сразу в папке рут где лежит файл ввел команды - только отсортировалось
видимо глюк с впсом, пойду ковырять впску )))
еще у sort есть ключик -u
no_doubles.pl
./no_doubles.pl big.txt
Сделает то что нужно и без проблем с кодировкой. По времени выполнения оказалось даже существенно быстрее.
WapGraf, "shift" я правильно понял, что это имя файла из которого удаляем дубли?
на 2 млрд строк не загнется?