- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Здравствуйте, чем можно удалить дубли по строкам?
В файле 80кк ключевиков.
Прошу отписать если решите данный вопрос.
Пока могу удалять дубли только с 5-10кк.
textpipepro, выбираете в меню слева удалить -> дубликаты строк
ps берет любой размер файла
Есть самопис на c# который легко обрабатывает файлы по 2 гига. быстро и надежно )
Но для 2гб файлов нужна х64 винда и памяти поболее 4 гб.
вот прога http://cl.ly/302B03000z1N061J0o2h ( не помню, вроде она скомпилена под x86, если нужна будет под x64 скажите )
она берет строки из файла data ( без расширения )
и создает data-unique
для работу нужен .NET
Ну или кому сорцы нужны, вот :
а чем вам этот вариант не нравится ?
<?php file_put_contents(ok.txt , array_unique(file('файл.txt'))); ?>ставьте в php.ini много памяти и го
тс, ты так и не сказал сколько файл весит
а чем вам этот вариант не нравится ?
<?php file_put_contents(ok.txt , array_unique(file('файл.txt'))); ?>ставьте в php.ini много памяти и го
тс, ты так и не сказал сколько файл весит
Может просто не хватить памяти для считывания всего файла в массив.
Лучше считывать построчно, тогда останется надежда, что памяти хватит на массив с уникальными строками.
Выложу свой консольный вариант вечером, если найду.
Самому не доводилось испытывать, но в закладках торчит этот метод: /ru/forum/comment/3956196
Самый скоростной и действенный, но нужен Линух, а у автора Вынь.
Это именно оно.
Если у ТСа Винда - выход есть. GNU CoreUtils Win32
Нашел свой вариант на C++.
Консольная программа. Файл в 1кк строк (взят с newox.ru/free_base.php) обрабатывает в 3 раза быстрее варианта cat & sort & uniq.
Проверял на загруженной машине с 512RAM, камень селероновский. То есть понятно, что работать может намного быстрее.
Если еще нужно - могу скомпилить под винду или даже в приличный гуй обернуть.
BredoGen. добавил 06.12.2010 в 14:13
Как поведет себя с 80кк - без понятия.
Это именно оно.
Если у ТСа Винда - выход есть. GNU CoreUtils Win32
Винда загнется еще на cat, с большей долей вероятности :)
Может просто не хватить памяти для считывания всего файла в массив.
Лучше считывать построчно, тогда останется надежда, что памяти хватит на массив с уникальными строками.
построчно смысл теряется
считаешь одну строку, а с чем сравнивать её будешь?
на след.строке предыдущая уже забыта, иначе теряется смысл слова "построчно"
это долго
у меня perl-скрипт работает на линухе через хэши - за секунду из ляма выкидывает лишнее (русские кеи тоже обрабатывает)
с бОльшим кол-вом кеев просто не приходилось сталкиваться
кидай файл, посмотрим, сколько займёт
построчно смысл теряется
считаешь одну строку, а с чем сравнивать её будешь?
на след.строке предыдущая уже забыта, иначе теряется смысл слова "построчно"
Хранишь массив с хешами в памяти. Читаешь прострочно и сравниваешь. В чем проблема?