- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Удаление дублей происходит при использовании оперативной памяти, таким образом размер файла ограничен размером Вашей оперативной памяти.
Есть 2 варианта удаления дублей: быстрый но лимитированный, и медленный, но не лимитированный. Во втором случае надо сравнить все строки со всеми, а это значит, что на файл размером 45 гигабайт нужно произвести примерно миллиард миллиардов операций, что ровно в миллиард раз больше, чем производится при фильтрации. А это значит, что такой файл будет обрабатываться около миллиона лет. Кстати такой алгоритм используется при поиске вхождения строк друг в друга, и если попробовать обработать им такой файл, то он напишет Вам сколько точно займет по времени такая обработка.
Как удалять дубли, советы:
1. Удаляйте дубли в конечных выборках, это займет пару лишних минут.
2. Если файл отсортирован по алфавиту, то можно проверить есть ли там в принципе дубли, как правило не бывает, но если база собрана самостоятельно то другое дело.
3. Если файл отсортирован, разбить его на части размером меньше чем Ваша оперативная память, удалить в каждом куске дубли, затем открыть все эти файлы, произвести выборку без условий, чтобы они объединились и сохранить уже с нужным именем.
4. Самый лучший: Сделать выборку по первой букве по регулярному выражению во включениях типа "^a", "^б" и т.д. по каждой букве, затем проделать все действия, описанные в третьем пункте.
По поводу ICQ: я использую 2 аськи (ICQ и QIP), обе можно найти здесь. Писать лучше именно на ICQ 66-три-84-семь-900, так как QIP отличается тем, что очень много сообщений туда не доходят. ICQ доступно постоянно и отвечаю моментально.
Сделайте, пожалуйста, возможность применять условие:
#слово+#слово
и комбинации (# до или после)
А то так много ненужного вытягивает.
Принял Вашу идею. Возможно реализую в следующих обновах. Довольно хорошая концепция.
Пингвин обновлен до версии 5.3. Внесены следующие изменения:
До конца месяца действует скидка 40%, промокод: B9069F28F4BE49E1
Купить, как укажите промокод, не забудьте нажать кнопку "Использовать"
Скачаю вечером вашу программу,попробую ее в деле
X-Software, писал в асю пару дней назад, но ответа не последовало
напишу здесь
для выборки по файлам можно добавить функцию что бы НЕотфильтрованные кеи складывались тоже в какой нибудь файлик отдельно, плз
и что бы можно было выбирать эту фишку галочкой например
Пишите в аську 663 восемь четыре семь 900, она постоянно активна. Идею нужно обсудить детальнее.
Появилась задача очистить много дублей строк из разных файлов.
Перебрал тонну всякого софта. Времени потратил - несколько дней, а очищено от дублей не было даже половины.
И тут вспомнил о старом добром Пингвине. Решил попробовать.
Результаты небольшого эксперимента:
22 файла общим объемом 82Гб
Уникальных строк - 1,2Гб.
Ресурсы компа: 2Гб оперативы, 2 проца.
Результат - 1 файл, весом 1,2Гб. Потраченое время - 2,5 часа!
Я думаю, результаты говорят сами за себя.
X-Software, предлагаю добавить быструю очистки списка ключей. Сейчас есть 2 кнопки - "добавить файл с кейвордами" (зелёный плюс) и "открыть кейворды" - в обоих случаях файлы добавляются, если в рабочей области программы уже есть какие-то строки.
Нужна кнопка что-то вроде "очистить поле ввода" или по кнопке "открыть кейворды" именно открывать файл (а не добавлять его содержимое).
действительно толковая программа, еще бы клиент-серверную или веб 2.0 версию