Вышло обновление Penguin до версии 12.8. Изменения актуальны и для Standard, и для Premium версий. Внесены следующие изменения:
---------- Добавлено 15.01.2019 в 18:41 ----------
Откройте исходный файл для обработки, второй добавьте в исключения и в меню удаления дублей выберите пункт "Удалить точные совпадения с исключениями", это он делает очень быстро. Как раз то что Вам нужно.
Итак, давайте разберемся с поставленными вопросами:
F2 в окне редактора как раз и срабатывает именно для выделенного текста, а не для списка выделенных строк. Вам же нужно указать Ваши условия в списке включений и в контекстном меню выбрать первую строку "Подставить к каждому условию имя файла (условие:=условие.txt)" и получите нужный Вам результат. В принципе можно добавить алгоритм, который и из окна редактора будет условия вставлять построчно, сделаю.
Функцию удаления явных дублей проверил - работает корректно. По строкам: при открытии файла пингвин не читает файл целиком, а читает первые 5к строк и считает примерное количество строк, и может очень сильно ошибаться, если например в начале файла строки короткие а в конце длинные. После же каждой операции, прочитав файл, пингвин показывает уже точное количество строк. Если нужно точно посчитать строки, то нужно нажать на кнопку пересчета в виде оранжевой стрелки, которая расположена в стаусбраре рядом с количеством строк. И так же обратите внимание, что при открытии файла пингвин пишет "Количество строк (примерно)".
Вот скриншот с настройками для этого:
Смотрите, проект с кластерами сохраняется вот здесь, на вкладке кластеризации, а в меню сохраняется проект с первой вкладки, так как эти 2 модуля независимые друг от друга и настройки и результаты их никак не связаны:
Если я Вас правильно понял, то Вы можете сделать следующее: на вкладке Операции ввести "^[^ ]+ ", это удалит первые слова в каждой фразе, для удаления двух слов - "^[^ ]+\s+[^ ]+ " ", ну и по аналогии для 3-х и более слов, а затем удаляйте дубли. Таким же образом можно удалить любое слово во фразе, последнее будет так: "[^ ]+$". В целом можно добавить опцию удалить слова с k1 по k2, где k1 - позиция первого удаляемого слова, k2 - последнего. Если такой функционал нужен - напишите об этом ниже.
Акция! Покупайте до 7-го июня Penguin Premium Edition и Penguin Standard Edition, а так же X-Parser Light со скидкой 50%. Промокод акции - 4373A6B805C44417.
Ну это просто: в операциях задаете ;.*$, что означает удалить любые символы начиная в точки с запятой до конца строки, и запустить.
Я по всем контактам всегда онлайн, пишите на все сразу, там же роскомнадзор 20 лямов IP-адресов забанил, может из-за этого на какие-то месенджеры не доходят сообщения. Или сюда в ЛС напишите, от Вас нужно только мыло или код активации если есть, так же проверьте ту ли версию Вы скачали.---------- Добавлено 06.05.2018 в 22:37 ----------
У ДЦ были проблемы какие-то, давно не было. Если будут повторяться проблемы такие придется переехать на другой сервер. Но обычно это разовые явления.---------- Добавлено 06.05.2018 в 22:38 ----------
Запустите, введите код активации, мыло и любой контакт дополнительный и все. Все просто.---------- Добавлено 06.05.2018 в 22:40 ----------
Он при открытии не считает строки точно, а берет первые несколько тысяч строк и считает по стредней длине строки примерное количество строк в файле. Если нужно точно, то рядом с кол-вом строк есть стрелка для пересчета. После любой операции количество строк считается точно.---------- Добавлено 06.05.2018 в 22:41 ----------
Откройте вкладку операции, и укажите условие .*?\s и запустите фильтрацию, он оставит только то что за пределами ... .
Вышло обновление Penguin до версии 11.7. Изменения актуальны и для Standard, и для Premium версий. Внесены следующие изменения:
*************************************************************************************
Все идеи по доработкам, озвученные выше принял, в будущих обновлениях что-то из этого реализую. Если нужно что-то кому-то добавить срочно - пишите по контактам на сайте в аську, телеграм или скайп, при личном контакте я могу выделить время на обновление в срочном порядке и сделать их непосредственно под Вас и дам Вам на тест, чтобы убедиться, что все сделано корректно и так, как Вам нужно.
Чтобы пингвин автоматически сделал кластеризацию по 3 словам, а остаток фраз сразу же кластеризировал по 2 словам и соответственно остаток от 2 слов - по одному слову, нужно на вкладке "Кластеризация" зайти в "Дополнительные параметры" и выбрать пункт меню "Распределить фразы не удовлетворяющие базовым условиям уменьшая размер фразы". В этом режиме, если начальное условие - кластеризировать по 4-м словам, то пингвин сначала выполнит кластеризацию по 4-м словам, затем по 3-м, затем по 2-м и по одному слову. Т.е. весь "хвост" будет кластеризирован по всем возможным размерам фразы.
На счет частотности: в будущем она однозначно будет, как и работа с csv файлами, но пока на ближайшее время такое обновление на запланировано, так как это потребует переписать все базовые алгоритмы и из концепции обработки списка строк сделать концепцию обработки списка из сток, состоящих из нескольких столбцов. И при этом не потерять скорость обработки.
Вышло обновление Penguin до версии 11.0. Изменения актуальны и для Standard, и для Premium версий. Внесены следующие изменения:
Такого режима обработки в ней нет, пингвин работает по принципу невнесения изменений в источник, так как изначально задуман был для осуществления выборок из файлов, а не редактирования их.