Penguin [Premium Edition] - программа для подбора и кластеризации ключевых слов.

X-Software
На сайте с 31.01.2014
Offline
61
#111

Акция! Покупайте до 7-го июня Penguin Premium Edition и Penguin Standard Edition, а так же X-Parser Light со скидкой 50%. Промокод акции - 4373A6B805C44417.

M
На сайте с 18.10.2006
Offline
185
#112

Хотелось бы иметь возможность по фильтрации дублей(и выборке), указав кол-во слов, которые следует игнорировать.

Пример:

Вася хочет купить большую и красивую легковую автомашину

Петя хочет купить большую и красивую легковую автомашину

Маша хочет купить большую и красивую легковую автомашину

Валя хочет купить большую и красивую легковую автомашину

Гриша хочет купить большую и красивую легковую автомашину

В данном примере если выставить в игнорируемый параметр 1 - то отфильтруется первое слово, после дубли и на выходе будет:

"хочет купить большую и красивую легковую автомашину"

Кому-то - асерет-а-диброт, а кому-то - хатуль мадан. Вам выбирать!
X-Software
На сайте с 31.01.2014
Offline
61
#113

Если я Вас правильно понял, то Вы можете сделать следующее: на вкладке Операции ввести "^[^ ]+ ", это удалит первые слова в каждой фразе, для удаления двух слов - "^[^ ]+\s+[^ ]+ " ", ну и по аналогии для 3-х и более слов, а затем удаляйте дубли. Таким же образом можно удалить любое слово во фразе, последнее будет так: "[^ ]+$". В целом можно добавить опцию удалить слова с k1 по k2, где k1 - позиция первого удаляемого слова, k2 - последнего. Если такой функционал нужен - напишите об этом ниже.

palarmaz
На сайте с 05.04.2010
Offline
125
#114

Добрый день. Мне нужно сделать выборку по 2000 анкорам. У меня на 11.7 версии не работает задание имени файла. Т.е выделяю в "списке включений" ключи, нажимаю F2 - и ничего не происходит.

Если выделить 1 слово в редакторе - то создается нормально.

А если в редакторе выделить несколько анкоров и нажать на F2 - то во включениях получается каша:

palarmaz
На сайте с 05.04.2010
Offline
125
#115

Так же не работает функция "Удалить явно дублирующие строки":

В итоге получается нормально. Дубли с оригиналом удалились. Результат:


1
2
3
4
5
6
7
8

Открываю файл с 9кк строками в EmEditor-е. Копирую с него же + 200к строк, получатся = 9.2кк строк. Далее в Пингвине делаю - "Удалить явно дублирующие строки" - получается итоге 9кк строк.

Почему оригинал остался?

Sergiko
На сайте с 11.03.2011
Offline
77
#116

Прежде всего, хочу поблагодарить ТС'а за программу - это реально крутая штука, жаль что не знал о ней раньше.

Не смог сам разобраться, как после чистки ключей удалить все строки, содержащие менее 3 слов?

Cursor
На сайте с 30.12.2017
Offline
34
#117

Долго создавал кластеры, сохранил проект, чтобы продолжить позже. После открытия этого проекта везде пусто, настройки слетели, сохранились только слова исключения. На вкладке "кластеризация" список базовых слов пустой. Думал проект сохраняется как в кей коллекторе.

Как сохранять проект без потери уже сделанного?

X-Software
На сайте с 31.01.2014
Offline
61
#118

Итак, давайте разберемся с поставленными вопросами:

palarmaz:
Т.е выделяю в "списке включений" ключи, нажимаю F2 - и ничего не происходит.

F2 в окне редактора как раз и срабатывает именно для выделенного текста, а не для списка выделенных строк. Вам же нужно указать Ваши условия в списке включений и в контекстном меню выбрать первую строку "Подставить к каждому условию имя файла (условие:=условие.txt)" и получите нужный Вам результат. В принципе можно добавить алгоритм, который и из окна редактора будет условия вставлять построчно, сделаю.

palarmaz:
Так же не работает функция "Удалить явно дублирующие строки":
...
Открываю файл с 9кк строками в EmEditor-е. Копирую с него же + 200к строк, получатся = 9.2кк строк. Далее в Пингвине делаю - "Удалить явно дублирующие строки" - получается итоге 9кк строк.
Почему оригинал остался?

Функцию удаления явных дублей проверил - работает корректно. По строкам: при открытии файла пингвин не читает файл целиком, а читает первые 5к строк и считает примерное количество строк, и может очень сильно ошибаться, если например в начале файла строки короткие а в конце длинные. После же каждой операции, прочитав файл, пингвин показывает уже точное количество строк. Если нужно точно посчитать строки, то нужно нажать на кнопку пересчета в виде оранжевой стрелки, которая расположена в стаусбраре рядом с количеством строк. И так же обратите внимание, что при открытии файла пингвин пишет "Количество строк (примерно)".

Sergiko:
Не смог сам разобраться, как после чистки ключей удалить все строки, содержащие менее 3 слов?

Вот скриншот с настройками для этого:

Cursor:
Долго создавал кластеры, сохранил проект, чтобы продолжить позже. После открытия этого проекта везде пусто, настройки слетели, сохранились только слова исключения. На вкладке "кластеризация" список базовых слов пустой. Думал проект сохраняется как в кей коллекторе.
Как сохранять проект без потери уже сделанного?

Смотрите, проект с кластерами сохраняется вот здесь, на вкладке кластеризации, а в меню сохраняется проект с первой вкладки, так как эти 2 модуля независимые друг от друга и настройки и результаты их никак не связаны:

Cursor
На сайте с 30.12.2017
Offline
34
#119
X-Software:
эти 2 модуля независимые друг от друга и настройки и результаты их никак не связаны

Теперь понятно, спасибо.

S
На сайте с 18.02.2018
Offline
30
#120

Если таблицу кластеризации отсортировать , например по алфавиту или по возрастанию, то чекбоксы перестают отмечаться с первого раза.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий