Обновение Penguin до версии 5. 7. Внесены следующие изменения - Сервисы и программы для работы с SE

Penguin бесплатная программа для подбора ключевых слов + база на 200млн. кейвордов

X-Software · 2026-07-01T11:06:54.0000000Z

Penguin это бесплатная программа, служащая для обработки текстовых файлов больших размеров (до терабайта). Под обработкой подразумевается возможность осуществления выборок по ряду условий, фильтрация этих выборок от любого мусора, сортировка, перемешивание, удаление явных и неявных дублей строк, поиск дубликатов строк, осуществление поиска, замены и т.п. Penguin позволяет свободно открывать текстовые файлы любых размеров и просматривать их содержимое, что позволяет удобно и быстро настраивать параметры фильтров для качественной очистки содержимого файлов или выборок от всех нежелательных элементов. Области применения Penguin: Основной, но далеко не единственной, областью применения Penguin является подбор ключевых слов из баз, хранящихся в больших текстовых файлах , подобных Базе Пастухова, которые можно найти в свободном доступе в сети. Так же он будет полезен, если возникает необходимость извлечь нужные данные из любого списка или файла, или очистить его от ненужных элементов. Вполне возможно применение Penguin для очистки отпарсенного контента от дублей и любого мусора, что бывает необходимо при подготовке текстов под доргены. Основной особенностью Penguin является возможность свободно открывать большие текстовые файлы, которые не может открыть ни один текстовый редактор. Это особенно актуально при работе с базами ключевых слов больших размеров, так как Вы можете визуально оценивать, как качество исходной базы, так и качество конечных выборок, что позволяет делать исключительно чистые выборки. Penguin абсолютно бесплатен и может использоваться без каких либо ограничений. В дополнение он имеет расширенную верию, которая имеет дополнительный функционал, который будет расширяться с новыми обновлениями. Так же Вы можете заказывать совершенно бесплатно любые дополнения функционала под себя. Стоимость расширенной версии составляет всего 10$. При покупке расширенной версии Вы так же получаете дополнительные бонусы, на момент публикации поста это скидка в 50% на покупку X-Parser Light . Интерфейс программы Penguin 3.0: Программа состоит всего из одной формы, скриншот которой Вы можете увидеть ниже. Все элементы имеют всплывающие подсказки, особо важные элементы формы имеют подробное описание их возможностей. Назначение каждой кнопки Вы увидите, просто наведя на них указатель мыши. Интерфейс прост и интуитивно понятен, так что думаю проблем с Пингвином у Вас не должно возникнуть. Краткий видеообзор: Какие задачи может решать Penguin: Открывать и просматривать контент больших текстовых файлов (1-2000Gb). Производить выборки по ряду условий из текстовых файлов любых размеров со скоростью порядка 1 гигабайта в минуту. Производить фильтрацию строк или кейвордов по включениям. Т.е. задав в качестве включения слово "Скачать" Вы получите все строки, которые содержат данное слово. Возможно задавать несколько включений одновременно, можно использовать регулярные выражения. Производить фильтрацию строк или кейвордов по исключениям. Т.е. задав в качестве включения слово "Бесплатно" Вы получите все строки, которые не содержат данное слово. Возможно задавать несколько включений одновременно, можно использовать регулярные выражения. Производить фильтрацию фильтрации строк или кейвордов по дублям слов (в расширенной версии). Фильтровать строки по длине. Фильтровать строки по количество слов. Удалять явные дубли. Удалять неявные дубли (в расширенной версии). Находить дубли. Актуально, если нужно найти пересечения в нескольких списках любых строк или кейвордов (в расширенной версии). Производить поиск нужных элементов каждой строки с помощью регулярных выражений. Например можно с легкостью из списка с данными клиентов извлечь список телефонов, задав 1 условие. Производить поиск-замену, как с регулярными выражениями, так и без, в текстовых файлах неограниченных размеров. Производить обработку одновременно нескольких файлов. Производить выборку по разным включениям, сохраняя результаты в разные файлы, получая отдельные выборки по каждому условию за 1 проход (в расширенной версии). Сохранять все настройки для повторного выполнения однотипных обработок. Благодаря визуализации контента позволяет удобно и быстро настраивать фильтры посредством сочетаний клавиш и контекстного меню. Например выделив слово в открытом файле и нажав Ctrl+W слово будет добавлено во включения, Ctrl+Q в исключения. Все сочетания клавиш дублируют возможности контекстного меню, которое можно вызвать, кликнув на выделении правой кнопкой мыши. Ссылки: Ссылка: Скачать Ссылка: Скачать базу ключевых слов на 200 миллионов кейвордов, 10Gb (torrent) Ссылка: Официальный сайт С любыми вопросами обращайтесь на e-mail: support@x-parser.ru, прочие контакты Вы найдете на официальном сайте или же в самом приложении (На форме «О программе»).

61

X-Software

21 апреля 2016, 20:04

#61

Обновления! Penguin обновлен до версии 5.7. Внесены следующие изменения:

Добавлена возможность создавать новый проект, что позволяет быстро очистить форму приложения от всех ранее введенных данных.
Добавлена индикация при подсчете количества строк в очереди были ли посчитаны они точно или примерно.
Добавлена возможность удаления явных и неявных дублей в файлах весом в 10Gb и более. Примерно в трое превышающих объем ОЗУ.
Исправлена ошибка при сохранении больших файлов, когда при сохранении оставалась 1 строка.

Скачать Penguin 5.7

Вышла новая версия PositionMeter Google представил мобильное приложение Редактор AdWords 11.2 уже

93

Sevix

23 апреля 2016, 08:11

#62

Возможно сделать, чтобы искало

#слово+#слово?

Так

#слово+слово

чего то тоже не ищет. Полгода прошло уже.

1

93

Sevix

27 апреля 2016, 10:47

#63

Время выборки для одного сова (или слово+слово) из моей базы занимает примерно 50-60 мин.

Логично было бы предположить, что если делать выборку для более чем одной фразы, время должно быть примерно таким же (+ -), с разницей только, что для каждого слова создается свой файл.

Но нет. Мало того, что итоговое время становится = время для каждого слова помноженное на количество слов (файлов) в выборке, так еще и для каждого отдельно взятого слова время увеличивается более чем в 2 раза.

Как будто программа проходит всю базу сначала для одного слова, потом для другого, опять с самого начала.

И + еще на что-то, так как итоговое время больше, чем если выбирать по одному слову.

То есть, для одного слова нужно 60 мин.

Ставлю на выборку по 2 словам (с условием - каждое в свой файл) - нужно примерно 3 ч.

Поставил выборку по 5 словам - за 2 часа прогресс бар сдвинулся на 1 мм. Вырубил нафик и начал выбирать по одному слову.

Почему так? Какова логика работы?

Подскажите софтину для обработки Wiki перелинковка Как выбираются картинки для

61

X-Software

3 мая 2016, 20:57

#64

Логика предельно простая: есть в файле определенное кол-во строк. Если у нас есть 1 условие проверки, то программа делает следующее: проходит файл построчно и выполняет 1 условие на каждую строку. Если у нас есть 2 условия, то на каждую строку выполняются уже 2 условия. И если у нас в файле, например, миллиард строк, то в первом случае у нас был миллиард операций, а во втором - 2 миллиарда операций поиска подстроки в строке. Это, так или иначе, пропорционально увеличивает расход процессорного времени и на больших объемах при увеличении количества условий скорость пропорционально падает.

Лучшее решение - первоначально делать глобальную выборку по минимуму условий, чтобы выделить тематические клчевики и сократить объем начальных данных, а уже потом делать более сложные выборки по нескольким условиям.

В любом случае при работе с огромными файлами (40-50Гб) скорость будет исчисляться часами, так как операций производится миллиарды. В целом есть решения как ускорить выборку, но это потребует создавать программу совершенно отличную от концепции Пингвина, которая будет работать не с текстовыми файлами. А цель пингвина работать именно с текстовыми файлами.

#слово+#слово в очередь добавил, буду делать обновления - посмотрю на сколько будет это удобно реализовать. В целом можно использовать регулярное выражение типа ([^а-я]слово1[^а-я].*[ ]слово2[^а-я]|[^а-я]слово2[^а-я].*[^а-я]слово1[^а-я]), в целом условия с # преобразуются именно в такие регулярные выражения, а регулярное выражение работает на много медленнее, чем простое условие. Поэтому предпочтительнее сделать выборку начальную по простым условиям и уже потом прогонять составные.

Sevix:
Логично было бы предположить, что если делать выборку для более чем одной фразы, время должно быть примерно таким же (+ -), с разницей только, что для каждого слова создается свой файл.

Такой режим, но для каждого условия построчно может быть реализован путем ввода вхождений таким образом: "Слово1:=Имя_файла1.txt" и так отдельная строка для каждого условия.

Penguin [Premium Edition] - .htaccess зачем такая длинная Penguin 3.0 программа для

93

Sevix

12 мая 2016, 12:20

#65

X-Software:
Логика предельно простая: есть в файле определенное кол-во строк. Если у нас есть 1 условие проверки, то программа делает следующее: проходит файл построчно и выполняет 1 условие на каждую строку. Если у нас есть 2 условия, то на каждую строку выполняются уже 2 условия. И если у нас в файле, например, миллиард строк, то в первом случае у нас был миллиард операций, а во втором - 2 миллиарда операций поиска подстроки в строке. Это, так или иначе, пропорционально увеличивает расход процессорного времени и на больших объемах при увеличении количества условий скорость пропорционально падает.

Понятно, спасибо за разъяснение.

Однако не понятно, почему когда я просто делаю выборку по одной фразе (слово+слово), время одно.

А когда то же самое, но с сохранением в файл (Слово:=Имя_файла.txt), время увеличивается в 1.5-2 раза.

Неужели сохранение в файл требует так много дополнительных действий?

Повторюсь, выборка производится по одной фразе.

И еще. Не понятно, почему Вы считаете условие "#слово+#слово" какой-то дополнительной, неизвестно зачем нужной фишкой. Это - первое, что должно было бы быть в программе.

Делаю выборку по условию "нейл+арт"

В результатах:

картинка нейлонового протеза

диснейленд орландо на карте

порно фото рассказы картинки девочек в нейлоне...

и т.д.

А нужен - "нейл арт"

Мусора больше половины, только потому, что невозможно ограничение сделать.

И так каждый раз. Понятно, что потом можно чистить регулярками и т.д. Но непонятно, почему это нельзя внедрить в прогу. Условие "#слово" - есть, а условия "#слово+#слово" - нету.

Спасибо.

как автоматизировать нажатие на Как выбираются картинки для Абузоустойчивые сервера, ВДС, хостинг

61

X-Software

9 июня 2016, 19:43

#66

Ок, приму к сведению, попробую добавить.

[Удален]

18 июля 2016, 23:53

#67

Dr.Web удалил Троян в Версии 5.7

S

13

solalex

19 июля 2016, 15:15

#68

Dimitrias:
Dr.Web удалил Троян в Версии 5.7

Да ну! Вы так не пугайте. Похоже на ложный сигнал опасности.

Dr.Web знаменит своим параноическим "обезвреживанием", поэтому пришлось сменить его в своё время.

P/S:К тому же версия 5.7 используется как минимум с даты поста ТС, т.е. с 21.04.2016. Если сомневаетесь - отправьте на проверку в тот же вирус тотал, или в Dr.Web для более плотного анализа.

Cityads.ru - партнёрская программа Как можно целесообразно использовать "Этот сайт, возможно, распространяет

93

Sevix

21 июля 2016, 13:36

#69

Спасибо большое за обновление!

61

X-Software

21 июля 2016, 22:38

#70

Внимание! Вышло обновление Penguin до версии 5.9. Внесены следующие изменения:

Исправлена ошибка в удалении вхождения строк друг в друга
Добавлена возможность использовать ограничение конкретного вхождения (#условие#) при поиске вхождений слов в разном порядке (условие+найти). Теперь так же действует конструкция #слово#+#найти#.

Скачать Penguin 5.9

По поводу антивирусов: в последнее время наблюдается наращивание параноидальности у антивирусов, только что скомпилированный файл лицензионной версией Майкросовтовской Visual Studio, только за отсутствие цифровой подписи некоторые антивирусы определяют, как вирус. Ставишь на него любую защиту с помощью лицензионного пакера и тоже, в зависимости от настроек, определяются на выходе разные вирусы. Делаешь инсталятор и та же проблема. В текущей версии я проверил все сборки самым параноидальным антиварем и вроде бы все нормально. Если у кого-то на версию 5.9 что-то сработает, пишите в ЛС кто ругается и на что. Буду качать эти анивирусы и проверять при каких настройках можно минимизировать срабатывание.

Ну и по традиции с одновлениями акция!

Промокод: 1203AA335E9842AD, скидка 50% на все программы на X-Parser.ru

Купить Penguin 5.9, не забывайте нажимать кнопку "Применить", чтобы применить скидку!

1

Penguin [Premium Edition] - Amazing Niche Finder - Penguin 1.0 - бесплатный

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ

Penguin – бесплатная программа для подбора ключевых слов + база на 200млн. кейвордов