Penguin – бесплатная программа для подбора ключевых слов + база на 200млн. кейвордов

XS
На сайте с 31.01.2014
Offline
54
#61

Обновления! Penguin обновлен до версии 5.7. Внесены следующие изменения:

  • Добавлена возможность создавать новый проект, что позволяет быстро очистить форму приложения от всех ранее введенных данных.
  • Добавлена индикация при подсчете количества строк в очереди были ли посчитаны они точно или примерно.
  • Добавлена возможность удаления явных и неявных дублей в файлах весом в 10Gb и более. Примерно в трое превышающих объем ОЗУ.
  • Исправлена ошибка при сохранении больших файлов, когда при сохранении оставалась 1 строка.

Скачать Penguin 5.7

Sevix
На сайте с 24.10.2011
Offline
73
#62

Возможно сделать, чтобы искало

#слово+#слово?

Так

#слово+слово

чего то тоже не ищет. Полгода прошло уже.

Sevix
На сайте с 24.10.2011
Offline
73
#63

Время выборки для одного сова (или слово+слово) из моей базы занимает примерно 50-60 мин.

Логично было бы предположить, что если делать выборку для более чем одной фразы, время должно быть примерно таким же (+ -), с разницей только, что для каждого слова создается свой файл.

Но нет. Мало того, что итоговое время становится = время для каждого слова помноженное на количество слов (файлов) в выборке, так еще и для каждого отдельно взятого слова время увеличивается более чем в 2 раза.

Как будто программа проходит всю базу сначала для одного слова, потом для другого, опять с самого начала.

И + еще на что-то, так как итоговое время больше, чем если выбирать по одному слову.

То есть, для одного слова нужно 60 мин.

Ставлю на выборку по 2 словам (с условием - каждое в свой файл) - нужно примерно 3 ч.

Поставил выборку по 5 словам - за 2 часа прогресс бар сдвинулся на 1 мм. Вырубил нафик и начал выбирать по одному слову.

Почему так? Какова логика работы?

XS
На сайте с 31.01.2014
Offline
54
#64

Логика предельно простая: есть в файле определенное кол-во строк. Если у нас есть 1 условие проверки, то программа делает следующее: проходит файл построчно и выполняет 1 условие на каждую строку. Если у нас есть 2 условия, то на каждую строку выполняются уже 2 условия. И если у нас в файле, например, миллиард строк, то в первом случае у нас был миллиард операций, а во втором - 2 миллиарда операций поиска подстроки в строке. Это, так или иначе, пропорционально увеличивает расход процессорного времени и на больших объемах при увеличении количества условий скорость пропорционально падает.

Лучшее решение - первоначально делать глобальную выборку по минимуму условий, чтобы выделить тематические клчевики и сократить объем начальных данных, а уже потом делать более сложные выборки по нескольким условиям.

В любом случае при работе с огромными файлами (40-50Гб) скорость будет исчисляться часами, так как операций производится миллиарды. В целом есть решения как ускорить выборку, но это потребует создавать программу совершенно отличную от концепции Пингвина, которая будет работать не с текстовыми файлами. А цель пингвина работать именно с текстовыми файлами.

#слово+#слово в очередь добавил, буду делать обновления - посмотрю на сколько будет это удобно реализовать. В целом можно использовать регулярное выражение типа ([^а-я]слово1[^а-я].*[ ]слово2[^а-я]|[^а-я]слово2[^а-я].*[^а-я]слово1[^а-я]), в целом условия с # преобразуются именно в такие регулярные выражения, а регулярное выражение работает на много медленнее, чем простое условие. Поэтому предпочтительнее сделать выборку начальную по простым условиям и уже потом прогонять составные.

Sevix:
Логично было бы предположить, что если делать выборку для более чем одной фразы, время должно быть примерно таким же (+ -), с разницей только, что для каждого слова создается свой файл.

Такой режим, но для каждого условия построчно может быть реализован путем ввода вхождений таким образом: "Слово1:=Имя_файла1.txt" и так отдельная строка для каждого условия.

Sevix
На сайте с 24.10.2011
Offline
73
#65
X-Software:
Логика предельно простая: есть в файле определенное кол-во строк. Если у нас есть 1 условие проверки, то программа делает следующее: проходит файл построчно и выполняет 1 условие на каждую строку. Если у нас есть 2 условия, то на каждую строку выполняются уже 2 условия. И если у нас в файле, например, миллиард строк, то в первом случае у нас был миллиард операций, а во втором - 2 миллиарда операций поиска подстроки в строке. Это, так или иначе, пропорционально увеличивает расход процессорного времени и на больших объемах при увеличении количества условий скорость пропорционально падает.

Понятно, спасибо за разъяснение.

Однако не понятно, почему когда я просто делаю выборку по одной фразе (слово+слово), время одно.

А когда то же самое, но с сохранением в файл (Слово:=Имя_файла.txt), время увеличивается в 1.5-2 раза.

Неужели сохранение в файл требует так много дополнительных действий?

Повторюсь, выборка производится по одной фразе.

И еще. Не понятно, почему Вы считаете условие "#слово+#слово" какой-то дополнительной, неизвестно зачем нужной фишкой. Это - первое, что должно было бы быть в программе.

Делаю выборку по условию "нейл+арт"

В результатах:

картинка нейлонового протеза

диснейленд орландо на карте

порно фото рассказы картинки девочек в нейлоне...

и т.д.

А нужен - "нейл арт"

Мусора больше половины, только потому, что невозможно ограничение сделать.

И так каждый раз. Понятно, что потом можно чистить регулярками и т.д. Но непонятно, почему это нельзя внедрить в прогу. Условие "#слово" - есть, а условия "#слово+#слово" - нету.

Спасибо.

XS
На сайте с 31.01.2014
Offline
54
#66

Ок, приму к сведению, попробую добавить.

[Удален]
#67

Dr.Web удалил Троян в Версии 5.7

S
На сайте с 11.02.2016
Offline
13
#68
Dimitrias:
Dr.Web удалил Троян в Версии 5.7

Да ну! Вы так не пугайте. Похоже на ложный сигнал опасности.

Dr.Web знаменит своим параноическим "обезвреживанием", поэтому пришлось сменить его в своё время.

P/S:К тому же версия 5.7 используется как минимум с даты поста ТС, т.е. с 21.04.2016. Если сомневаетесь - отправьте на проверку в тот же вирус тотал, или в Dr.Web для более плотного анализа.

Sevix
На сайте с 24.10.2011
Offline
73
#69

Спасибо большое за обновление!

XS
На сайте с 31.01.2014
Offline
54
#70

Внимание! Вышло обновление Penguin до версии 5.9. Внесены следующие изменения:

  • Исправлена ошибка в удалении вхождения строк друг в друга
  • Добавлена возможность использовать ограничение конкретного вхождения (#условие#) при поиске вхождений слов в разном порядке (условие+найти). Теперь так же действует конструкция #слово#+#найти#.

Скачать Penguin 5.9

По поводу антивирусов: в последнее время наблюдается наращивание параноидальности у антивирусов, только что скомпилированный файл лицензионной версией Майкросовтовской Visual Studio, только за отсутствие цифровой подписи некоторые антивирусы определяют, как вирус. Ставишь на него любую защиту с помощью лицензионного пакера и тоже, в зависимости от настроек, определяются на выходе разные вирусы. Делаешь инсталятор и та же проблема. В текущей версии я проверил все сборки самым параноидальным антиварем и вроде бы все нормально. Если у кого-то на версию 5.9 что-то сработает, пишите в ЛС кто ругается и на что. Буду качать эти анивирусы и проверять при каких настройках можно минимизировать срабатывание.

Ну и по традиции с одновлениями акция!

Промокод: 1203AA335E9842AD, скидка 50% на все программы на X-Parser.ru

Купить Penguin 5.9, не забывайте нажимать кнопку "Применить", чтобы применить скидку!

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий