Спасибо за файл, как вижу здесь идет речь не о ключевых словах, а о доменах с дополнительными данными. Проверил, действительно есть проблема. Проблема, как оказалась, возникает из-за сравнивания хеша строк. Судя по всему, в вашем списке некоторые строки дают одинаковый хеш. Погрешность составила 0.1%, что не критично при работе с ключами на тех объемах с которыми работает пингвин, но под Вашу задачу это стоит устранить, что я и сделаю. Спасибо за такую наводку.
На счет других функций - в основном все работает корректно, но не исключены какие-либо погрешности, так как у меня нет возможности протестировать все возможные варианты использования пингвина на самых разных данных. Так что если есть возможность проверять точность выполнения той или иной операции до сотой доли процента, то это имеет смысл делать, как Вы и сделали. Я, соответственно, все найденные огрехи оперативно устраняю и принимаю любые идеи по доработке функционала.
Да что-то решил что максимум сверху, минимум ниже удобнее. В таком решении логика тоже есть: большее значение расположено выше, меньшее - ниже. Если у кого-то есть на этот счет мнение - выскажите или проголосуйте, можно в ЛС. Поменять местами не проблема абсолютно.
---------------------------------------------
Вышло обновление Penguin до версии 7.5. Изменения актуальны и для Standard, и для Premium версий. Внесены следующие изменения:
Я, как сапорт, всегда по всем указанным на сайте контактам на связи. Пишите в аську или скайп, любые консультации бесплатно. Как с парсером так и с пингвином достаточно 5-ти минутной консультации по тимвьюверу, чтобы понять все его возможности и разобраться с софтом во всех деталях. Пишите.
Для удаления символов типа » (это правая кавычка, кстати) регулярное выражение такое "&[^;]+;", без ковычек. Если будут вопросы еще по парсеру, пишите мне в ЛС.
Строки с доменами убираются элементарно. Используйте регулярное выражение [^\. ]+\.[^\. ]+ в исключениях и нажмите иконку пингвина. Так же над полем исключений есть значек вставки, если нажать на него, то там будет предложен ряд заготовленных регулярных выражений, в том числе удалять строки с URL. Я запишу видео скоро и мануалов напишу.
Пингвин имеет несколько вариантов удаления дублей. Он может удалять явные дубли, неявные дубли, дубли с учетом морфологии, а так же вхождения строк друг в друга. Во всех случаях не удаляются все фразы, а остается одна из дублирующихся фраз, как правило та, которая была первой. Т.е. он делает именно то, что вам нужно.
Ну от коллектора отличия кардинальные, они больше дополняют друг друга, чем заменяют. Penguin очень быстрый и работает с огромными файлами, но не занимается сбором статистики и т.п. Он служит для выборки поисковых запросов и их обработки, очистки от мусора и т.д. Так же в премиум версии имеется кластеризация, которая работает в десятки раз быстрее той, что предлагает кей-коллкектор. Т.е. Вы пингвином собираете базу, обрабатываете как надо, а коллектором (если надо) ее анализируете. Или наоборот: коллектором подбираете запросы, а пингвином их дорабатываете, так как в коллекторе нет ряда функций которые есть в пингвине и наоборот.
База в подписи больше для тестирования, просто одна из тех, что доступны на форумах. Субъективно по моим наблюдениям, особой разницы в таких базах по свежести нет. Безусловно, если Вы не ищите ключи по какой-то сверхновой теме, которой раньше не было вообще. Но таких тем очень мало, поэтому все эти базы имеют примерно идентичное качество и из базы любой свежести можно получить и много хороших ключей, и много мусора, который пингвин поможет эффективно очистить.
Т.е. получается, что пингвин служит для быстрого подбора огромных объемов ключей из текстовых баз под кучи дорвеев, а так же любых манипуляций с любыми данными в текстовых файлах любых размеров. А коллектор больше подходит для неспешного подбора небольшого количества ключей, но с детальным анлизом частотности, конкуренции и т.д.
С касперским вопрос решил, проверьте, должен теперь нормально реагировать.
Вниманию всем, кто столкнется с реакцией антивирусов: в последнее время антивирусы реагируют на все подряд просто увидев какие-то символьные последовательности в файлах, приходится при сборке программы подбирать параметры такие, чтобы не было ложных срабатываний. Реальных вирусов в файлах, скаченных с официального сайта нет, можете смело добавлять в исключения. Но всегда сообщайте, чтобы я мог убрать ложное срабатывание, желательно в ЛС.
Английской версии пока нет, но планируется.
Если Вы имеете старую версию или стандарт, то для Вас бессрочно действует скидка 50%, которая Вам будет предложена автоматически, если Вы покупали через Oplata.info, если же нет, то обратитесь в ЛС и мы предоставим Вам промокод на скидку в 50%.
Если юзаете прокси, то могут быть просто забаненные прокси. Данный вопрос лучше обсудить лично, напишите мне на мыло, поищем причину.
Вышло обновление до версии 2.1.1. В ней сделано следующее:
1. Улучшено качество парсинга контента без разметки. Я ему как-то не уделял внимания особого, так как ни кто не просил, больше ориентировался на статьи. Теперь даже по самым неконтентным кеям собирается очень хороший и чистый контент.
2. Добавлен режим парсинга контента без разметки по одному предложению на строку, для доргенов.
3. Транслит парсера адаптирован под Pandorabox.
4. Исправлена ошибка сбора изображений: устранено влияние фильтра по длине абзаца на количество изображений в тексте.
Эта ошибка уже исправлена. Обновитесь. Связана была с тем, что в выдаче поисковой системы проскакивал ложный идентификатор капчи, ну а капчу софт не мог получить.