В планах есть, но очень дальних.
Проблема в том, что непонятно как автоматически сегментировать на тематики базу такого объема.
Если список категорий (например, "Финансы", "Авто", "IT" и т.д.) можно в принципе вручную составить, то вот соотнести каждое из 461 млн. ключевых слов к какой-то тематике (или сразу к нескольким) вручную уже явно не получится, нужен какой-то алгоритм.
А вот с алгоритмом неясно - по каким признакам ключевое слово относить к тематикам?
В некоторых случаях можно взять какое-то слово из фразы, например для "банковские кредиты" и "депозит в банке" можно условно считать их из одной тематики, поскольку есть общее слово "банк" (благодаря морфологии его можно привести к базовой форме).
Но вот уже в случае "где взять кредит" или "лучшие проценты по депозиту" нет "общего" связывающего слова, хотя интуитивно понятно, что тематика здесь одна.
Если у кого-то есть предложения, как можно это алгоритмически сделать - будет интересно послушать (в теме или в личку, как удобней).
Mountari, максимально точный запрос, который можно задать к WordStat-у, это, как правильно заметил papamisha - кавычки и восклицательный знак, т.е. "!купить !слона" (вот справка по операторам: https://help.yandex.ru/direct/efficiency/refine-keywords.xml).
Но даже в такой форме частотность для "!купить !слона" и "!слона !купить" будет одинакова, т.е. Яндекс не учитывает порядок слов.
Что же касается получения полного списка ключевых слов, которые входят в искаемую фразу, то полностью его никак не получишь - WordStat не показывает все варианты. Кроме этого, он даже варианты, которые на самом деле ищут, не сразу показывает - а с какого-то небольшого порога.
Поэтому и популярны различные базы ключевых слов, которые показывают максимальное количество хвостов для введенной фразы.
P.S. Ещё можете посмотреть хвосты в самом интерфейсе директа - там при оценке бюджета Яндекс тоже предлагает ключевые слова - как хвосты, так и схожие по смыслу.
Спасибо за хорошее предложение, ранее его уже озвучивали, так что оно у нас в планах.
Как таковой инсталляции нет, архивы нужно распаковать в одну папку, после этого запустить Bukvarix.exe.
Достаточно скачать программу с базой и установить поверх последний апдейт - всё со страницы http://www.bukvarix.com/download.html. Последний апдейт включает в себя все предыдущие, так что его нужно качать не только для исправления ошибки, но и для того, чтобы получить все улучшения программы.
Можем помочь с одной частью - контекст по доменам по Яндекс Директ (слова и объявления), их будет больше, чем у SpyWords (база своя, поэтому и больше).
По органической выдаче базы нет, тут помочь не сможем.
Если интересно - высылайте в личку домены, сделаем.
Мы тестируем работу программы в различных конфигурациях ОС в виртуальной машине, поэтому можем посоветовать исходя из своего собственного опыта некоторые моменты, которые улучшат работу программы в ВМ.
Для того, чтобы программа работала быстрее под виртуальной машиной, лучшее ее не распаковывать внутри ВМ, а разместить на диске, который подключить в ВМ как shared folder.
В вашем случае (когда общее кол-во поисковых слов и минус слов меньше 100), в виртуальной машине можно уменьшить объем выделяемой памяти до 1.5 Гб - при таких объемах это не ухудшит работу программы. Если кол-во слов будет больше 100, тогда лучше выделить 2 Гб.
Для того, чтобы программа не тормозила при инициализации, лучше перед закрытием перейти в режим простого поиска. Тогда в следующий раз она откроется на простом поиске и не будет работать со всем оставленным от прежнего поиска списком. Если программа открыта в режиме расширенного поиска, то можно также вернуться в простой поиск, чтобы отменить работу в расширенном режиме, а затем при необходимости вернуться в расширенный режим.
nikki4, AlexeyBu,
Большое спасибо за положительные отзывы! :)
В программе есть модуль умножения списков слов, он поможет в генерации списков, когда в состав словосочетания входит
артикул/название оборудования ("Мой список слов для поиска" -> "Комбинатор слов"). Если вы имеете в виду что-то другое, напишите нам, пожалуйста. По поводу работы с пересекающимися списками - мы думали об этом тоже, но это дополнительная функциональность, которую мы будем развивать уже после того, как сделаем все необходимое.
Да, мы обязательно учтем такие потребности в онлайн-версии.
Поиск после запуска не блокирующий - пока программа ищет, вы можете работать со списками слов для поиска и для исключения - добавлять, удалять слова, менять настройки поиска и т.п. Несмотря на то, что стартовый поиск не завершен, программа начнет новый поиск по измененным условиям, отменив стартовый, после того, как вы нажмете кнопку "Найти".
Стартовый поиск нужен для инициализации программы, тогда следующая работа программы будет происходить быстрее.
Как вариант, можно ещё попробовать Postbox:
http://www.postbox-inc.com/
Это платный e-mail-клиент на основе кода Thunderbird.
Стоит $9.95, но есть 30-дневный Trial.
Вообщем, если первоочередное условие - сходство с Thunderbird - то можно посмотреть.
zenja, вот здесь были хорошие обзоры различных сервисов по группировке/кластеризации семантических ядер:
http://zircool.ru/post/5/14474/
http://alaev.info/blog/post/5412