Bukvarix

Bukvarix
Рейтинг
134
Регистрация
27.02.2013

Расскажем чуть подробнее о наших планах.

Сейчас мы работаем над переносом функциональности десктопного Букварикса в веб - естественно, с поправкой на условия. Сначала это будет база запросов на русском языке (с некоторым количеством украинских, беларусских и казахских слов) в бета-тесте. После мы займемся доработкой и улучшением функциональности, и только после этого добавим английский, а еще позже, возможно, и другие европейские языки (многое будет зависеть от успешности английской онлайн-версии). В десктопную версию добавление английской базы (как и баз на других языках) мы пока не планируем.

Для желающих воспользовать русской базой с оболочкой (с частотностями WordStat) - напоминаем, у нас есть своя ветка в другом разделе форума, в которой мы напишем о прогрессе нашей разработки онлайн-версии:

/ru/forum/877149

P.S. Для оперативного ответа просьба писать сразу в личку.

Shmalex:
Bukvarix, нужно скачивать и устанавливать этот огроменный архив поверх старого?

Если место позволяет и прежняя версия вам нужна, то можно ее не удалять, скачать новую, распаковать в другой каталог - все версии Букварикса работают параллельно. Если места мало, то из старой версии сохраните каталог Settings (в нем хранятся ваши настройки и списки слов), удалите остальное и после распаковки вновь скачанного архива программы перепишите туда каталог с настройками.

Предлагаем скачать Букварикс 2.0 - обновлены как ключевые слова, так и два типа частотностей - частотности по запросам с широкими и точными соответствиями. Период, в который проведено обновление данных, это март - середина апреля текущего года. Букварикс 2.0 включает 1 млрд. 394 млн. ключевых слов, для которых Вордстат вернул частотность выше нуля.

Ссылка для скачивания:

http://www.bukvarix.com/download.html

Размер архива составляет 27,3 ГБ (99,3 ГБ в распакованном виде). Программу можно скачать через торрент (мы очень рассчитываем и заранее благодарим за вашу помощь в поддержке раздачи!), а также с облачных сервисов Яндекс.Диск и Облако@mail.ru. Мы продолжаем предоставлять Букварикс бесплатно.

reinhart:
А как насчёт такого варианта: снимать общую частоту за год (раз в год), делить на 12 и получать среднемесячную частоту за последний год, и ориентироваться на неё при удалении ключей из базы. Например, с помощью КК считаю такой формулой KEI:
( YandexWordstatBaseFreq + 0.001 )  /  12


Тогда нулевые ключи всё равно отсеивались бы, а "яркосезонные" показывали бы частоту выше 0, и это бы спасало их от удаления.

Данные были бы более-менее свежими (всё таки берётся только последний год), и база бы не разрасталась засчёт ключей, "у которых хотя бы когда-то была частотность выше нуля".

Это навскидку, возможно такой вариант не подходит Буквариксу.

Спасибо за идею. В базе онлайн-версии мы сначала просто покажем слова, у которых исторически была частотность, но на текущий момент ее нет. Т.е. они будут без частотности. Потом, когда мы вернемся к истории запросов (а у нас хранятся частотности запросов для этой базы начиная с запросов конца прошлого лета), мы в каком-то виде обозначим, например, исторический максимум или среднее для слов без частотностей, мы пока еще не решили.

RegPro:
Спасибо огромное за проделанную работу!
Вопрос есть только, частотку вы обновляете с каждым апдейтом или только на момент добавления самого запроса. Интересует это тем, что могут быть словоформы с годовалой частоткой. Спасибо заранее!

Пожалуйста, пользуйтесь, нам приятно, что вы оценили нашу работу :)

Когда мы выпускаем обновление базы, мы обновляем и слова, и частотности для всех слов в базе. Например, на этой неделе мы выпустим апдейт, в котором частотности обновлялись в марте - первой половине апреля текущего года. Показатели Вордстата, которые мы запрашиваем, это частотности Вордстата за последние 30 дней (не год).

reinhart,

Ок, поведение программы при старте в режиме расширенного поиска изменим в следующем апдейте.

reinhart:

Ещё такой момент хотел бы затронуть: если не ошибаюсь, вы говорили в этой ветке, что фразы, имеющие по общей частоте 0, удаляются из базы. Если речь о съёме частоты по умолчанию (за последние 30 дней), то базу может "колбасить" в течение года - ряд хороших сезонных ключей в некоторые периоды будут показывать 0, и удаляться.
Что-то упускаю?

Это отчасти вынужденная мера, потому что иначе база станет совсем большой и загрузить такую захотят/смогут немногие. В онлайн-проекте будет немного по-другому.

Мы оставим в базе все слова, у которых хотя бы кода-то была частотность выше нуля, т.е. для онлайн-проекта мы изменим принципы формирования базы так, чтобы она была максимально полной и полезной.

P.S. Если все будет нормально, то обновление выйдет завтра или послезавтра.

reinhart:
Отличный темп увеличения базы! С самого начала было ясно, что программа отличная (прежде всего из-за скорости выборки и поддержки словоформ), а теперь ещё база становится всё солиднее.

Спасибо! Рады, что программа вам полезна.

reinhart:
В процессе работы появилось ещё пожелания:

1) Не запускать выборку автоматически при старте программы (хотя бы какой-то тумблер в настройках). Обычно программу закрываю без очищения исходных слов/фраз для поиска, и когда открываю, то выборку программа начинает делать автоматически. Часто это ощутимый объём работы для программы и всё это время невозможно работать (жёсткий диск "вешается" высоким объёмом операций чтения/записи). Перенести программу на внешний диск это выход, но автоматическая выборка по старым данным всё равно работа напрасная.

Мы могли бы изменить поведение программы в расширенном поиске так, чтобы условия предыдущего поиска оставались при открытии, но чтобы программа не начинала поиск по этим условиям. В этом случае кнопка поиска станет активной, и вам нужно будет самому нажать на нее, чтобы начать поиск. Но в режиме поиска по одному слову программа все равно будет искать сразу после открытия программы, потому что в этом режиме нет кнопки поиска и, если условие прежнего поиска остается (а мы считаем, что в большинстве случаев будет удобнее, если данные предыдущего поиска не очищаются), то неочевидно, как заставить программу искать по этому слову. Т.е. поведение программы в случае простого и расширенного поиска таким образом будет различаться.

Если вас устроит такой вариант (не искать при старте программы в расширенном поиске), то подтвердите, мы включим это изменение поведения программы в следующий апдейт (выйдет на следующей неделе).

reinhart:
2) Сделать в настройках подключение баз(ы) из внешних источников (например, с внешнего жёсткого диска), как это реализовано, например, в AmazingKeywords. Конечно, это несущественное пожелание (обусловлено привычкой), потому что программа портативная, и можно всю папку просто вынести на внешний диск.

Поскольку в Буквариксе поддерживается всего одна база и оболочка занимает всего 1 Мб, все остальное - это база, то мы считаем более простым решением хранить их вместе, тем более, что для этого нужно просто распаковать архив, можно даже на внешнем винчестере. Возможно, если в будущем у нас будет несколько баз, и нужно будет выбирать между базами для подключения, то это будет хорошим решением, но пока мы такого (выпуск нескольких баз) не планируем.

reinhart:
3) Поддержка баз сторонних "производителей" (или хотя бы баз в текстовом формате). Вроде вы говорили в этой ветке про то, что это далеко не приоритетный функционал, но всё же - будет? Или нет особого смысла (почему) или нецелесообразно (долго/дорого/...) ?

В настоящее время Букварикс очень нетребователен к ресурсам и работает даже на малопроизводительных компьютерах, поскольку всю тяжелую работу по формированию индексов, обеспечивающих быстрый поиск, мы делаем у себя и выдаем подготовленную базу. Если же давать возможность подключения внешних баз, то индексирование базы должно производиться на стороне пользователя, а это неминуемо повлечет за собой повышение требований к ПК, чего мы хотели бы избежать. Кроме этого, мы сейчас работаем над онлайн-версией, которую считаем более приоритетной (поэтому возможность подключения других баз и не в приоритете).

Litvinx:
Очень понравилась программа. Быстро и много ключевых слов. Да еще и бесплатно - круто!

Столкнулся с таким неудобством, может, его можно как-то избежать?
В списке ключевых слов много одинаковых с разным порядком слов:
слово1 слово2 слово3
слово2 слово1 слово3
слово3 слово1 слово2
Как бы это отображать только 1 вариант?

Да, мы знаем о существовании проблемы перестановок, в версии 1.0 и 1.1 пытались с ней бороться и алгоритмически выделяли один вариант, который оставался в базе, остальные удаляли. Тем не менее не всегда получалось определить лучший, и мы в версии базы 1.2 и выше не удаляем варианты, оставляя выбор лучшего варианта пользователю.

Предлагаем воспользоваться функцией автоматизации отсева нечетких дубликатов на основе частотности Google AdWords, которая есть у Key Collector'a. Вот ссылка на ролик:

https://www.youtube.com/watch?v=DYd51XEJtKw&t=935

У нас тоже есть идеи, что можно сделать в этом направлении, позже мы вернемся к этой проблеме.

На следующей неделе мы планируем выпустить обновление нашей базы ключевых слов - как слов, так и частотностей. Делаем небольшой анонс, чтобы изменения в базе не стали для вас неожиданностью. Для того, чтобы продолжать выпускать обновления регулярно и не уменьшать количество слов в базе, мы будем обновлять два варианта частотностей - широкий поиск и "!точный !поиск" как такие, которые наиболее часто используются в анализе популярности ключевых слов. Частотности запросов по "фразовому поиску" (когда ищутся вхождения исключительно слов запроса, но в разных словоформах) пока запрашиваться не будут. Это изменение позволит нам оптимизировать запрос широких и точных частотностей.

В дальнейшем мы, возможно, вернем частотность запросов по "фразовому поиску", но ценой некоторого увеличения срока обновления базы. Например, с момента прошлого обновления прошло уже почти два месяца и оттягивать еще на один месяц обновления не хотелось бы.

Повторимся, мы не хотим ни уменьшать размер базы, ни удлинять период ее обновления, поэтому вариант с запросом двух частотностей видится нам сейчас наиболее оптимальным.

Если кому-либо нужна база с фразовыми частотностями, то скачайте Букварикс 1.9 сейчас, на следующей неделе мы выпустим Букварикс 2.0, в котором будут только частотности по широкому и "!точному !поиску". Букварикс 2.0 - как и все прежние версии - будет бесплатным.

vaf76:
Скачал, распаковалась на 103Гб, но ищет достаточно быстро.
Подскажите, а можно ли сделать так:
К примеру у меня тематика "кухни на заказ". Было бы здорово сделать выборку по слову "кухни" - там всего то 2 040 851 фразы и сделать свою базу для себя, чтобы весь объем на диске не держать ?
Было бы здорово.
Может сделать такую функцию ? А так, в целом очень даже неплохо.

В десктопе такой возможности нет, но в онлайн-версии, над которой мы сейчас работаем, этой проблемы не будет. Сейчас, как вариант, можно предложить - если у вас есть внешний жесткий диск - переписать программу на этот диск и оттуда работать с ней.

vaf76:
Обязательно вечером дома скачаю софт. У меня просьба. На работе инет сильно урезанный, а очень уж хочется посмотреть. Вы не могли бы сделать выборку по словосочетанию

кухни от производителя

Если можно то по региону Москва и МО. Был бы очень благодарен

Выборка готова: https://yadi.sk/d/isEikprsqtaMy

По региону Москва и МО частотности не собираем, только "Весь мир", по нему и сделали выборку.

Всего: 641