Bukvarix

Bukvarix
Рейтинг
134
Регистрация
27.02.2013

Здравствуйте,

Подготовлена расширенная база английских ключевых слов, в которой уже 846 млн. (+389 млн. фраз по сравнению с прежней минимальной базой). Размер базы: 8,9 Гб в архиве, 22,9 Гб в распакованном виде.

Дополнительно, как мы обещали на прошлой неделе, написана и выложена пошаговая инструкция со скриншотами по установке локального сервера баз данных, созданию базы английских ключевых слов и выполнению основных запросов для получения выборок. Инструкция довольно подробна и рассчитана на новичков, ранее не имевших опыта работы с БД.

Ознакомиться с инструкцией, а также скачать базу английских слов можно на странице:

http://www.bukvarix.com/english-keywords.html

В предлагаемой редакции инструкции имеется синтаксис самых необходимых запросов, которые тем не менее позволят вам сделать выборки по одному и нескольким словам, а также выборки со словами-исключениями, но чуть позже мы планируем расширить и дополнить ее. Ориентировочно расширенная инструкция выйдет к концу этой недели.

А на следующей неделе ждите новую базу английских слов на 1.5-2 млрд (кроме Google мы добавим подсказки Bing и Yahoo!). Все базы по-прежнему бесплатны.

БОЛЬШАЯ ПРОСЬБА ко всем, кто попробует делать выборки из английской базы по инструкции, написать нам, насколько просто было понять инструкцию, получилось у вас или нет, чтобы мы смогли учесть ваш опыт и улучшить инструкцию.

Большое всем спасибо! Видно, что интерес есть, инструкция в работе, опубликуем в понедельник-вторник.

hitboss:
спасибо большое за amazonaws
а вот quantcast не отдает базу, говорит не найдено (

Quantcast можно скачать вот здесь:

https://ak.quantcast.com/quantcast-top-sites.zip

nesterdron:
А какие тематики в базе+-?

База собиралась под все тематики, т.е. можно сказать что в базе представлены все тематики.

Единственное исключение - это адалт ("взрослая") тематика - её практически нет.

Но не потому, что она как-то особо фильтровалась, а потому что через подсказки её нормально не соберешь (если вы введете в строке поиска в Google что-то типа "porno", то увидите, что Google почти не предлагает слов относительно "porno").

anykey13:
Для меня как начинающего пользователя программа полностью устраивает. Разработчикам спасибо и творческих успехов.
war357159:
Хорошо когда и качественно и бесплатно. Побольше бы подобных услуг было.

Спасибо за теплые слова, они здорово добавляют мотивации работать над проектом. Вам также успехов!

hr769:

Не обязательно придерживаться синтаксиса яндекса, важно дать возможность использовать хоть какой-либо (который вы сможете внедрить), вот в чём суть.

Да, как мы писали выше, у нас это есть в планах, например, когда не хочется отменять общее применение морфологии, но нужно исключить отдельные словоформы, можно было бы использовать оператор для принудительного исключения такой словоформы.

freeman1:
Понятно что там есть запросы о 8 марта. И посреди лета, люди могут вводить "как отпраздновать новый год", но сами понимаете, это не актуальные данные. Точнее, не полные.
Поэтому у разработчиков и спросил, в какой версии есть данные за полный год.

Вот разница
http://dl1.joxi.net/drive/0012/1811/788243/160302/c5cc6310f8.jpg

freeman1, Фома, one,

Большое спасибо за обсуждение темы.

Это вполне объяснимо - в среднем частотности в нашей базе на сегодня отстают от Вордстата примерно на месяц, поэтому вполне понятно, что Вордстат, обновляющий данные практически каждый день, покажет большие цифры, ведь количество запросов "что подарить на 8 марта" растет по мере приближения праздника. Это проблема всех больших баз, не только нашей (хотя мы себя этим не оправдываем, это такой боттлнек).

Мы думали, как ускорить обновление базы, поэтому, возможно, в будущем откажемся от фразовой частотности (как очень редко используемой), останутся широкая и точная. Ещё один вариант увеличения скорости обновления - это уменьшение размера базы для обновления. В общем, как всегда, нужнен баланс - кому-то очень важно как можно более частое обновление, для кого-то важнее размер базы и возможность получить максимум НЧ, для кого-то обязательно наличие всех типов показов (широкий, фразовый, точный) для сравнения. Вот и пытаемся, чтобы все находили полезное для себя :)

jorevo:
А вот мне тут подумалось нащот сортировки по столбцам. Технически сама возможность реализуется запросто... единственный затык, насколько я понимаю, сортировка большого объёма отфильтрованных данных. Но это же по сути решается просто - надо просто ввести ограничение - допустим 1000 отфильтрованных строк, а дальще простое условие - если больше 1000 то дизаблить заголовок от нажатия, меньше - разрешать сортировку. (1000 просто к примеру, тут максимально допустимое, чтобы интерфес не фрозился).

Нам не хотелось бы вводить такие ограничения, ведь 1000 строк - это очень мало при выборке в несколько десятков тысяч результатов, а такие объемы выборок более часты, чем небольшие на тысячу или несколько тысяч. Для того, чтобы реализовать быструю сортировку на больших объемах выборки нужно было существенно повышать требования к ресурсам ПК, а нам бы этого не хотелось. Но имея серверное решение, мы будем гораздо свободнее в вопросе ресурсов и сможем обеспечить быструю сортировку и фильтрацию даже для достаточно больших выборок.

Знаем, что сортировка и фильтрация это старый и больной вопрос, но в онлайн-версии мы наконец-то эту проблему можем решить нормально. Как только будет что показать - сразу напишем.

hr769:
Bukvarix, посмотрел программу, она не понимает синтаксиса wordstat.
Например: ("пример пример пример !как") +для
ну или просто !фиксация !окончания

Мы не ставили себе такую задачу, чтобы Букварикс понимал синтаксис Вордстат. Программа очень простая и рассчитана на тех, кто не обязательно является профессионалом поиска. Вводить фразы для поиска нужно без всяких операторов. Программа выдает все вхождения со словами ваших фраз, которые находятся в базе.

Тем не менее, в программе есть три колонки с чатотностями, которые соответсвуют следующему синтаксису вордстат:

широкий - купить слона

фразовый - "купить слона"

точный - "!купить !слона"

Мы планируем ввести несколько операторов, которые улучшат взаимодействие с программой, но мы не будем строго придерживаться синтаксиса Яндекса, у нашей программы все-таки другие цели :)

Для тех, кто не может скачать Букварикс, предлагаем готовые выборки из нашей новой базы (Букварикс 1.9 от 23 февраля) по 34-м тематикам, включающим такие популярные как игры для android/андроид, электронные валюты, кредит, ЕГЭ, заработок, подработка, скачать...

Скачать выборки:

http://www.bukvarix.com/keyword-selections.html

Те, у кого есть наша программа, такие выборки могут сделать самостоятельно.

Подготовлена новая версия Букварикса - 1.9, в которой мы обновили как ключевые слова, так и частотности. База обновлялалась с января по середину февраля, она включает 1 млрд. 335 млн. ключевых фраз, причем включены только те фразы, у которых широкая частотность больше или равна единице.

Скачать новую версию Букварикса можно, как обычно, с нашего сайта:

http://www.bukvarix.com/download.html

Размер архива программы составляет 28,6 Гб (95 Гб в распакованном виде). Программу можно скачать через торрент (спасибо за поддержку раздачи!), а также с облачных сервисов Яндекс.Диск и Облако@mail.ru. Как и прежде, Букварикс бесплатен.

Всем успешной и плодотворной работы!

freeman1:
Думаю что многих не остановил бы размер базы, даже 300 гигов. Было бы отлично, если бы было два варианта для закачки, такой как сейчас и полный. Потому что по сути, сезонные слова появляются, после того как сезон закончился. А так, можно было бы посмотреть и по прошлому периоду статистику. Особенно, если база за год.

Мы обратили внимание на то, что с увеличением размера базы участились обращения с проблемами при распаковке. Если бы мы предложили базу большего размера, то большинство пользователей скорее всего пытались бы скачивать именно ее (так уж мы устроены :), а столкнувшись с проблемой, вряд ли стали бы перекачивать меньшую базу, посчитав продукт глючным в принципе. Т.е. наша программа становилась бы все более нишевой, чего бы нам не хотелось. В онлайн-версии нам будет намного проще предоставить более полную базу, поэтому мы решили пойти по этому пути. Фильтр, который мы применяем и который оставляет в базе только слова с частотностями, кажется нам наиболее приемлемым как с точки зрения качества, так и размера десктопной базы. Повторимся, в онлайн версии мы сможем сделать больше.

P.S. Новая версия 1.9 почти готова, завтра мы сделаем анонс релиза, как только дотестируем.

Всего: 641