Здравствуйте,
Подготовлена расширенная база английских ключевых слов, в которой уже 846 млн. (+389 млн. фраз по сравнению с прежней минимальной базой). Размер базы: 8,9 Гб в архиве, 22,9 Гб в распакованном виде.
Дополнительно, как мы обещали на прошлой неделе, написана и выложена пошаговая инструкция со скриншотами по установке локального сервера баз данных, созданию базы английских ключевых слов и выполнению основных запросов для получения выборок. Инструкция довольно подробна и рассчитана на новичков, ранее не имевших опыта работы с БД.
Ознакомиться с инструкцией, а также скачать базу английских слов можно на странице:
http://www.bukvarix.com/english-keywords.html
В предлагаемой редакции инструкции имеется синтаксис самых необходимых запросов, которые тем не менее позволят вам сделать выборки по одному и нескольким словам, а также выборки со словами-исключениями, но чуть позже мы планируем расширить и дополнить ее. Ориентировочно расширенная инструкция выйдет к концу этой недели.
А на следующей неделе ждите новую базу английских слов на 1.5-2 млрд (кроме Google мы добавим подсказки Bing и Yahoo!). Все базы по-прежнему бесплатны.
БОЛЬШАЯ ПРОСЬБА ко всем, кто попробует делать выборки из английской базы по инструкции, написать нам, насколько просто было понять инструкцию, получилось у вас или нет, чтобы мы смогли учесть ваш опыт и улучшить инструкцию.
Большое всем спасибо! Видно, что интерес есть, инструкция в работе, опубликуем в понедельник-вторник.
Quantcast можно скачать вот здесь:
https://ak.quantcast.com/quantcast-top-sites.zip
База собиралась под все тематики, т.е. можно сказать что в базе представлены все тематики.
Единственное исключение - это адалт ("взрослая") тематика - её практически нет.
Но не потому, что она как-то особо фильтровалась, а потому что через подсказки её нормально не соберешь (если вы введете в строке поиска в Google что-то типа "porno", то увидите, что Google почти не предлагает слов относительно "porno").
Спасибо за теплые слова, они здорово добавляют мотивации работать над проектом. Вам также успехов!
Да, как мы писали выше, у нас это есть в планах, например, когда не хочется отменять общее применение морфологии, но нужно исключить отдельные словоформы, можно было бы использовать оператор для принудительного исключения такой словоформы.
freeman1, Фома, one,
Большое спасибо за обсуждение темы.
Это вполне объяснимо - в среднем частотности в нашей базе на сегодня отстают от Вордстата примерно на месяц, поэтому вполне понятно, что Вордстат, обновляющий данные практически каждый день, покажет большие цифры, ведь количество запросов "что подарить на 8 марта" растет по мере приближения праздника. Это проблема всех больших баз, не только нашей (хотя мы себя этим не оправдываем, это такой боттлнек).
Мы думали, как ускорить обновление базы, поэтому, возможно, в будущем откажемся от фразовой частотности (как очень редко используемой), останутся широкая и точная. Ещё один вариант увеличения скорости обновления - это уменьшение размера базы для обновления. В общем, как всегда, нужнен баланс - кому-то очень важно как можно более частое обновление, для кого-то важнее размер базы и возможность получить максимум НЧ, для кого-то обязательно наличие всех типов показов (широкий, фразовый, точный) для сравнения. Вот и пытаемся, чтобы все находили полезное для себя :)
Нам не хотелось бы вводить такие ограничения, ведь 1000 строк - это очень мало при выборке в несколько десятков тысяч результатов, а такие объемы выборок более часты, чем небольшие на тысячу или несколько тысяч. Для того, чтобы реализовать быструю сортировку на больших объемах выборки нужно было существенно повышать требования к ресурсам ПК, а нам бы этого не хотелось. Но имея серверное решение, мы будем гораздо свободнее в вопросе ресурсов и сможем обеспечить быструю сортировку и фильтрацию даже для достаточно больших выборок.
Знаем, что сортировка и фильтрация это старый и больной вопрос, но в онлайн-версии мы наконец-то эту проблему можем решить нормально. Как только будет что показать - сразу напишем.
Мы не ставили себе такую задачу, чтобы Букварикс понимал синтаксис Вордстат. Программа очень простая и рассчитана на тех, кто не обязательно является профессионалом поиска. Вводить фразы для поиска нужно без всяких операторов. Программа выдает все вхождения со словами ваших фраз, которые находятся в базе.
Тем не менее, в программе есть три колонки с чатотностями, которые соответсвуют следующему синтаксису вордстат:
широкий - купить слона
фразовый - "купить слона"
точный - "!купить !слона"
Мы планируем ввести несколько операторов, которые улучшат взаимодействие с программой, но мы не будем строго придерживаться синтаксиса Яндекса, у нашей программы все-таки другие цели :)
Для тех, кто не может скачать Букварикс, предлагаем готовые выборки из нашей новой базы (Букварикс 1.9 от 23 февраля) по 34-м тематикам, включающим такие популярные как игры для android/андроид, электронные валюты, кредит, ЕГЭ, заработок, подработка, скачать...
Скачать выборки:
http://www.bukvarix.com/keyword-selections.html
Те, у кого есть наша программа, такие выборки могут сделать самостоятельно.
Подготовлена новая версия Букварикса - 1.9, в которой мы обновили как ключевые слова, так и частотности. База обновлялалась с января по середину февраля, она включает 1 млрд. 335 млн. ключевых фраз, причем включены только те фразы, у которых широкая частотность больше или равна единице.
Скачать новую версию Букварикса можно, как обычно, с нашего сайта:
http://www.bukvarix.com/download.html
Размер архива программы составляет 28,6 Гб (95 Гб в распакованном виде). Программу можно скачать через торрент (спасибо за поддержку раздачи!), а также с облачных сервисов Яндекс.Диск и Облако@mail.ru. Как и прежде, Букварикс бесплатен.
Всем успешной и плодотворной работы!
Мы обратили внимание на то, что с увеличением размера базы участились обращения с проблемами при распаковке. Если бы мы предложили базу большего размера, то большинство пользователей скорее всего пытались бы скачивать именно ее (так уж мы устроены :), а столкнувшись с проблемой, вряд ли стали бы перекачивать меньшую базу, посчитав продукт глючным в принципе. Т.е. наша программа становилась бы все более нишевой, чего бы нам не хотелось. В онлайн-версии нам будет намного проще предоставить более полную базу, поэтому мы решили пойти по этому пути. Фильтр, который мы применяем и который оставляет в базе только слова с частотностями, кажется нам наиболее приемлемым как с точки зрения качества, так и размера десктопной базы. Повторимся, в онлайн версии мы сможем сделать больше.
P.S. Новая версия 1.9 почти готова, завтра мы сделаем анонс релиза, как только дотестируем.