Bukvarix

Bukvarix
Рейтинг
134
Регистрация
27.02.2013

Букварикс 2.3

Сегодня мы обновляем базу Букварикс - ключевые слова и частотности. База содержит словосочетания, у которых широкая частотность выше нуля. Для всех ключевых слов обновлены широкие и точные частотности (август - сентябрь). Улучшена фильтрация базы от мусора.

В базе версии 2.3 всего 1 млрд. 533 млн. ключевых слов. Архив программы занимает 30,5 ГБ, в распакованном виде - 111 ГБ.

Скачать программу можно по адресу:

http://www.bukvarix.com/download.html

uniteddare:
Подскажите, а можно как-то получить частотность "слово"? Я так понимаю, на текущий момент только широкое соответствие и точное?

Да, на текущий момент есть только широкое и "!точное" соответствие, "фразовое" перестали запрашивать с весны этого года (с версии 2.0) поскольку база выросла, и мы искали способы не замедлять и не удорожать обновление частотностей.

LordPunche, Vismand, Михаил Еременко, Samba1982,

Большое спасибо за поддержку и комментарии, мы видим, что интерес есть, так что следующему обновлению списка быть :)

SoGood, спасибо что отписались.

Небольшой лайфхак, возможно вам пригодится:

Есть возможность ускорить экспорт Букварикса, если есть быстрый диск даже небольшого объема, куда весь Букварикс просто не поместится.

По большому счету, именно для экспорта достаточно чтобы один файл (data.dat) был размещен на быстром диске.

Т.е. можно файл data.dat переместить на быстрый диск, а в самом Bukvarix подключить его через файловый линк.

Например, если Bukvarix установлен в C:\Bukvarix, а быстрый диск - это F:\ (и именно туда переписан файл data.dat), то создать ссылку можно, выполнив команду:

mklink C:\Bukvarix\Data\data.dat F:\data.dat

P.S. На понедельник запланировано обновление - версия 2.3, так что оставайтесь с нами :)

SoGood:
Спасибо, отличная база и очень быстрый поиск!
Правильно ли я понимаю, что в новой версии 2.2 специально занижена скорость экспорта в csv до непреемлемого значения? В версии 2.1 экспорт происходил весьма шустро, сейчас же практически никак. Так как встроенной сортировки нет, экспрот это единственная возможность получить пользу от базы. Собственно вопрос: что с экспортом в csv?

---------- Добавлено 15.09.2016 в 09:38 ----------

Тормозит из за низкой скорости чтения с того диска, где расположен букварикс. Читает рывками: несколько секунд 5Мб/с потом горка 60Мб/с затем скорость падает до 5Мб/с и так по кругу. Понятно что ссд улучшит ситуацию, но так как проц и память свободны есть ощущение каких-то проблем с алгоритмом кэширования, или это только у меня? И да, поиск то моментально работает!

SoGood, добрый день и спасибо за отзыв!

По поводу скорости - версия 2.1 и версия 2.2 (как, впрочем, и другие версии) построены одинаково и будут как искать, так и экспортировать с одинаковой скоростью. Скорость экспорта зависит только от размера базы - чем больше слов, тем медленнее экспорт. Поскольку обычно с каждым новым релизом базы количество слов увеличивается, то и скорость замедляется.

Но скорость замедляется почти линейно, пропорционально количеству слов в базе. Т.е. в большинстве случае в новой (большей) базе скорость экспортирования будет медленнее на проценты, но не в разы.

Если у вас скорость значительно упала, то можно попробовать "стандартные" средства для улучшения быстродействия:

1. Дефрагментация диска.

2. Перенос Букварикса на более быстрый диск (если, конечно, есть такая возможность).

3. Не использовать других программ, которые интенсивано работают с диском, во время экспорта.

4. Проверить диск (на случай, если данные Букварикса расположены на "плохих", но ещё не сбойных секторах и из-за этого читаются долго).

В Буквариксе есть две "тяжелые", но разные по принципу операции - это поиск и экспорт.

На стадии поиска имеет значение все: и CPU, и размер ОЗУ, и скорость диска.

Во время экспорта основная нагрузка идет на диск, именно поэтому на этой стадии самое важное - это скорость диска, все остальное имеет второстепенное значение.

Почему получается так, что чтение с диска во время экспорта идет как бы рывками, объяснить тоже просто - все зависит от данных, которые нужно экспортировать. Если какая-то часть данных для экспорта расположены вместе, то они читаются большим куском, если раздельно - то несколькими маленькими. Но, тем не менее, диск во время экспорта всегда занят (можно убедиться, если глянуть, например, через Resource Monitor).

Объективный разрыв в скорости поиска и скорости экспорта тоже объясняется - именно для быстрого поиска созданы отдельные индексы, которые занимают почти столько же, сколько сами данные. Без них поиск был такой же неторопливый, как и экспорт.

Если вам, например, прежде всего важна скорость экспорта, даже в ущерб размеру выборки - т.е. вам лучше чтобы пусть слов будет меньше, но экспортировать быстрее, то можно оставаться на старой версии. Или, как вариант, если позволяет место, то использовать разные версии - все версии могут работать параллельно (главное, чтобы были распакованы в разные каталоги).

И ещё хотелось бы повторить, что все версии Букварикса с самого начала выхода работают одинаково, скорость зависит только от размера базы (чем больше, тем медленнее), а не потому, что мы как-то специально начали занижать скорость.

P.S. Если хотите, можете скинуть нам для теста ваши выборки - мы проверим скорость экспорта параллельно для версии 2.1 и 2.2.

tashplus12:
Есть ли Узбекистан в списке геолокаций?
Простите если задаю вопрос тысячный раз)

В последних версиях Букварикса, к сожалению, не поддерживается. Есть только "Весь мир".

Redbaron_chaos:
Bukvarix, Здравствуйте. Вопрос по: "первые три миллиона ключевых слов, которые нужно импортировать в свою базу".
Интересует момент: "нужно импортировать в свою базу".

Как я понял, в Букварисе ее не открыть? Или я что то не так делаю? (не нашел в Помощи). В Сеттинг копировал.

Добрый день, Redbaron_chaos

Cразу краткий ответ на ваш вопрос - нет, в Буквариксе нельзя открыть эти списки (ни 1 млн., ни 3 млн.).

Нужно использовать другие решения - Excel, SQLite, MySQL, PostgreSQL и т.д.

Теперь поясним подробнее по поводу наиболее популярных запросов к Яндексу - почему списки не интегрированы в Букварикс и идут отдельно.

Сам список составлен на основе базы Букварикса, но по нему дополнительно запрошены 4 вида частотности, а не 2, как в Буквариксе.

Из них наиболее ценен относительно новый - "[!это !частотность !с !точным !порядком !слов]" (кроме операторов " и ! используется также квадратные скобки []).

В Буквариксе такой список принципиально не сделаешь, поскольку там нет сортировки и фильтрации, для его формирования мы используем отдельную внутреннюю программу.

Поскольку, как говорилось выше, такой список в Буквариксе не получишь и не откроешь, возникает вопрос как его вообще открыть?

Для этого есть 2 варианта списка (оба в формате .csv):

На 1 млн. строк (если быть точным, то 1 048 576 строк - это максимум для MS Excel).

На 3 млн. строк (для работы в своей БД).

Если у вас нет опыта работы с базами - то выбираете самый простой вариант - на 1 млн. строк и просто открываете его в Excel (в Excel уже встроена поддержка .csv).

Уже в Excel-е можете дополнительно фильтровать, сортировать и т.д. - благо Excel прост и понятен, и там можно многое сделать вообще без навыков работы с базами.

Если у вас есть опыт работы с БД - то вы, конечно же, остановите свой выбор на списке побольше - том, который на 3 млн.

Импортируйте этот списк в свою БД, и там уже будете обрабатывать, как вам угодно (тут подразумевается, что, раз вы умеете работать с БД, то вы уже сами знаете, как импортировать в БД, как там фильтровать и т.д.)

Ну а использование списка ограничено только вашей фантазией - кто-то будет смотреть, что из ключевых слов популярно, кто-то будет сравнивать топы между собой.

Мы планируем обновлять список и по-прежнему размещать его бесплатно вот здесь:

http://www.bukvarix.com/top-popular-keywords.html

petrovich32:
Вы отметили в одной из своих публикаций, что очень сильно растет беспроводная зарядка. Если посмотреть помесячный график на вордстате, то никаких заоблачных величин нет. Аномальный рост появляется на недельном графике, который выглядит очень подозрительно. Да и на самом деле никакого бума на них нет.

Встречаю такие штуки на графиках вордстата постоянно, с чем может быть связано?
Похоже на накрутку.

Скачкообразный рост популярности запроса виден за неделю, но не виден за месяц (Яндекс пока не обновил данные), но именно эти данные мы получили от Яндекса в указанный период времени. Возможность накрутки вполне вероятна, но нам кажется более вероятной какая-то техническая причина - изменение алгоритмов, сбой, в общем что-то в этом роде.

Объяснить внезапно возросшую популярность поиска беспроводных зарядных устройств реальным скачкообразным ростом спроса на такие устройства сложно - мобильные устройства в целом не являются чем-то новым, и потребность заряжать их вне дома не могла возникнуть внезапно. Из фантастических версий - появление игры "Pokemon go" :) , но, с другой стороны, игра вышла еще пару месяцев месяцев назад.

В общем, нужно посмотреть на данные Яндекса после обновления, последить, как будет меняться популярность запросов, относящихся к беспроводной зарядке. Мы планируем обновить топ популярных запросов на нашем сайте (http://www.bukvarix.com/top-popular-keywords.html) в следующем месяце, так что можно будет сравнить.

TOBBOT:
Bukvarix, спасибо! На sourceforge, правда, так и не нашел морфологических словарей.

Пожалуйста!

Они вот здесь:

https://sourceforge.net/p/seman/svn/HEAD/tree/trunk/Dicts/SrcMorph/

Но мы не пробовали их (словари) собирать из исходников, а брали готовые бинарные файлы для русской морфологии с самого сайта aot.ru (нам была нужна только русская морфология).

TOBBOT:
Для анализа морфологии нужен морфологический словарь (для каждого языка) с лицензией для свободного ком. использования. Словари такие весьма большие: около 500 мбайт. Если есть ссылка - прошу подкинуть.

Для русской морфологии можете попробовать AOT:

http://www.aot.ru/

Он небольшой - 16 MB вместе с бинарниками и словарем для русского языка.

У проекта открыты исходники, так что можно попробовать собрать словари для английского и немецкого языка:

https://sourceforge.net/projects/seman/

Из недостатков - нет готовых бинарников для x64.

А так - замечательный проект.

Всего: 641