Bukvarix

Bukvarix
Рейтинг
134
Регистрация
27.02.2013
Свинья дебил:
Bukvarix, немноного не понятно как архивы распаковывать, все в одну папку или по разным, не чё не понятно

После того, как вы скачаете все части архива в одну папку, станьте на первую часть архива и нажмите "Распаковать" в своем архиваторе, назначьте папку, в которую будет распаковываться архив. Остальные части подхватятся автоматически в нужном порядке. В назначенной папке будет готовая к использованию программа - нажмите Bukvarix.exe, чтобы ее запустить.

Выпущен апдейт оболочки для базы 1.9, который включает два небольших изменения:

1) Добавлена возможность поиска ключевого слова выборки в Яндексе и Google. Реализована как пункты меню по клику на правой кнопке мыши (открывается внешний дефолтный браузер).

2) Обновлен список стоп-слов в программе (слова, которые программа не учитывает при поиске, даже если они присутствуют в поисковой фразе). Кроме того, мы предлагаем дополнительные списки стоп-слов, которые можно также использовать в Буквариксе и/или других программах.

Скачать апдейт (1 Мб):

http://www.bukvarix.com/updates.html

Апдейт не требует перекачивания и обновления всей программы, нужно обновить только Bukvarix.exe (скачать, распаковать, записать поверх существующего файла Bukvarix.exe).

twiprogon:
Bukvarix, download нет что ли ?

Для оценки мы старались выбрать слова популярные, часто цитируемые, но все-таки не с такими тяжелыми выборками, как по слову download, которое в минимальной базе дает более 6 млн. результатов, в расширенной - более 17 млн. и в максимальной - более 44 млн.

Тем не менее, мы подготовили для вас выборки по слову download, если вам они нужны, вот ссылка на закачку:

https://yadi.sk/d/4Dui6uadqcUPy

ddlbusiness:
Понял, еще такой вариант дубля есть - буквы е и ё, например:

отличница лёгкого поведения
отличница легкого поведения

Есть ли в планах изначальное удаление таких дублей?

---------- Добавлено 30.03.2016 в 16:38 ----------

Вопрос ко всем - буду очень признателен за помощь/совет, как можно автоматизировать процесс удаления вышеописанных вариантов дублей?

Спасибо.

Функция автоматизации отсева нечетких дубликатов на основе частотности Google AdWords есть у Key Collector'а. Вот ссылка на ролик, чтобы Вы могли понять, о чем идет речь:

https://www.youtube.com/watch?v=DYd51XEJtKw&t=935

ddlbusiness:
Такой вопрос, заранее прошу прощения если уже было, не нашел в поиске:

При создании выборки в итоговом списке встречается много ключей типа:

интернет магазин продуктов питания
интернет-магазин продуктов питания

То есть по факту это один ключ, отличие только в символе "-", а в выборке идут оба варианта. Ручная чистка отнимает очень много времени при большой выборке.

Или другой пример, когда просто переставлены слова местами, например:

билл гейтс
гейтс билл

Есть(или будет) ли возможность изначально убрать такие дубли?

Спасибо.

Мы понимаем, что проблема нечетких дубликатов доставляет неудобства, и у нас в планах есть варианты ее решения, но под нечеткими дубликатами обычно подразумеваются скорее словосочетания-перестановки и/или измененные словоформы (именно устранение проблемы с такими дубликатами мы планируем - как пример, упомянутый Вами "билл гейтс" и "гейтс билл"), а обработки вариантов написания словосочетаний слитно, раздельно или через дефис пока в планах нет.

В данном случае проблему можно решить меняя условие для поиска. Т.е. если вы в качестве слова для поиска используете "интернет-магазин", то в результатах будут словосочетания, содержащие только "интернет-магазин" (с дефисом). Если же вы для поиска используете два слова отдельно "интернет магазин", то в результатах будут словосочетания, включающие эти слова отдельно, без дефиса.

Здравствуйте,

Мы выложили тестовые выборки по ключевым словам, относящимся к разным тематикам, для оценки базы английских ключевых слов. База дана в трех вариантах - минимальная (457 млн. подсказок Google), расширенная (846 млн. подсказок Google) и максимальная (3 млрд. 421 млн. подсказок Google, Bing и Yahoo!) и, как правило, выбирается максимальная, для работы с которой нужно много места на диске и оперативной памяти. Но, возможно, для каких-то ниш достаточно и расширенной базы.

По 38 ключевым словам подготовлены архивы, включающие три выборки - из минимальной, расширенной и максимальной базы. Скачайте, посмотрите, мы надеемся, что тестовые выборки помогут вам выбрать оптимальную базу.

Скачать тестовые выборки:

http://www.bukvarix.com/english-selections-examples.html

Lastwarrior:
В последней базе адалт есть?

Практически нет. База собрана из поисковых подсказок Google, Bing и Yahoo!, сейчас они практически не выдают адалт слова.

seoBB:
Где выборки быстрее работают - Penguin, KeyWordKeeper или Amazing Keywords?

Мы не пользуемся этими программами, предложили решение с PostgreSQL, по его тесту можем сказать, что скорость получения выборки сильно зависит от варианта базы - из маленькой выборку можно получить за секунды, а из максимальной - может понадобиться ждать несколько минут.

Присоединяемся к просьбе поделиться информацией о скорости выборки в вышеупомянутых программах.

den78ru,

Спасибо за, практически, case-study :) Нам очень приятно осознавать, что наша база для вас оказалась полезной.

Сергей Брин:
Позволю себе проанонсировать новость о возможности загрузки полной базы :) А то зашёл в тему, не увидел новости про обещанный вторник, перешёл на сайт и очень приятно удивился.

Вопрос: Для обновления баз, в частности русского букварикса, нужно каждый раз перекачивать все тонны гигабайтов? Нет возможности докачивать обновления?
P.S. У меня ещё пока что самая первая версия.

Спасибо за анонс :) вы нас чуть опередили. Вчера не успели выложить, база оказалась слишком большой, долго формировалась.

Дорабатывать удобные обновления десктопа не стали, решили потратить усилия на разработку онлайн-версии.

Теперь наш анонс :)

___________________

Сегодня мы выкладываем максимальную версию базы английских ключевых слов, которая - без преувеличения - является максимальной как среди бесплатных, так и среди платных баз английских слов, собранных с помощью поисковых подсказок. База состоит из 3 млрд. 421 млн. ключевых слов (архив занимает 40,2 Гб, 102 Гб в распакованном виде). Поэтому мы советуем качать эту базу через торрент (хотя мы залили ее на облачные сервисы тоже) и просим оставаться на раздаче.

Ссылка на страницу загрузки:

http://www.bukvarix.com/english-keywords.html

Также дополнена и расширена инструкция по работе с английской базой в PostgreSQL: добавлены примеры запросов для объединения результатов поиска разных слов, для вывода количества слов и знаков в словосочетаниях, сортировки, получения уникального списка слов. Даны примеры выборок при работе с другими базами. Ссылки на разделы иструкции также можно найти по вышеупомянутому адресу.

Всего: 641