Bukvarix

Bukvarix
Рейтинг
134
Регистрация
27.02.2013

LEOnidUKG,

На текущий момент доступен только ключ free, у которого такие же ограничения, как и у незарегистрированного пользователя. Пока мы еще не доработали API, чтобы можно было получить расширенный ключ, и не определились, по какому пути пойти - сделать API частью тарифного плана или самостоятельным продуктом.

Иван34,

Фильтрация по нашим представлениям (еще со времени разработки десктопной программы) была одной из функций профессионального использования, поэтому мы ее включили именно в платный тариф (ведь на финансирование проекта нужны средства, у нас нет спонсоров).

Neo00007,

Мы хотим накопить статистику за пару месяцев, чтобы определиться с дальнейшей тарифной и ценовой политикой.

___________________________________________

Добрый день,

Мы добавили возможность удаления дубликатов-перестановок при экспорте выборки ключевых слов, получаемой в режиме простого или расширенного "Подбора слов" (с поиском по словам). Предложение пользователей по разработке этой функции - одно из наиболее частых.

Для включения этой возможности нужно зайти в Настройки поиска и выбрать опцию "удалять дубликаты-перестановки" в пункте "Настройки экспорта".

В текущей реализации алгоритм простой: оставляется первое по списку словосочетание, и удаляются его варианты, в которых словоформы полностью совпадают, а порядок слов другой. По нашей оценке в результате такой фильтрации выборка чище, и в большинстве случаев в выборке остается вполне приемлемый вариант ключевого слова.

Devvver, LEOnidUKG,

Спасибо за сообщение об ошибке в работе API, ошибку исправили, попробуйте запрашивать снова. На всякий случай - если повторно возникнет проблема с API с 429 ошибкой, просим отправить сообщение на support at bukvarix.com с указанием IP, с которого сделаны запросы, чтобы мы могли быстрее и точнее разобраться в проблеме.

demonichka, Duna,

25 июля мы выпустили платную версию сервисов Букварикс, об этом разместили пост в этой теме:

/ru/forum/comment/15692336

Бесплатного в нашем проекте все же осталось немало, в этом посте (в конце) перечислено подробно:

/ru/forum/comment/15695768

Что касается веб-сервисов, то мы действительно ограничили бесплатную версию (а не закрыли), поскольку, если бы мы этого не сделали, то покупать платную (причем даже сравнительно недорогую) было бы незачем, а у нас есть постоянные расходы на поддержание проекта и они, увы, не уменьшаются.

Добрый день,

За прошедшую и текущую неделю мы сделали несколько улучшений и обновили несколько баз, об этом наша сегодняшняя новость.

1. В сервисе "СЯ конкурентов" (поиск ключевых слов по нескольким доменам или субдоменам) мы сделали два изменения. Во-первых, теперь можно сравнивать до 30 доменов (было до 10), а для того, чтобы это было удобнее, теперь вводить домены нужно списком по одному в строке, а не в одной строке через запятую как прежде.

2. Для тех, кто часто при поиске применяет фильтры мы сделали небольшое улучшение интерфейса - теперь блок Настроек фильтра можно закрепить с помощью соответствующей опции в Настройках поиска, и при перезагрузке страницы после применения фильтров Настройки фильтра останутся открытыми.

3. Мы также обновили поисковую выдачу для нескольких баз Яндекса - Яндекс России, Яндекс Санкт-Петербурга и Яндекс Минска. Обновление проводилось со второй половины июня по июль включительно.

regta,

О суточной оплате мы задумывались, но на этом этапе проекта решили не вводить.

По поводу обновления базы - пока мы еще не уверены в наших финансовых возможностях обновить базу полностью, более реальным кажется добавление функционала по обновлению отдельной выборки пользователя, но позже мы определимся более точно.

ArtPresident,

Спасибо большое, что объяснили, как вы работаете с инструментами и что от них ожидаете - такая информация для разработчиков очень ценна.

Ваша идея понятна, но решение нам бы хотелось сделать как можно более универсальным, т.е. удовлетворительным по скорости на больших выборках. Компромиссный вариант приемлем для нас в случае, если уж совсем не получится с универсальным. Сейчас ответить на ваш вопрос по объемам, которые мы можем на приемлемой скорости обработать по компромиссному варианту, мы не можем, для это значит, что мы должны отложить все текущие планы и начать экспериментировать с лемматизатором. Мы понимаем важность задачи, и займемся этим, но не сразу.

Еще раз спасибо вам за развернутые ответы и пояснения.

ArtPresident, еще раз спасибо за подробные пояснения.

Нам нравится ваш подход и понятно, почему вам нужна именно такая реализация ЧС.

ArtPresident:
1) Да, добавить к первому частотному словарю (тот, что есть сейчас — считает количество запросов , в которые вошла словоформа), второй частотный словарь -- по суммам частот запросов в которые входит лемма (считает суммарные частоты для всех запросов, в которые входит слово / лемма).

Эти два ЧС похожи на:
— документную частоту df, (в каком количестве документе встречается слово);
— частота в коллекции cf (сколько раз всего встречается слово во всей коллекции документов).

В нашем случае, тот ЧС, что есть сейчас ("к анализу" и "анализ слов") считает в какое кол-во запросов входит словоформа (опустим незначительную погрешность, если в запросе слово встречается больше одного раза).

ЧС второго типа (о котором я говорю) считает сумму частот всех запросов, в которые входит слово / лемма. Вы правильно поняли. У КейКоллектора есть реализация ЧС словарей двух типов. Второй ЧС реализован именно как Вы говорите — лемма + в скобках словоформы + суммарная частота всех запросов, в которые входит лемма. С этим разобрались — задача трудоемкая и требует оптимизации решений :)

1.1) Для частотных словарей выводить статистику не по словоформам отдельно, а по леммам. И при переходе "к анализу" после поиска по маркеру(ам), и при использовании доп. сервиса "анализ слов". Когда я даю слово / словосочетания в строку поиска — Букварикс не ищет только в тех словоформах, которые я задал. Значит стемминг / лемматизация запросов у Букварикса уже реализован. Насколько трудоемка задача выводить ЧС не по словоформам, а по леммам? Те, кто работают с частотными словарями, поймут меня и оценят вывод статистики не по словоформам отдельно, а по леммам :) Я интенсивно использую ЧС на каждом этапе — начиная от сбора СЯ до подготовки ТЗ страницы.

Поддержка словоформ у нас есть, но при применении этого решения (которое сделано с главной задачей обеспечения быстрого поиска) непосредственно для анализа, оно будет работать не так быстро, как нам бы хотелось. Это не значит, что мы никогда не сможем сгруппировать словоформы и выводить леммы быстро, просто прямо сейчас хорошего решения у нас нет.

ArtPresident:
2) Чтобы мы поняли друг друга правильно, уточню: сейчас список запросов выводится по какому-то алгоритму сортировки (кол-во слов + наиболее частотные). Правильно? Можете описать более подробно алгоритм вывода? Ну например, что выводится на первой странице поиска Букварикса? По какому принципу отбираются запросы на первую страницу? На вторую? На третью? Выше Вы написали, что отбираются результаты "выдачи" Букварикса (сделаем такое сравнение с поисковиками) по количеству слов и частоте. То есть, какой-то алгоритм сортировки результатов уже есть? Если я хочу найти самый частотный запрос (или 10 самых частотных) без выгрузки, я могу понять на какой странице мне искать такой запрос(ы)?

Небольшое вступление - у нас собственная разработка для быстрого поиска. Отсюда как свои плюсы, так и минусы.

Плюсы - быстрая скорость, поддержка больших списков.

Минусы - отсутствие базовых вещей, которые есть в стандартных готовых решениях, но нет у нас.

Поэтому все приходится делать самим, и делать нужно так, чтобы это работало максимально быстро.

Мы уже многое сделали из того, чего изначально не было в том же десктопном Буквариксе:

1. Поддержка операторов искать/не искать на уровне слов (+слово, -слово).

2. Поддержка морфологических форм слов (у нас это операторы ! для поиска точной словоформы и ~ для поиска с учетом словоформ).

3. Поддержка поиска по маске (скачат*).

4. Поддержка фильтрации по частотности.

Сортировки пока в этом списке нет.

И фильтрация, и сортировка - тяжелые операции (работают на уровне всей выборки, в которой могут быть сотни миллионов слов, например, если ввели слово "скачать").

Сортировка для нас ресурсозатратнее фильтрации, поэтому мы с ней пока не справились.

Теперь ближе к вашему вопросу (относительно сортировки).

Данные расположены на диске так, как нам удобнее (чтобы можно было максимально быстро искать).

Расположены они в порядке, который приблизительно можно описать как "наиболее частотные короткие слова вверху".

Для каждой выборки в итоге порядок фраз фиксированный (сколько бы её не запускали, порядок будет таким же).

Но если сделать выборку уже не точно такую, а, например, добавив туда слово - то порядок фраз уже чуть изменится (но, опять же, сколько бы её не перезапускали, порядок будет тем же).

В практическом смысле можно сказать, что в данном вопросе поведение разных версий Букварикса (бесплатных/платных) будет одинаково.

Наиболее частотные слова с большой вероятностью войдут в первые 1000/3000/3000000 слов.

LazyBadger, позвольте не согласиться со столь категоричным утверждением, что

LazyBadger:
бесплатного его нет совсем

Все это осталось бесплатным:

https://www.bukvarix.com/download_v1.1.html

https://www.bukvarix.com/download.html

https://www.bukvarix.com/keyword-selections.html

https://www.bukvarix.com/english-keywords.html

https://www.bukvarix.com/ad-bases.html

https://www.bukvarix.com/top-popular-keywords.html

Можете также зайти на старую версию сайта и убедиться:

https://www.bukvarix.com/desktop-software.html

В названии топика сказано "Букварикс: бесплатная программа для быстрого подбора ключевых слов".

Наверное, на текущий момент актуальнее было бы:

"Букварикс: бесплатная программа и платный сервис для быстрого подбора ключевых слов".

Но название топика мы поменять не можем, а создавать темы под разные части проекта Букварикса (под десктопный Букварикс, под онлайн Букварикс, под отдельные выборки Букварикса...) - такое решение вряд ли понравится модераторам.

ArtPresident:
Здравствуйте!

Есть ли возможность:
1) В частотных словарях ("к анализу" и "анализатор слов") выводить статистику не по каждой словоформе, а по леммам (базовая словоформа)? То есть, выводить статистику по всем запросам, в которых встретилось слово И его словоформы (не для каждой словоформы отдельно, как сейчас).

2) Сейчас частотный словарь считает только встречаемость словоформы в запросах. Возможно ли добавить еще один частотный словарь: считать суммарную частоту для всех запросов, в которых встретилось слово / лемма.

Здравствуйте, ArtPresident, большое спасибо за развернутый список улучшений, они нам представляются полезными и правильными.

Вы хотите, чтобы в "Анализе слов" словоформы группировались и чтобы выводилась базовая словоформа (лемма и, возможно, в скобках через запятую все остальные встреченные словоформы) и суммарное значение частотностей всех встреченных словоформ, так?

Если да, то у нас уже есть в планах, но пока не решили, как это сделать быстро, а решение "в лоб" будет медленным.

ArtPresident:
3) Возможно ли заменить частоты по запросу с "!слово !слово" на точную "[!слово !слово]"?

В текущих реалиях, к сожалению, пока не можем.

ArtPresident:
4) Вывод списка запросов жестко привязать к частотам — вывод всегда от самых частотных к менее частотным. Чтобы при выгрузке, к примеру, 3000 запросов выгружались первые 3000 самых частотных. И при просмотре списка (еще ДО выгрузки) сразу видеть наиболее частотные. Не совсем понятно, зачем сейчас список запросов выводится с учетом количества слов.

Сортировка тоже пока в планах; для тех функций, о которых вы говорите, сначала нужно сделать сортировку в принципе.

narolskay:
Пользуюсь часто Буквариксом, огромнейшая база ключей, пару минут и уже сохраненная в файлик!
Скажите, а в платной версии будет возможность по принципу Мутагена фильтровать ключи?

Спасибо за вопрос. Если вы имеете в виду показатель конкуренции Мутагена, то нет, рассчитать аналогичный показатель для всей базы сейчас нереально (нужно запросить дополнительные данные, провести исследование и поэкспериментировать с формулами - пока для нас это долго и дорого), а если что-то другое - уточните, пожалуйста.

freeman1:
Здравствуйте!
Можно узнать, по какому принципу выводится 1000/3000 строк? В бесплатном варианте. Ну и соответственно, 3 млн (если в результате, программа ищет более 3 млн.)

Результаты как-то сортируются или как?
Даже если в платном режиме найдено 5 млн строк, а программа дает скачать 3 млн., часть запросов останется невыгруженными. А там могут быть ценные запросы.

Если бы результаты сортировались по спаданию частотностей, вопросов бы не возникло.
Кстати, ранее вы писали, что в онлайн версии реализуете сортировку выдачи. Но я так понимаю, этого сейчас нет.

Здравствуйте, freeman1,

Спасибо за вопросы.

По поводу сортировки - как таковой строгой сотрировки нет, но можно сказать, что вверху списка более короткие и высокочастотные слова. Сортировка в привычном понимании пока еще не реализована.

Но в платной подписке сортировку может заменить фильтрация (в бесплатной фильтрация больше не применяется). Т.е. большие выборки можно выгрузить практически полностью по 3 млн. строк пользуясь интервалами фильтров.

Но если это неудобно тем, кто подбирает по одной короткой фразе (вроде "смотреть онлайн") и кому требуется выгрузка 10+ миллионов строк, но кто мало использует подбор списками, то мы можем в индивидуальном порядке предложить специальный тарифный план, учитывающий их потребности. Пришлите нам в поддержку описание ваших потребностей, и мы подумаем, что можно для вас сделать.

Всего: 641