Спасибо за развернутый список улучшений - Сервисы и программы для работы с SE

134

Bukvarix

28 июля 2018, 08:37

#831

ArtPresident:
Здравствуйте!

Есть ли возможность:
1) В частотных словарях ("к анализу" и "анализатор слов") выводить статистику не по каждой словоформе, а по леммам (базовая словоформа)? То есть, выводить статистику по всем запросам, в которых встретилось слово И его словоформы (не для каждой словоформы отдельно, как сейчас).

2) Сейчас частотный словарь считает только встречаемость словоформы в запросах. Возможно ли добавить еще один частотный словарь: считать суммарную частоту для всех запросов, в которых встретилось слово / лемма.

Здравствуйте, ArtPresident, большое спасибо за развернутый список улучшений, они нам представляются полезными и правильными.

Вы хотите, чтобы в "Анализе слов" словоформы группировались и чтобы выводилась базовая словоформа (лемма и, возможно, в скобках через запятую все остальные встреченные словоформы) и суммарное значение частотностей всех встреченных словоформ, так?

Если да, то у нас уже есть в планах, но пока не решили, как это сделать быстро, а решение "в лоб" будет медленным.

ArtPresident:
3) Возможно ли заменить частоты по запросу с "!слово !слово" на точную "[!слово !слово]"?

В текущих реалиях, к сожалению, пока не можем.

ArtPresident:
4) Вывод списка запросов жестко привязать к частотам — вывод всегда от самых частотных к менее частотным. Чтобы при выгрузке, к примеру, 3000 запросов выгружались первые 3000 самых частотных. И при просмотре списка (еще ДО выгрузки) сразу видеть наиболее частотные. Не совсем понятно, зачем сейчас список запросов выводится с учетом количества слов.

Сортировка тоже пока в планах; для тех функций, о которых вы говорите, сначала нужно сделать сортировку в принципе.

narolskay:
Пользуюсь часто Буквариксом, огромнейшая база ключей, пару минут и уже сохраненная в файлик!
Скажите, а в платной версии будет возможность по принципу Мутагена фильтровать ключи?

Спасибо за вопрос. Если вы имеете в виду показатель конкуренции Мутагена, то нет, рассчитать аналогичный показатель для всей базы сейчас нереально (нужно запросить дополнительные данные, провести исследование и поэкспериментировать с формулами - пока для нас это долго и дорого), а если что-то другое - уточните, пожалуйста.

1

Новый подход к созданию Teh.ru новый полностью автоматический ($) Измерение передаваемого веса

AP

151

ArtPresident

28 июля 2018, 13:45

#832

Bukvarix:

Вы хотите, чтобы в "Анализе слов" словоформы группировались и чтобы выводилась базовая словоформа (лемма и, возможно, в скобках через запятую все остальные встреченные словоформы) и суммарное значение частотностей всех встреченных словоформ, так?

1) Если да, то у нас уже есть в планах, но пока не решили, как это сделать быстро, а решение "в лоб" будет медленным.

2) Сортировка тоже пока в планах; для тех функций, о которых вы говорите, сначала нужно сделать сортировку в принципе.

1) Да, добавить к первому частотному словарю (тот, что есть сейчас — считает количество запросов , в которые вошла словоформа), второй частотный словарь -- по суммам частот запросов в которые входит лемма (считает суммарные частоты для всех запросов, в которые входит слово / лемма).

Эти два ЧС похожи на:

— документную частоту df, (в каком количестве документе встречается слово);

— частота в коллекции cf (сколько раз всего встречается слово во всей коллекции документов).

В нашем случае, тот ЧС, что есть сейчас ("к анализу" и "анализ слов") считает в какое кол-во запросов входит словоформа (опустим незначительную погрешность, если в запросе слово встречается больше одного раза).

ЧС второго типа (о котором я говорю) считает сумму частот всех запросов, в которые входит слово / лемма. Вы правильно поняли. У КейКоллектора есть реализация ЧС словарей двух типов. Второй ЧС реализован именно как Вы говорите — лемма + в скобках словоформы + суммарная частота всех запросов, в которые входит лемма. С этим разобрались — задача трудоемкая и требует оптимизации решений :)

1.1) Для частотных словарей выводить статистику не по словоформам отдельно, а по леммам. И при переходе "к анализу" после поиска по маркеру(ам), и при использовании доп. сервиса "анализ слов". Когда я даю слово / словосочетания в строку поиска — Букварикс не ищет только в тех словоформах, которые я задал. Значит стемминг / лемматизация запросов у Букварикса уже реализован. Насколько трудоемка задача выводить ЧС не по словоформам, а по леммам? Те, кто работают с частотными словарями, поймут меня и оценят вывод статистики не по словоформам отдельно, а по леммам :) Я интенсивно использую ЧС на каждом этапе — начиная от сбора СЯ до подготовки ТЗ страницы.

2) Чтобы мы поняли друг друга правильно, уточню: сейчас список запросов выводится по какому-то алгоритму сортировки (кол-во слов + наиболее частотные). Правильно? Можете описать более подробно алгоритм вывода? Ну например, что выводится на первой странице поиска Букварикса? По какому принципу отбираются запросы на первую страницу? На вторую? На третью? Выше Вы написали, что отбираются результаты "выдачи" Букварикса (сделаем такое сравнение с поисковиками) по количеству слов и частоте. То есть, какой-то алгоритм сортировки результатов уже есть? Если я хочу найти самый частотный запрос (или 10 самых частотных) без выгрузки, я могу понять на какой странице мне искать такой запрос(ы)?

1

Новый корпус Морфология при ссылочном ранжировании Сколько может стоить разработка

228

Lazy Badger

28 июля 2018, 15:08

#833

Название топика пора править - в нынешних реалиях Букварикс сильно не бесплатный, точнее будет сказать - бесплатного его нет совсем, несмотря на (без фильтров-то - дрек)

Производство жести методом непрерывного отжига

134

Bukvarix

28 июля 2018, 16:29

#834

ArtPresident, еще раз спасибо за подробные пояснения.

Нам нравится ваш подход и понятно, почему вам нужна именно такая реализация ЧС.

ArtPresident:
1) Да, добавить к первому частотному словарю (тот, что есть сейчас — считает количество запросов , в которые вошла словоформа), второй частотный словарь -- по суммам частот запросов в которые входит лемма (считает суммарные частоты для всех запросов, в которые входит слово / лемма).

Эти два ЧС похожи на:
— документную частоту df, (в каком количестве документе встречается слово);
— частота в коллекции cf (сколько раз всего встречается слово во всей коллекции документов).

В нашем случае, тот ЧС, что есть сейчас ("к анализу" и "анализ слов") считает в какое кол-во запросов входит словоформа (опустим незначительную погрешность, если в запросе слово встречается больше одного раза).

ЧС второго типа (о котором я говорю) считает сумму частот всех запросов, в которые входит слово / лемма. Вы правильно поняли. У КейКоллектора есть реализация ЧС словарей двух типов. Второй ЧС реализован именно как Вы говорите — лемма + в скобках словоформы + суммарная частота всех запросов, в которые входит лемма. С этим разобрались — задача трудоемкая и требует оптимизации решений :)

1.1) Для частотных словарей выводить статистику не по словоформам отдельно, а по леммам. И при переходе "к анализу" после поиска по маркеру(ам), и при использовании доп. сервиса "анализ слов". Когда я даю слово / словосочетания в строку поиска — Букварикс не ищет только в тех словоформах, которые я задал. Значит стемминг / лемматизация запросов у Букварикса уже реализован. Насколько трудоемка задача выводить ЧС не по словоформам, а по леммам? Те, кто работают с частотными словарями, поймут меня и оценят вывод статистики не по словоформам отдельно, а по леммам :) Я интенсивно использую ЧС на каждом этапе — начиная от сбора СЯ до подготовки ТЗ страницы.

Поддержка словоформ у нас есть, но при применении этого решения (которое сделано с главной задачей обеспечения быстрого поиска) непосредственно для анализа, оно будет работать не так быстро, как нам бы хотелось. Это не значит, что мы никогда не сможем сгруппировать словоформы и выводить леммы быстро, просто прямо сейчас хорошего решения у нас нет.

ArtPresident:
2) Чтобы мы поняли друг друга правильно, уточню: сейчас список запросов выводится по какому-то алгоритму сортировки (кол-во слов + наиболее частотные). Правильно? Можете описать более подробно алгоритм вывода? Ну например, что выводится на первой странице поиска Букварикса? По какому принципу отбираются запросы на первую страницу? На вторую? На третью? Выше Вы написали, что отбираются результаты "выдачи" Букварикса (сделаем такое сравнение с поисковиками) по количеству слов и частоте. То есть, какой-то алгоритм сортировки результатов уже есть? Если я хочу найти самый частотный запрос (или 10 самых частотных) без выгрузки, я могу понять на какой странице мне искать такой запрос(ы)?

Небольшое вступление - у нас собственная разработка для быстрого поиска. Отсюда как свои плюсы, так и минусы.

Плюсы - быстрая скорость, поддержка больших списков.

Минусы - отсутствие базовых вещей, которые есть в стандартных готовых решениях, но нет у нас.

Поэтому все приходится делать самим, и делать нужно так, чтобы это работало максимально быстро.

Мы уже многое сделали из того, чего изначально не было в том же десктопном Буквариксе:

1. Поддержка операторов искать/не искать на уровне слов (+слово, -слово).

2. Поддержка морфологических форм слов (у нас это операторы ! для поиска точной словоформы и ~ для поиска с учетом словоформ).

3. Поддержка поиска по маске (скачат*).

4. Поддержка фильтрации по частотности.

Сортировки пока в этом списке нет.

И фильтрация, и сортировка - тяжелые операции (работают на уровне всей выборки, в которой могут быть сотни миллионов слов, например, если ввели слово "скачать").

Сортировка для нас ресурсозатратнее фильтрации, поэтому мы с ней пока не справились.

Теперь ближе к вашему вопросу (относительно сортировки).

Данные расположены на диске так, как нам удобнее (чтобы можно было максимально быстро искать).

Расположены они в порядке, который приблизительно можно описать как "наиболее частотные короткие слова вверху".

Для каждой выборки в итоге порядок фраз фиксированный (сколько бы её не запускали, порядок будет таким же).

Но если сделать выборку уже не точно такую, а, например, добавив туда слово - то порядок фраз уже чуть изменится (но, опять же, сколько бы её не перезапускали, порядок будет тем же).

В практическом смысле можно сказать, что в данном вопросе поведение разных версий Букварикса (бесплатных/платных) будет одинаково.

Наиболее частотные слова с большой вероятностью войдут в первые 1000/3000/3000000 слов.

LazyBadger, позвольте не согласиться со столь категоричным утверждением, что

LazyBadger:
бесплатного его нет совсем

Все это осталось бесплатным:

https://www.bukvarix.com/download_v1.1.html

https://www.bukvarix.com/download.html

https://www.bukvarix.com/keyword-selections.html

https://www.bukvarix.com/english-keywords.html

https://www.bukvarix.com/ad-bases.html

https://www.bukvarix.com/top-popular-keywords.html

Можете также зайти на старую версию сайта и убедиться:

https://www.bukvarix.com/desktop-software.html

В названии топика сказано "Букварикс: бесплатная программа для быстрого подбора ключевых слов".

Наверное, на текущий момент актуальнее было бы:

"Букварикс: бесплатная программа и платный сервис для быстрого подбора ключевых слов".

Но название топика мы поменять не можем, а создавать темы под разные части проекта Букварикса (под десктопный Букварикс, под онлайн Букварикс, под отдельные выборки Букварикса...) - такое решение вряд ли понравится модераторам.

1

Новые возможности беты веб-сервиса Вышла новая версия программы Более 1 млрд. ключевых

AP

151

ArtPresident

28 июля 2018, 17:43

#835

Bukvarix:

Поддержка словоформ у нас есть, но при применении этого решения (которое сделано с главной задачей обеспечения быстрого поиска) непосредственно для анализа, оно будет работать не так быстро, как нам бы хотелось. Это не значит, что мы никогда не сможем сгруппировать словоформы и выводить леммы быстро, просто прямо сейчас хорошего решения у нас нет.

Может можно реализовать какое-то дополнительное компромиссное решение для инструмента "анализ слов" с ограничением на количество запросов? Что есть сейчас:

1) ЧС по словоформам любой выборки запросов в поиске (переход "к анализу"). Хорошо подходит для первичного анализа большого списка запросов по маркерам — поиск нетематичных слов (контекстов маркера), поиск тематичных слов (контекстов маркера). Анализируя ЧС на этом этапе, быстро нахожу тематичные контексты для формирования более длинных словосочетаний в поиск Букварикса. Или ищу нетематичные слова для добавления в слова-исключения и исключаю из выборки запросы с "левыми" контекстами. В принципе, для этих целей мне хватает и того формата, что есть сейчас (ЧС по словоформам).

2) ЧС в инструменте "анализ слов". Сейчас туда можно загрузить 100 000 запросов (это очень вери гуд, найти сервис на такое количество запросов для ЧС не так просто, если нет КейКоллектора, к примеру). Из минусов — ЧС по словофрмам. Тут ситуация понятна — решение в поиске, задача не такая простая, как кажется "не технарю" (мне :) оставляем этот вариант.

3) Компромиссный дополнительный вариант: я могу загрузить, к примеру, до 5000 запросов (или больше, если тех. возможности позволяют), но получаю ЧС по леммам И / ИЛИ (в идеале, в дополнение к ЧС первого типа) ЧС второго типа (лемма + сумма по частотам всех запросов, в которые она входит). Объясню для чего этот вариант:

При подготовке СЯ для конкретной страницы я делаю ЧС. Здесь количество запросов, естественно, поменьше. Но...Это позволит мне, во-первых: не корректировать вручную частоты, объединяя словоформы (или "на глазок"). Во вторых — у меня все-таки будет возможность получить ЧС второго типа :)

Я могу отсортировать из общей выгрузки первых 5000 наиболее частотных запросов (например, из выгрузки в 100 000 запросов) и закинуть их для формирования ЧС второго типа.

То есть, некий такой компромисс, дополнительный вариант, для ограниченного количества запросов. Частотный словарь второго типа: лемма + сумма частот всех запросов, в которые входит эта лемма + словоформы в скобочках) (но можно и без словоформ). Реально такое реализовать? Если да — для какого количества запросов? Даже для 3000 запросов инструмента "анализ слов", это позволит делать ЧС разных типов по леммам для СЯ конкретной страницы.

1

SeoCillin (beta) - анализ Морфология при ссылочном ранжировании Количество контента на сайте

134

Bukvarix

29 июля 2018, 07:44

#836

ArtPresident,

Спасибо большое, что объяснили, как вы работаете с инструментами и что от них ожидаете - такая информация для разработчиков очень ценна.

Ваша идея понятна, но решение нам бы хотелось сделать как можно более универсальным, т.е. удовлетворительным по скорости на больших выборках. Компромиссный вариант приемлем для нас в случае, если уж совсем не получится с универсальным. Сейчас ответить на ваш вопрос по объемам, которые мы можем на приемлемой скорости обработать по компромиссному варианту, мы не можем, для это значит, что мы должны отложить все текущие планы и начать экспериментировать с лемматизатором. Мы понимаем важность задачи, и займемся этим, но не сразу.

Еще раз спасибо вам за развернутые ответы и пояснения.

1

Новый продукт: ссылки навсегда А вы точно доктор? [MySQL] выбор случайных записей

228

Lazy Badger

29 июля 2018, 12:56

#837

Bukvarix:
позвольте не согласиться со столь категоричным утверждением

Позвольте и мне не согласиться с вашим несогласием.

Я воспринимаю Букварикс (в основном) как https://www.bukvarix.com/mkeywords/, поскольку он позволял собрать грязное СЯ

* быстрее

* полнее (что как раз важно)

чем сбор по ЛК у КК, попутно избавляя от работы (и трат на) SpyWords/Keys.so И в таком ашпекте что "без регистрации", что "бесплатный аккаунт" становятся бесполезными чуть более чем полностью по своим лимитам

Списки слов - это хорошо и интересно, но это все же несколько сторонние сущности (и от меня благодарность скорее за списки минусов, которые избавляют от... никогда бы не додумался, что у поколения жоп "холява" и производные словоформы, да и список населенных пунктов сам-адын досался бы составлять), ну а что десктопный букварикс отстал навсегда от веб-версии - мы ж знаем и не возражаем (т.е "он есть, но уже никому никуда не вперся")

Ну а название топика могут, если попросить, сменить лица с достаточными правами, я думаю

PS: Идеи и мысли Арти всячески (морально только пока) поддерживаю, это может быть отдельный (форк) "Букварикс Про" со своим ценником (только не надо безбашенную цену ахрефса выкатывать - не наши там цифры)

1

Новые возможности беты веб-сервиса КейКоллектор: постоянная капча в Софт для сбора ключей

AP

151

ArtPresident

30 июля 2018, 06:08

#838

LazyBadger:

PS: Идеи и мысли Арти всячески (морально только пока) поддерживаю, это может быть отдельный (форк) "Букварикс Про" со своим ценником (только не надо безбашенную цену ахрефса выкатывать - не наши там цифры)

Мое субъективное мнение на ценник для платных возможностей Букварикса в данный момент — $10/мес. "Букварикс ПРО" сейчас только увеличит ценник и выведет на уровень конкуренции с другими продуктами— КейКоллектор, Keys.so и др. — где Букварикс им проиграет.

Все-таки основная ценность Букварикса — это супер скорость в анализе и сборе СЯ, быстрый вход для новичка (очень просто пользоваться). Но есть и минусы, которые тем сильнее выходят на первый план, чем больше становится цена . Тут необходим очень тонкий баланс между ценой и удовлетворенностью пользователей. Этот баланс не нужен был, когда продукт был бесплатным — у него просто не было конкурентов. Бесплатность "убивала" все минусы еще на подлете :)

Вложение сейчас усилий разработчиков / финансовых вложений в улучшение функционала, чтобы поднять цену — это путь направлять взгляды пользователей на другие продукты и искать компромиссные альтернативы. А эти поиски компромиссов будут при увеличении цены, так как анализ конкурентов и сбор ядра — это фундамент, но есть еще и кластеризация, подготовка ТЗ, подготовка контента / написание статей. И все стоит денег, а значит человек просчитывает как оптимизировать расходную финансовую часть на всю цепочку.

Например, стоимость кластеризации напрямую зависит от количества запросов. Больше "мусорных" запросов — больше цена кластеризации. Значит СЯ с неявными дублями увеличивает стоимость кластеризации. Для больших СЯ (к примеру 500 000 запросов) "переплата" за кластеризацию неявных дублей может быть весьма существенной (зависит, конечно же, от количества этих самых неявных дублей). И тут уже скорость сбора как преимущество нивелируется, так как качество ядра может серьезно повлиять на окончательную стоимость собранного и кластеризированного СЯ.

1

От сбора семантического ядра Семантическое ядро на основе Семантическое ядро с ручной

315

regta

31 июля 2018, 19:56

#839

Ежемесячно, конечно, удобно собирать деньги. Но может быть рассмотрите вариант - суточной оплаты. Т.е. платишь когда нужно.

А так - да:

ArtPresident:
Все-таки основная ценность Букварикса — это супер скорость в анализе и сборе СЯ

И все-таки - при переходе на платный вариант - скорость обновления базы улучшится?

Спасибо.

1

Цитируйте, плиз, историю переписки в личке. Спасибо.

Бесплатно подберу ключевые слова Как вы себе представляете Почему хостеры так любят

134

Bukvarix

1 августа 2018, 06:56

#840

regta,

О суточной оплате мы задумывались, но на этом этапе проекта решили не вводить.

По поводу обновления базы - пока мы еще не уверены в наших финансовых возможностях обновить базу полностью, более реальным кажется добавление функционала по обновлению отдельной выборки пользователя, но позже мы определимся более точно.

Директ: вопросы к Яндексу Регистрация в 400+ каталогах Бесплатно подберу ключевые слова

Что делать, если ваша email-рассылка попала в спам

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Букварикс: бесплатная программа для быстрого подбора ключевых слов