Группировщик ключевых слов для PPC

123 4
QM
На сайте с 25.01.2010
Offline
168
#11

Такой вопрос. Неважно, кто группирует: либо алгоритм, либо человек руками -- но вот на вход этому абстрактному группировщику подаются данные:

1. Либо просто список напарсенных слов

2. Либо список напарсенных слов с частотностью

то где будет качественнее для директа произведена группировка: с учётом частности или частотность совершенно неважна и только запутывает?

Вопрос к чему. Вот допустим, кто-то делает операции по группированию вручную (ну допустим, компаний мало создаёт - одну для себя и всё; либо компании с маленьким числом ключей, можно и вручную сделать; либо ретроград, своё время не экономит, не доверяет автоматике, мол сделаю всё сам лучше)... а кто-то захочет купить программу. А у вас не предусмотрена частотность при группировке. Это хорошо (не нужно учитывать группировку, только мешает) или можно ожидать в коммерческой версии как фичу (просто реализовать) или хорошо бы сделать, да фиг его знает, что в алгоритме должно быть, чтобы учесть частотность правильно, чтобы так же хорошо, как и руками?

---------- Добавлено 15.11.2014 в 07:09 ----------

Утилитку я скачал, погонял на тестовых данных и реальных данных (выгружал из метрики по нескольким своим проектам). Нашёл некоторые баги, отправил в личку чтобы не захламлять тему подробностями по коду.

Я так понимаю, что основной вопрос, который решается в этой теме -- быть публичному инструменту или так и останется утилитка для персонального использования.

---------- Добавлено 15.11.2014 в 07:58 ----------

Ещё я вот что подумал. На текущую версию (которая непубличная) можно оставить как есть, но для коммерческой можно попробовать улучшить алгоритм группировки за счёт использования следующих трёх списков:

1. Страны ("тур в египет", "тур в турцию"...)

2. Города ("купить нечто в москве", "купить нечто в новгороде"...)

3. Годы ("туры египет 2014", "туры в египет 2013"...)

Ведь с использованием таких списков группировка становится чище и более похожа на то, как человек группирует руками, верно?

А если продумать эту идею до конца, то получается что нужно как-то обобщить работу и на другие списки. В каждой тематике возможны свои группировочные списки, задав которые пользователь поможет алгоритму сделать группировку более хорошо (пусть даже за несколько итераций запустил - сгруппировал - подумал - дополнил список группировки - ещё раз запустил).

Ну и в каждой тематике есть ещё один стандартный группировочный список -- "продающие слова" ))) Их по идее либо нужно отминусовывать при группировке (это шум), либо выделять в отдельную группу.

Кстати, вполне возможно, что в коммерческой версии окажется востребованным список минус-слов: чтобы некоторые запросы сразу по наличию минус-слов выкидывались и не участвовали в группировке.

Мусор -- он же и есть мусор. Возьмёшь так список запросов из базы Пастухова -- а там портянки такой длины, что лучше сразу заминусовать полсписка. Даже несмотря на то, что уже стараются покупать запросы из базы заминусованные. Или - запросы из метрики выгружать, там тоже нужно обрезать многие...

В общем, как идеи на подумать, как улучшить группировку слов.

PS А кстати, о прощупывании спроса. Почему сразу "продавать десктопную версию за 30 баксов"? Этак её купят только те, кто много и часто начинает новые РК. А если кому-то нужно запустить разок и всё?

Спросите и в таком ключе: будет ли пользоваться спросом вариант, когда такой же алгоритм будет прикручен на веб-сайт. "Доступ на сутки, не более 10 запусков -- цена вопроса 500 рублей. Логин/пароль в СМС и на почту". Вот вам и ещё потенциально целевая аудитория. Как вариант на подумать, тут и свои минусы будут ("вдруг они как spywords собирают себе мои запросы и продают", параноиков хватает, кто захочет купить десктоп версию и полностью владеть своими данными)

Перец
На сайте с 11.07.2004
Offline
220
#12

Программа интересная, но на своих данных у меня возникли вопросы:

По-хорошему, в первых двух строках подгруппы мне нужны по названию раций, а не по городу. Город здесь - бесполезная часть фразы при анализе.

В последней строке тоже бесполезный запрос вылез в название подгруппы. Вручную я бы сделал подгруппу "гарнитуры".

И таких примеров довольно много.

Как решить эти проблемы:

1. Указывать слова, которые не надо учитывать при сортировке (купить, москва, при, ли)

2. Добавить третий уровень вложенности "настройка принтера hp 111" -> принтер-hp111-настройка

3. Указывать слова, которые не должны быть во втором или первом уровне.

Сейчас для фраз:

- самсунг с5 белый

- айфон 6 белый

- нокиа белый

будет создана группа или подгруппы "белый" вместо сортировки по бренду или модели.

Ну и в идеале было бы по клику на фразе получить выпадающий список, в котором можно поменять слово, по которому создается подгруппа.

MA
На сайте с 24.02.2014
Offline
50
m_a
#13
q_metainfo:
Такой вопрос. Неважно, кто группирует: либо алгоритм, либо человек руками -- но вот на вход этому абстрактному группировщику подаются данные:
1. Либо просто список напарсенных слов
2. Либо список напарсенных слов с частотностью
то где будет качественнее для директа произведена группировка: с учётом частности или частотность совершенно неважна и только запутывает?

Вопрос к чему. Вот допустим, кто-то делает операции по группированию вручную (ну допустим, компаний мало создаёт - одну для себя и всё; либо компании с маленьким числом ключей, можно и вручную сделать; либо ретроград, своё время не экономит, не доверяет автоматике, мол сделаю всё сам лучше)... а кто-то захочет купить программу. А у вас не предусмотрена частотность при группировке. Это хорошо (не нужно учитывать группировку, только мешает) или можно ожидать в коммерческой версии как фичу (просто реализовать) или хорошо бы сделать, да фиг его знает, что в алгоритме должно быть, чтобы учесть частотность правильно, чтобы так же хорошо, как и руками?

Можно сделать, что частотность будет в дополнительном столбце, но как она должна участвовать в группировке - пока не знаю.

Сейчас думаю о методе группировки ВЧ -> СЧ -> НЧ, чтоб более длинные запросы включались в менее длинные.

слоны

|__розовые слоны

| |__купить розового слона

| | |__купить розового слона в москве

| | |__купить плюшевого розового слона

| |__розовые слоны москва

| |__розовые слоны питер

| |__розовые слоны недорого

|

|__фиолетовые слоны

| |__фиолетовый слон цена

| |__отзывы фиолетовый слон

При таком подходе частотность многословного запроса меньше чем у короткого запроса автоматически ведь, поэтому частотность тут тоже в алгоритме не участвует.

q_metainfo:

Я так понимаю, что основной вопрос, который решается в этой теме -- быть публичному инструменту или так и останется утилитка для персонального использования.

Да, именно так, не хочется вкладывать лишние ресурсы в то, что нужно крайне узкому кругу людей.

q_metainfo:
Ещё я вот что подумал. На текущую версию (которая непубличная) можно оставить как есть, но для коммерческой можно попробовать улучшить алгоритм группировки за счёт использования следующих трёх списков:
1. Страны ("тур в египет", "тур в турцию"...)
2. Города ("купить нечто в москве", "купить нечто в новгороде"...)
3. Годы ("туры египет 2014", "туры в египет 2013"...)
Ведь с использованием таких списков группировка становится чище и более похожа на то, как человек группирует руками, верно?
А если продумать эту идею до конца, то получается что нужно как-то обобщить работу и на другие списки. В каждой тематике возможны свои группировочные списки, задав которые пользователь поможет алгоритму сделать группировку более хорошо (пусть даже за несколько итераций запустил - сгруппировал - подумал - дополнил список группировки - ещё раз запустил).

Отличная идея, и она коррелирует с тем, что постом ниже было предложено Перец по поводу списков слов, которые должны показываться только в первом или втором уровне.

Сделаю, нужный функционал.

Над внедрением третьего, четвертого и далее уровней нужно подумать.

q_metainfo:

Ну и в каждой тематике есть ещё один стандартный группировочный список -- "продающие слова" ))) Их по идее либо нужно отминусовывать при группировке (это шум), либо выделять в отдельную группу.

Тоже верно.

Думаю нужно сделать настройку показа списков на нужном уровне так:

- Все уровни

- Уровень 1

- Уровень 2

- Нигде

Вот для продающих добавок и прочего можно завести список с настройкой "Нигде".

q_metainfo:

Кстати, вполне возможно, что в коммерческой версии окажется востребованным список минус-слов: чтобы некоторые запросы сразу по наличию минус-слов выкидывались и не участвовали в группировке.
Мусор -- он же и есть мусор. Возьмёшь так список запросов из базы Пастухова -- а там портянки такой длины, что лучше сразу заминусовать полсписка. Даже несмотря на то, что уже стараются покупать запросы из базы заминусованные. Или - запросы из метрики выгружать, там тоже нужно обрезать многие...
В общем, как идеи на подумать, как улучшить группировку слов.

Тоже вариант, несложно добавить.

q_metainfo:

PS А кстати, о прощупывании спроса. Почему сразу "продавать десктопную версию за 30 баксов"? Этак её купят только те, кто много и часто начинает новые РК. А если кому-то нужно запустить разок и всё?
Спросите и в таком ключе: будет ли пользоваться спросом вариант, когда такой же алгоритм будет прикручен на веб-сайт. "Доступ на сутки, не более 10 запусков -- цена вопроса 500 рублей. Логин/пароль в СМС и на почту". Вот вам и ещё потенциально целевая аудитория. Как вариант на подумать, тут и свои минусы будут ("вдруг они как spywords собирают себе мои запросы и продают", параноиков хватает, кто захочет купить десктоп версию и полностью владеть своими данными)

Я не силён в веб-программировании, в его возможностях и ограничениях. А с прикладным софтом всё гораздо проще, довольно малыми силами можно сделать довольно мощные вещи. Работает быстрее, и полная конфиденциальность данных)

Кстати, как помнится, именно вы весьма осторожно подходите к вопросу доверия веб-сервисам своих данных :)

---------- Добавлено 16.11.2014 в 19:26 ----------

---------------------------------------------------------------------------------------

Спасибо q_metainfo и Перец - после первого поста я призадумался, а после второго в голове все сложилось в систему.

---------------------------------------------------------------------------------------

Перец:

Как решить эти проблемы:

1. Указывать слова, которые не надо учитывать при сортировке (купить, москва, при, ли)

Сейчас с программой идет список стоп-слов, которые выкидываются на этапе заполнения базы. Это как раз всякие при, ли, в, под, свой, ей и т.д.

Как описал постом выше, будет сделана работа со списками, каждый сможет создать свой список слов для игнорирования

Перец:

2. Добавить третий уровень вложенности "настройка принтера hp 111" -> принтер-hp111-настройка

Нужно, да.

Перец:

3. Указывать слова, которые не должны быть во втором или первом уровне.
Сейчас для фраз:
- самсунг с5 белый
- айфон 6 белый
- нокиа белый
будет создана группа или подгруппы "белый" вместо сортировки по бренду или модели.

Думаю сделать редактор со списками слов, где можно их для списка настраивать уровень показа.

- Все уровни

- Уровень 1

- Уровень 2

- Нигде

В вашем примере "белый" пошел бы в список с показом "Уровень 2".

Перец:

Ну и в идеале было бы по клику на фразе получить выпадающий список, в котором можно поменять слово, по которому создается подгруппа.

Ну т.е. для конкретной фразы из выпадающего списка просто вручную выставить группу или подгруппу? Такое можно сделать.

Jake Foley
На сайте с 16.08.2008
Offline
151
#14

+1 за коммерческую версию

Демо увы заценить не удалось :(

MA
На сайте с 24.02.2014
Offline
50
m_a
#15

Начал пользоваться утилитой и сразу стало жутко неудобно. Внес изменения, главная цель - минимум телодвижений.

1. Оцивилизованный интерфейс

Теперь он лучше, чем страшнющий был. Порядок действий тот же:

2. Мультипроектность

Теперь можно работать с разными базами. Надоело ковыряться в одной текущей

3. Фильтрация данных

Для всех столбцов, с разными условиями

4. Изменение группы/подгруппы из выпадающего списка

Клик в любом из двух столбцов, выбор из дроплиста

5. Изменение группы/подгруппы в два клика

Правой клавишей мыши на нужном слове и выбор чем оно будет

6. Массовое изменение группы подгруппы

Самый главный ускоритель работы: фильтр -> выделение всех одним кликом -> смена группы всем одним кликом

Всё, в Эксель уже не вернусь даже пятьдесят фраз сгруппировать.

Внедрение искусственного интеллекта списков в следующий заход.

Взять обновлённую версию можно по той же ссылке: СКАЧАТЬ

Программа идет с тестовыми данными (7000 фраз), сразу можно поиграться.

Для себя просто создайте новый проект. Программа запоминает последний проект, запускается с ним.

Jake Foley
На сайте с 16.08.2008
Offline
151
#16

Проблема с кодировкой в программе к примеру знаки é è она не понимает (у меня французские ключ слова)

MA
На сайте с 24.02.2014
Offline
50
m_a
#17
Jake Foley:
Проблема с кодировкой в программе к примеру знаки é è она не понимает (у меня французские ключ слова)

Есть такое дело. Если честно не приходило в голову, что когда-нибудь может понадобиться Юникод. Посмотрим по трудозатратам, во что может вылиться переход.

Если вам не сложно, не могли бы вы сбросить в личку небольшой список ваших ключей для теста?

---------- Добавлено 22.11.2014 в 19:44 ----------

Jake Foley, я поковырял MyStem - он и с английским не дружит, слова не нормализует. Это исключительно русскоязычный инструмент, поэтому пока дружба с другими языками не предвидется.

[Удален]
#18

кто нить сервисом кейса пользуется? по факу вроде всё удобно у них, слова группируют, объявы делают.

E
На сайте с 17.10.2014
Offline
1
#19

ТС как приобрести?

MA
На сайте с 24.02.2014
Offline
50
m_a
#20
Вадим28:
по факу вроде всё удобно у них, слова группируют

Ранее в темах про группировку уже почему-то фигурировали упоминания Кейсы. И не пойму каким боком.

Про группировку нет упоминания в FAQ Кейсы. В интерфейсе увидел группировку в таком виде: нужно вручную создать "белый" список, потом вручную галочками отметить нужные фразы и после этого перекинуть их в созданный список. И так по кругу, пока не будут сгруппированы все фразы.

Ну т.е. полная ручная работа. Также поскольку списки не могут быть вложенными, то группировка получается одноуровневая.

Фильтрации нет, сортировки нет - работа с данными реализована на совсем начальном уровне.

Не хочу чтоб меня заподозрили в однобокости оценки; возможно у Кейсы есть другие положительные моменты, но группировка точно не ее конек.

---------- Добавлено 24.11.2014 в 16:56 ----------

extootoo:
ТС как приобрести?

Коммерческой версии пока нет. С вами пока только около 8 голосов за коммерциализацию программы - не айс, никому особо не нужно, видимо.

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий