wallsis

wallsis
Рейтинг
35
Регистрация
21.02.2012

Решение найдено. Спасибо всем приславшим свои СЯ!

Просьба к модераторам закрыть тему.

ackord:
Основная задача: 1 проблема пользователя = 1 посадочная страница.

При этом, запросов может быть любое количество, хоть 100 хоть 400.

В вашем случае, нужно добавлять доп. интенты в рамках одной группы, (город, бренд, характеристики).

В итоге получаем:

Шаг 1
смартфон + интент город:

купить смартфон в самаре
купить смартфон в питере
купить смартфон в москве

смартфон + интент бренд:

купить смартфон samsung
купить смартфон lte
купить смартфон asus

смартфон + интент характеристики
купить смартфон дешево
купить смартфон недорого


Шаг 2
Смотрим совпадения (не забывая про синонимы) и разносим по группам.

Благодарю вас. Используя кластеризацию данную задачу решить не возможно. Требуются онтологии.

Попробуем использовать выборку из серпа, классифицировать ключевые слова по ней и после кластеризовать. https://www.dropbox.com/s/eso0m6ivpor1opu/serp.xlsx?dl=0

ackord:
пример не полный, потому как долго и лень его полностью класстеризовать. в третьей вкладке. https://yadi.sk/d/thDenJpgcrENs

Все зависит от поставленной задачи.

В задаче графа кластеризация сводится к поиску связанных компонент. Что вполне достаточно для СЧ и НЧ запросов. Помните, что руками в любом случае вам нужно будет работать.

Вы могли бы поставить задачу, по которому вы начали создавать группы?

---------- Добавлено 21.11.2014 в 19:04 ----------

Кто то еще может правильно поставить задачу? Что вы хотите получить?

Просто, и без основательно отрицать, не давая пояснений, не засчитывается)

---------- Добавлено 21.11.2014 в 19:06 ----------

SmileP:
у них получился удобный функционал в плане минус слов.
Неподходит слово- нажимаем галочку и все запросы, содержащие слова маркируются.

Есть выбор групп- тот же дешевый смартфон галакси может быть отнесен к группе галакси и\или дешевых. А мы уж сами выбираем какую группу будем делать:)

Я с вами полностью согласен! Кей коллектор — отличный инструмент, и данная функция там реализована достойно. Но речь в начале все же шла о классификации, толкового автоматического решения ни кто так и не предложил «чтобы это было доступно для большинства пользователей в виде определенного показателя».

sanch:
смартфон - это не интент, и даже не маркер

смартфон asus
смартфон huawei

Разные потребности, разные желания, разные группы запросов, а у вас все совсем не так

Смартфон — это интент первой группы, и основной всего СЯ

)

---------- Добавлено 21.11.2014 в 15:16 ----------

IBakalov:
Пожалуй поддержу sanch, с разбивкой смартфонов действительно ересь получилась.

А как должно быть? Приведите полный пример.

sanch:
На вашем примере:

Запросы из первой группы:

смартфон флай
смартфон asus
смартфон huawei
смартфон билайн смарт за 490 рублей отзывы
смартфон асус
новинки смартфонов

Это не могут быть запросы одной группы для ВАШЕГО списка и прорабатывать их в рамках ограниченной группы просто нет смысла

Мы не говорим что это одна группа.

Данная группа обозначена маркерами интента.

sanch:
В чем мы путаем людей?

полная автоматизация — чего?

отсутствие ошибок при кластеризации запросов — без ошибок не бывает, тк анализируется серп...

уникальный алгоритм при минимальной цене на рынке — от 2003 года как он может быть уникальным?

быстрая обработка — на сколько быстрая?...

тут много вопросов для громких заявлений)

---------- Добавлено 21.11.2014 в 00:20 ----------

sanch:
Присылайте свою заявку (например список из вашего примера), мы ее обработаем и будем рады обратной связи от вас

Я уже обработал ваш пример в соседней ветке, тк не имею своего, я бедный студент. Результаты по ресурсоёмкости намного экономичней, точней, и идеологически вернее.

Если бы следовали своим интересам, то получили бы хороший результат. Жить чужими идеями плохо для кармы, хоть и академично)

Сколько ... всего ... тут у вас написано. Зачем вы путаете людей?

К слову сказать, подобный метод был озвучен в далеком 2003 году китайскими статистиками. В рунете первым был бурундук.

Но решение так и не найдено. Данный метод может быть решен в бигдате на апаче Hadoop. Поднимайте!

sanch:
Ок, а по какому принципу разбирать 90 запросов, если мы знаем что их еще есть 1710, даже разбитые на группы?

Переформулируйте. Не понял вашего вопроса, но попробую ответить. Прорабатывать группы необходимо в рамках ваших компетенций и маркетинговых задач.

sanch:
wallsis, посмотрел ваш пример, он реально экстремальный.

Например мы имеем группу №1, состоящую из 90 запросов, что по вашему мы с ней должны делать, или вы утверждаете, что все эти 90 запросов можно продвигать на 1 страницу?

в любом случае, требуется прорабатывать полученные результаты. Чудес не бывает.)

Как продвигать, знает только создатель)

Удобней ведь разобрать 90 запросов, а не 1800?

Не ленитесь.

Мы попытались внести ясность в вопрос кластеризации. Будем говорить проще. В течении полугода мы синтезировали разные методы для разбиения семантического ядра на группы, для того чтобы в группах ключевые слова были связанны маркерами интента, ибо по смыслу не получится в принципе.

При классификации ключей по серпу, часто так случается, что связанные ключевые слова размазываются на несколько групп. Это большой минус. Так же проблемным местом является производственные мощности, которые выражаются в стоимости и необходимым временем на классификацию.

Подобный инструмент, предлагаемый нами, есть в составе программы Кей коллектор — «По составу фраз». Мы так же работаем с составом фразы, но при этом используем кластерный анализ. И как мы говорили выше «В силу того, что задача классификации семантических ядер по серпу весьма неоднозначная» ребята из кей коллектора, наверняка раньше многих начали заниматься решением вопроса… Вобщем о результатах мы судить не можем. Просто предлагаем альтернативу для решения вопроса.

Нам не требуется парсить серп. Оптимизированы производственные мощности — для кластеризации 10 000 фраз требуется не более 1 минуты. Без размазывания ключей по группам. Что при кластеризации, что при классификации вебмастеру, в любом случае, требуется прорабатывать полученные результаты. Чудес не бывает.)

---------- Добавлено 20.11.2014 в 20:01 ----------

Было бы здорово, если бы вы присылали ваши ядра на группировку. Тогда можно что то обсуждать. Приведенный нами пример по сути своей экстремальный тк содержит много товарных запросов.

Если в этой ветке появятся уважаемые эксперты для обсуждения, мы с удовольствием поделимся основополагающей технологией, тк кластерный анализ не панацея.

По нашему глубокому убеждению, подобный инструмент должен быть бесплатным.

Всего: 143