КК и КА: методика кластеризации

233

14 мая 2017, 14:12

1986

Судя по вопросам не один я опечален работой кластеризаторов КейАссорт и КейКоллектор.

Может обсудим и предложим авторам решение обработки больших СЯ, а то время теряется уж совсем огромное, что печально.

Как мне видится, проблема программ в том, что они совсем без интеллекта и работают, по сути, в один слой. Который дальше обрабатывать становится трудно. В идеале, если взять выгрузку, например, с КК с галками на каждое слово и топ 10 у нас получается нечто вот такое:

Уж простите, не нашёл кнопку спойлера и таблицы, так что будет образно:

слово 1 url1

слово 1 url2

слово 1 url3

...

слово 2 url1

слово 2 url8

слово 2 url28

...

Т.е., по сути, мы получаем списки слов по полной (10 совпадений), минимальной (1 совпадение) и промежуточной частоте повторения. В КК нельзя поставить основное слово. Как мне кажется, проблему можно решить довольно простым способом:

Выставление главных слов и создание подгрупп внутри их. Допустим, у нас есть "остекление лоджий" и ещё 4 тысячи слов этой и схожей тематик (ремонт, утепление, остекление цена, проч). Задаём основополагающие фразы и собираем всё лавиной в группу с минимальным сопадением, если происходит конфликт (попадает под разные группы), то считаем число совпадений, отдаём фразу туда, где совпадений больше.

И вторым этапом происходит кластеризация групп уже внутри данного кластера, как итог мы получаем либо набор страниц, либо структуру одной страницы, аккуратно под меню. Внутренний кластер может работать так же с основными словами (например, по частоте или выставленный руками), так и на основании повторений в обе стороны. Как вариант в ручную можно указывать, сколько групп должно получиться.

Т.е. у нас из 4000 слов в кластере оказалось 800, сортируем с шагом 1 (2,3,5) по количеству повторений, если есть 10 из 10, то выносим их в отдельную группу, дальше делаем следующий шаг, если собирается новый кластер, то выводим его в ещё одну подгруппу, если слова относятся к уже созданному, то переносим их туда.

Таким образом можно сильно уменьшить ручной труд и кластеризовать СЯ под главную необходимость, структуру меню и охват страницы (группы страниц).

Может у кого ещё есть мысли по этому поводу или самописный скрипт? ) Или есть другие сервисы, которые выполняют задачу лучше?

Forum.Searchengines.ru переезжает в доменную зону .guru. И не только потому, что 75% его постоянных жителей - профессионалы в области SEO, 85% - настоящие эксперты по интернет-маркетингу, и все 100% могут дать консультацию по любому вопросу (с) https://searchengines.guru/ru/forum/839051

155

paveldvlip

15 мая 2017, 12:18

#1

Кластеризацию в TopSite пробовали? Там другой алгоритм. Можете написать мне, я вам дам тестовую версию с улучшенными коэффициентами.

TopSite () - программа определения позиций сайта, массовой проверки всех видов частотности, сбора позиций конкурентов и кластеризации запросов. HTML-отчёты.

274

Дмитрий Удимов

15 мая 2017, 13:59

#2

В качестве альтернативы кластеризации по топам сделали бесплатную кластеризацию по релевантному URL (когда надо кластеризировать по конкретному сайту, например, конкуренту с хорошей структурой) https://topvisor.ru/support/keywords/grouping/

Топвизор — аккредитованный регистратор доменов .ru и .рф (https://topvisor.com/ru/domain-registration/) — честная цена 299 руб. за регистрацию и продление.

LK

233

Я - Сергей

15 мая 2017, 14:26

#3

Ditmar, ну я это в КК сделал. Беда в том, что конкурентов с нормальным охватом на моём примере два и у них несколько по разному размыты кластеры.

Как вариант было бы неплохо делать выборку сайтов, по которым проводить кластеризацию (убирать информационку к чертям, оставляя только коммерцию).

[Удален]

15 мая 2017, 14:54

#4

LawbreaK, не стой стороны вы к вопросу подходите, кластеризация по топу была придумана всего лишь для одной цели - автоматизировать отсев бредо/порно запросов из большого набора данных

да можно пойти чуть дальше и попробовать собрать группы запросов, но как правило там слишком много будет ручной работы, которая предполагает хорошее знание тематики ;)

по таким группам хорошо отслеживать изменения в алгоритмах пс, в частности в текстовом корпусе, но для прямого применения данные группы как правило не пригодны (на существующих сайтах эффект близок к 0)

LK

233

Я - Сергей

15 мая 2017, 20:48

#5

burunduk, да, это понятно ) Но и жизнь облегчить хочется. Для примера в КК я потратил примерно столько же времени на составление групп, как и руками.

Ну а сам вопрос - это именно для нормальной информационной архитектуры нормальных сайтов, ну и информационку от коммерции, возможно, отсеять. Но некоторые вещи, которые бы я не сделал руками, кластеризация по поиску подсказывает. Дальше, если будет трудность, никто не помешает вырезать кластер на другую страницу.

Ну и второй момент, как и сказал Ditmar, можно копировать структуру прямых конкурентов, если она удачна и работает. Но тут будут такие же проблемы, как и выше, если таких сайтов выбрать десяток.

В любом случае есть желание сэкономить время сейчас и в дальнейшем )

559

MyOST

16 мая 2017, 10:30

#6

LawbreaK:
Для примера в КК я потратил примерно столько же времени на составление групп, как и руками.

А что делалось в КК?

Блог (http://seom.info/) | Ты уже SEO профессионал? (http://www.key-collector.ru/) Развиваем семантику более 8 лет! ()

LK

233

Я - Сергей

16 мая 2017, 14:12

#7

Да в общем всё возможное из опционала, при том как по всему СЯ, так и явно группированному (т.е. вместо 4ка ключей - 800, например). Все варианты, все зависимости. Он, в целом, неплохо бьёт по выдаче, но совсем не хватает "вершин". Т.е. групп получается около тысячи, если меньше групп.

Open AI тестирует память для ChatGPT

Что делать, если ваша email-рассылка попала в спам