Зачем брать самые сложные случаи? - Яндекс

Проблема кластеризации при квотировании выдачи.

Shlackbaum · 2015-06-18T09:01:47.0000000Z

Сервисы типа группировки семантического ядра на основании кластеризации поисковых систем (кластеризация семантического ядра) предполагают, что на основании выдачи делаются какие-то сложные вычисления, которые определяют то, какие ключи должны продвигаться на одной странице, т.к. потенциал эффективности такого продвижения во взаимодействии выше. Делается это повторюсь на анализе выдачи. Внимание вопрос: Даже если предположить, что обходятся спектральные примеси по XML и не учитываются по запросу. Как быть с другим типом квотирования выдачи, который не является выделяемым через XML? Например когда по запросу выдается 3 сайта любительских, 3 коммерческих, 3 коммерческих агрегатора и еще 1 орк. Из них причем ни один не находится в спектральной приписке по XML. Исходя из логики - для каждой из этих 3(4) групп, свой тематико-семантический слепок, который касается конкретно узкой тематики не проявляемый по XML параметрам. Как в этом случае можно что-то исследовать и предлагать? Вопрос не теоретический, а вполне практический. Думал задать вопрос в топике для одного из кластеризаторов, но думаю пока пусть тут посидит... Вообще в заголовке думал засунуть еще логические расстояния (привет T), но чтобы холивар не поднимать - обозначусь только тем, что сейчас находится в явном паблике и более-менее успешно работает.

[Удален]

19 июня 2015, 12:31

#21

sni:
Хотя, например, по ядру 3000 запросов в нормальной тематике

данные что-то явно не те 3000 запроса и у лучшего сайта видимость менее 15%

или я не правильно понял что в таблице

P

103

pimandr

19 июня 2015, 12:40

#22

Ну вот опять, я вам конкретику, а вы в абстракции уходите.

Shlackbaum:
как один так и другой фактор может являться как причиной так и следствием.

В конкретном обсуждаемом случае это как? На сайте нет релевантного контента потому что он не в топе? А как только сайт зайдет в топ, так на нем сразу необходимый контент появится?

По поводу консервации выдачи. Зачем брать самые сложные случаи? Доля законсервированных топов ничтожно мала, если рассматривать все множество поисковых запросов. Почему бы сначала не разобраться не "некосервированными" топами? Их больше, их легче исследовать, по ним проще делать статистику. А уж после того, как с обычными топами все станет понятно - вернуться к этим консервам.

Про "ИИ природу" матрикснета пропущу, слишком смешно.

С концовкой вашего поста соглашусь: идеальный сферический кластеризатор будет сделан за бесконечность времени.

И это еще одна причина, почему он нафиг не нужен.

coolakov.ru/tools (http://coolakov.ru/tools/): определение конкурентов (http://coolakov.ru/tools/most_promoted/), кластеризация запросов (http://coolakov.ru/tools/razbivka/) и т.д.

Сложный запрос, помогите разобраться. Отсутствие в выдаче одного Добрый день. Сайт не

155

YaanGle

19 июня 2015, 12:40

#23

Shlackbaum:

Таким образом - у каждой подкатегории свой тематико-семантический слепок. Для агрегатора и для любительского проекта он разный.
Предположим я решил создать новый любительский проект - тогда мне нужны данные слепка по любительским проектам. Мне не надо, чтобы туда подмешивались дилеры, агрегаторы, представительства или быстроробот/спектральная примесь.

Shlackbaum

Сначала ранжируем домены по их видимости для исходной семантики.
Затем, топ-N доменов (N-зависит от объема семантики) надо классифицировать вручную (оф. дилер, агрегатор, любительский сайт и т.д.).
Дальнейшую кластеризацию семантики проводить учитывая только домены из определенной группы, например оф. дилеров, либо назначив документам из этой группы повышающий коэффициент.

Дополнительно можно учитывать видимость группы по запросу (для Вашего примера с [форд фокус цена] группа "любительские сайты" получит низкий коэффициент) и отсеять неподходящие запросы.

Проблема, я думаю, будет в другом - бОльшая часть семантики - это НЧ запросы. Для них значение типа сайта практически не будет играть роли - будут рулить классические текстовые факторы. Следовательно, сужение выборки только до определенной группы сайтов даст кривые результаты. Ну или:

burunduk:
это работало на больших ся, к сожалению сейчас практически не работает
если раньше группировалось более 80% запросов, то сейчас меньше 30%

1

Анализ текствов конкурентов MegaIndex.com - Подбор и Сайты под SEO, дорого

322

Shlackbaum

19 июня 2015, 12:48

#24

pimandr:

В конкретном обсуждаемом случае это как? На сайте нет релевантного контента потому что он не в топе? А как только сайт зайдет в топ, так на нем сразу необходимый контент появится?

Нет. В обсуждаемом случае это так - я делаю проект и собираю ядро. Анализируя выдачу понимаю, что по запросу цен мне не пробраться. По этому ни проектирование содержимого, ни контента, ни ссылочной массы я не делаю, т.к. какой смысл тягаться с матрикснетом по тем запросам, по которым он считает любительские сайты не выводимыми.

pimandr:
По поводу консервации выдачи. Зачем брать самые сложные случаи? Доля законсервированных топов ничтожно мала, если рассматривать все множество поисковых запросов. Почему бы сначала не разобраться не "некосервированными" топами? Их больше, их легче исследовать, по ним проще делать статистику. А уж после того, как с обычными топами все станет понятно - вернуться к этим консервам.

Ну так исследуйте... Или оставайтесь при своем и не подвергайте сомнению свои предположения. Выбор за каждым свой, плохого или хорошего в этом смысле нет.

pimandr:
Про "ИИ природу" матрикснета пропущу, слишком смешно.

Что тут забавного? Это напрямую связано с консервацией выдачи.

pimandr:
С концовкой вашего поста соглашусь: идеальный сферический кластеризатор будет сделан за бесконечность времени.

Речь не про идеальный сферический кластеризатор, а про время, требуемое для достижения статистически достоверных результатов при условии, консервации выдачи. Т.к. этот аспект в нашем исследовании (не кластеризации, а определения важности "ценовых" запросов для любительских проектов) является ключевым. Да, для определения более высокого уровня чистоты кластеризатора.

---------- Добавлено 19.06.2015 в 15:50 ----------

YaanGle:
Shlackbaum

Сначала ранжируем домены по их видимости для исходной семантики.
Затем, топ-N доменов (N-зависит от объема семантики) надо классифицировать вручную (оф. дилер, агрегатор, любительский сайт и т.д.).
Дальнейшую кластеризацию семантики проводить учитывая только домены из определенной группы, например оф. дилеров, либо назначив документам из этой группы повышающий коэффициент.

Дополнительно можно учитывать видимость группы по запросу (для Вашего примера с [форд фокус цена] группа "любительские сайты" получит низкий коэффициент) и отсеять неподходящие запросы.

Собственно этот вариант я и предложил

YaanGle:
Проблема, я думаю, будет в другом - бОльшая часть семантики - это НЧ запросы. Для них значение типа сайта практически не будет играть роли - будут рулить классические текстовые факторы.

Смотря как собирать запросы. Если через WS - то нет. Если через Пастухова или MOAB или даже конкурентный анализ - то да.

Пустота. Какого черта здесь появляется чья-то реклама?

Вопрос по текстовой оптимизации Статистическое ранжирование, аспект проблемы влияет ли на позицию

155

YaanGle

19 июня 2015, 12:59

#25

Shlackbaum

Почему Вы вообще решили, что для кластеризации запросов имеет значение определение типа сайтов?

Смотря как собирать запросы. Если через WS - то нет.

Видимо, мы разные WS используем :o

322

Shlackbaum

19 июня 2015, 13:01

#26

YaanGle:
Shlackbaum
Почему Вы вообще решили, что для кластеризации запросов имеет значение определение типа сайтов?

Даже не знаю как ответить на такой вопрос:))

А как можно так не решить?

P

103

pimandr

19 июня 2015, 13:04

#27

Shlackbaum:
Анализируя выдачу понимаю, что по запросу цен мне не пробраться.

Если не размещать цен, как и остальные любительские сайты - конечно не пробраться. Тут и анализировать не надо) И категории тут не при чем.

Shlackbaum:
нашем исследовании ... определения важности "ценовых" запросов для любительских проектов

Может с другого начать: посчитать, на скольких любительских проектах есть ответы на "ценовые" запросы?

Shlackbaum:
А как можно так не решить?

Легко. Сделали же так уже 5-10 кластеризаторов. И ничего, получают вполне приемлемые результаты. Некоторые на этом даже какие-то деньги зарабатывают. И дополнительные сущности для улучшения кластеризации они придумывают после, а не до.

Статьи на VIP площадке А как вы оцениваете какой смысл собирать Всю

322

Shlackbaum

19 июня 2015, 13:10

#28

pimandr, Вот у вас есть какой-то запрос, по которому вы хотите быть в топе, вы по нему анализируете топ и понимаете, что нету сайтов вашей подкатегории в топе. И что вы при этом будете пытаться туда залезть? Вы любительским сайтом будете пытаться попасть по запросу "%товар% купить цена в москве"? при том что у вас ни купить ни посмотреть цен спецификой проекта нельзя?

Это я крайний пример привожу, чтобы показать гротескность вашего предположения.

Структура сайта и перелинковка Сколько купить ссылок? Хостеры, а на такие

P

103

pimandr

19 июня 2015, 13:21

#29

Shlackbaum:
Вы любительским сайтом будете пытаться попасть по запросу "%товар% купить цена в москве"? при том что у вас ни купить ни посмотреть цен спецификой проекта нельзя?

Не буду. Это вопрос здравого смысла. Так же как в реале на магазине по продаже молока не делают высеску "аренда автомобилей". Яндекс-то тут при чем?

Гротескность как раз у вас: вы заведомо подбираете запросы, которые не подходят к содержанию вашего сайта. И после этого говорите, что яндекс оказывается не хочет такие сайты ранжировать потому что они, видите ли, не той категории.

И вообще, это уже относится к вопросу подбора запросов под проект. А тут уж ни яндекс, ни категории не при чем.

Тематический поисковик на базе Xtool.ru Сервис проверки "траста" Как использовать canonical?

155

YaanGle

19 июня 2015, 13:33

#30

Shlackbaum:
Даже не знаю как ответить на такой вопрос:))
А как можно так не решить?

Вы почему-то решили, что в данной задаче тип сайтов значимый фактор, отбросив другие.

Допустим [запрос 1], [запрос 2] ... [запрос n] отлично собираются в группу. Тут большее значение играют запросные факторы - мы ищем связь между запросами (хорошо собрались в группу - сильная , нет - слабая), а Вы хотите добавить условие - но это уже другая задача.

Для кластеризации более важными могут быть другие факторы (семантическая близость запросов), чем группы сайтов.

При этом, добавление группировки сайтов непосредственно в кластеризатор может ухудшить конечный результат.

На мой взгляд, изначально семантику можно кластеризовать, а затем дополнительно присвоить запросам коэффициенты релевантности, на основе групп.

Сайту 1.5 года трафик Текст объявления и продуктивность Семантическое чудо-ядро. Недорого и

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Что делать, чтобы попасть в ответы Google Bard

Проблема кластеризации при квотировании выдачи.