Shlackbaum

Shlackbaum
Рейтинг
322
Регистрация
18.08.2010
pimandr:
То есть вы подобрали дибильные запросы, на которые нет ответов на вашем сайте, а виноват в этом кластеризатор. Прелестно.

Нет, например в текущем примере сайта еще нет или он не взят в продвижение.

Как раз для исключения сложных для продвижения запросов (при прочих равных) по параметру подкатегории - в момент получения данных и решается - рентабельно ли продвигать этот запрос в ПС или нет.

YaanGle:
Объясните, с чего вдруг точность должна возрасти?

За счет исключения непродвигаемых в подкатегории запросов

YaanGle:

Вы хотите кластеризовать семантику, или определить релевантность [запрос:категория сайтов]?

Второе я и сам сделаю. Первое только кластеризаторы могут.

pimandr:
Я с вами абсолютно согласен. Главное подгруппа. Контент вообще не при чем.
Удачи в размышлениях.

Почему вы вдруг решили, что я подгруппе даю большую важность в кластеризации, чем контент мне неведомо =)) Нигде я такого не говорил 🍿

IBakalov, у меня нет карманного кластеризатора :(

Я бы хотел, чтобы это внедрили рыночные игроки.

---------- Добавлено 19.06.2015 в 17:14 ----------

YaanGle:
Вы почему-то решили, что в данной задаче тип сайтов значимый фактор, отбросив другие.

Ни в коем случае не отбрасываю, конечно они играют свою роль, причем скорее всего гораздо бОльшую, чем подкатегоризация. Я говорю об увеличении точности. Вопрос в том, насколько точность с дополнительным фильтром будет эффективней, чем без оного.

YaanGle:
На мой взгляд, изначально семантику можно кластеризовать, а затем дополнительно присвоить запросам коэффициенты релевантности, на основе групп.

Либо я с вами не согласен, либо я неправильно изложил свою мысль, т.к. такой подход проблему не решит. Разве что коэффициенты смогут быть отрицательными :)

---------- Добавлено 19.06.2015 в 17:18 ----------

pimandr:
Не буду. Это вопрос здравого смысла. Так же как в реале на магазине по продаже молока не делают высеску "аренда автомобилей". Яндекс-то тут при чем?
Гротескность как раз у вас: вы заведомо подбираете запросы, которые не подходят к содержанию вашего сайта. И после этого говорите, что яндекс оказывается не хочет такие сайты ранжировать потому что они, видите ли, не той категории.

И вообще, это уже относится к вопросу подбора запросов под проект. А тут уж ни яндекс, ни категории не при чем.

Вы отчасти правы - в этом и смысл гротескности.

Я взял пограничный гротескный пример, чтобы показать, что для разных подгрупп есть разные запросы, которые могут выйти/не выйти в топ в зависимости именно от их подгруппы. И таким образом эти запросы в кластеризации для подгруппы должны бы отсутствовать.

Например возьмем те же цены. Они могут быть на любительском проекте. Сравнение цен у разных дилеров на конкретном фан-сайте. Это вполне вероятный сценарий.

Но проблема у него будет в том, что если по запросу с ценами в матрикснете заложены конкретные квоты и в эту квоту проекты с подкатегорией Любительские не входят вообще - то проект не сможет именно из-за алгоритма матрикснета выйти в топ, хоть ты тресни, если только он не откорректирует свою семантику и подкатегорию и не станет внезапно агрегатором или дилером с последующим переназначением подкатегории в Яндексе.

pimandr, Вот у вас есть какой-то запрос, по которому вы хотите быть в топе, вы по нему анализируете топ и понимаете, что нету сайтов вашей подкатегории в топе. И что вы при этом будете пытаться туда залезть? Вы любительским сайтом будете пытаться попасть по запросу "%товар% купить цена в москве"? при том что у вас ни купить ни посмотреть цен спецификой проекта нельзя?

Это я крайний пример привожу, чтобы показать гротескность вашего предположения.

YaanGle:
Shlackbaum
Почему Вы вообще решили, что для кластеризации запросов имеет значение определение типа сайтов?

Даже не знаю как ответить на такой вопрос:))

А как можно так не решить?

pimandr:

В конкретном обсуждаемом случае это как? На сайте нет релевантного контента потому что он не в топе? А как только сайт зайдет в топ, так на нем сразу необходимый контент появится?

Нет. В обсуждаемом случае это так - я делаю проект и собираю ядро. Анализируя выдачу понимаю, что по запросу цен мне не пробраться. По этому ни проектирование содержимого, ни контента, ни ссылочной массы я не делаю, т.к. какой смысл тягаться с матрикснетом по тем запросам, по которым он считает любительские сайты не выводимыми.

pimandr:
По поводу консервации выдачи. Зачем брать самые сложные случаи? Доля законсервированных топов ничтожно мала, если рассматривать все множество поисковых запросов. Почему бы сначала не разобраться не "некосервированными" топами? Их больше, их легче исследовать, по ним проще делать статистику. А уж после того, как с обычными топами все станет понятно - вернуться к этим консервам.

Ну так исследуйте... Или оставайтесь при своем и не подвергайте сомнению свои предположения. Выбор за каждым свой, плохого или хорошего в этом смысле нет.

pimandr:
Про "ИИ природу" матрикснета пропущу, слишком смешно.

Что тут забавного? Это напрямую связано с консервацией выдачи.

pimandr:
С концовкой вашего поста соглашусь: идеальный сферический кластеризатор будет сделан за бесконечность времени.

Речь не про идеальный сферический кластеризатор, а про время, требуемое для достижения статистически достоверных результатов при условии, консервации выдачи. Т.к. этот аспект в нашем исследовании (не кластеризации, а определения важности "ценовых" запросов для любительских проектов) является ключевым. Да, для определения более высокого уровня чистоты кластеризатора.

---------- Добавлено 19.06.2015 в 15:50 ----------

YaanGle:
Shlackbaum
  • Сначала ранжируем домены по их видимости для исходной семантики.
  • Затем, топ-N доменов (N-зависит от объема семантики) надо классифицировать вручную (оф. дилер, агрегатор, любительский сайт и т.д.).
  • Дальнейшую кластеризацию семантики проводить учитывая только домены из определенной группы, например оф. дилеров, либо назначив документам из этой группы повышающий коэффициент.

Дополнительно можно учитывать видимость группы по запросу (для Вашего примера с [форд фокус цена] группа "любительские сайты" получит низкий коэффициент) и отсеять неподходящие запросы.

Собственно этот вариант я и предложил

YaanGle:
Проблема, я думаю, будет в другом - бОльшая часть семантики - это НЧ запросы. Для них значение типа сайта практически не будет играть роли - будут рулить классические текстовые факторы.

Смотря как собирать запросы. Если через WS - то нет. Если через Пастухова или MOAB или даже конкурентный анализ - то да.

pimandr, мы здесь можем оценить причинно-следственную связь, если она имеется, только в случае тестирования. В противном случае как один так и другой фактор может являться как причиной так и следствием.

А если учтем ИИ природу матрикснета и аспект консервации выдачи, то получим ситуацию, при которых даже грязные результаты мы получим только на промежутке времени стремящемся к бесконечности.

pimandr, речь скорее о том, что по запросу "форд фокус цена" любительских сайтов как раз и нет в топ-10. Это означает, что запрос "форд фокус цена" должен отсутствовать на любительском проекте или быть в другом формате, чем скажем у дилера или у агрегатора (и я не про дизайнерское оформление страницы, а именно про семантику)... Вплоть до реального отсутствия освещения этой темы на проекте.

Вышенаписанное мною в этом посте грубо и неверно, но вектор мысли я надеюсь показал...

pimandr, проблема вот в чем:

Анализ топ-10 для запроса "форд фокус". Регион 213

ford.ru - квота представительства (подкатегория 1)

ford.drom.ru - квота агрегатора (подкатегория 2)

fordcenter.ru - квота дилера (подкатегория 3)

quto.ru - квота агрегатора (подкатегория 2)

Major-Ford.ru - квота дилера (подкатегория 3)

ffclub.ru - квота любительского или псевдолюбительского коммерческого проекта (подкатегория 4)

carsguru.net - квота агрегатора (подкатегория 2)

moscow.drom.ru - квота агрегатора (подкатегория 2)

focus3.ru - квота любительского проекта (подкатегория 4)

focus-club.ru - квота любительского проекта (подкатегория 4)

И это притом, что подкатегории можно на самом деле мальца подкорректировать и их будет больше, не говоря уже о том, что это только анализ топ-10 и только для одного запроса из тысяч.

Итого у нас получается:

Квота представительств = 1 место в топ-10

Квота дилеров = 2 места в топ-10

Квота агрегаторов = 4 места в топ-10

Квота любительских проектов = 3 места в топ-10

Таким образом - у каждой подкатегории свой тематико-семантический слепок. Для агрегатора и для любительского проекта он разный.

Предположим я решил создать новый любительский проект - тогда мне нужны данные слепка по любительским проектам. Мне не надо, чтобы туда подмешивались дилеры, агрегаторы, представительства или быстроробот/спектральная примесь.

А кластеризаторы все это мешают в одну кучу. Или это не так? Выскажите свое мнение.

Всего: 4266