Проблема кластеризации при квотировании выдачи.

1 234
[Удален]
#21
sni:
Хотя, например, по ядру 3000 запросов в нормальной тематике

данные что-то явно не те 3000 запроса и у лучшего сайта видимость менее 15%

или я не правильно понял что в таблице

P
На сайте с 25.05.2007
Offline
103
#22

Ну вот опять, я вам конкретику, а вы в абстракции уходите.

Shlackbaum:
как один так и другой фактор может являться как причиной так и следствием.

В конкретном обсуждаемом случае это как? На сайте нет релевантного контента потому что он не в топе? А как только сайт зайдет в топ, так на нем сразу необходимый контент появится?

По поводу консервации выдачи. Зачем брать самые сложные случаи? Доля законсервированных топов ничтожно мала, если рассматривать все множество поисковых запросов. Почему бы сначала не разобраться не "некосервированными" топами? Их больше, их легче исследовать, по ним проще делать статистику. А уж после того, как с обычными топами все станет понятно - вернуться к этим консервам.

Про "ИИ природу" матрикснета пропущу, слишком смешно.

С концовкой вашего поста соглашусь: идеальный сферический кластеризатор будет сделан за бесконечность времени.

И это еще одна причина, почему он нафиг не нужен.

coolakov.ru/tools (http://coolakov.ru/tools/): определение конкурентов (http://coolakov.ru/tools/most_promoted/), кластеризация запросов (http://coolakov.ru/tools/razbivka/) и т.д.
YaanGle
На сайте с 06.09.2011
Offline
155
#23
Shlackbaum:

Таким образом - у каждой подкатегории свой тематико-семантический слепок. Для агрегатора и для любительского проекта он разный.
Предположим я решил создать новый любительский проект - тогда мне нужны данные слепка по любительским проектам. Мне не надо, чтобы туда подмешивались дилеры, агрегаторы, представительства или быстроробот/спектральная примесь.

Shlackbaum

  • Сначала ранжируем домены по их видимости для исходной семантики.
  • Затем, топ-N доменов (N-зависит от объема семантики) надо классифицировать вручную (оф. дилер, агрегатор, любительский сайт и т.д.).
  • Дальнейшую кластеризацию семантики проводить учитывая только домены из определенной группы, например оф. дилеров, либо назначив документам из этой группы повышающий коэффициент.

Дополнительно можно учитывать видимость группы по запросу (для Вашего примера с [форд фокус цена] группа "любительские сайты" получит низкий коэффициент) и отсеять неподходящие запросы.

Проблема, я думаю, будет в другом - бОльшая часть семантики - это НЧ запросы. Для них значение типа сайта практически не будет играть роли - будут рулить классические текстовые факторы. Следовательно, сужение выборки только до определенной группы сайтов даст кривые результаты. Ну или:

burunduk:
это работало на больших ся, к сожалению сейчас практически не работает
если раньше группировалось более 80% запросов, то сейчас меньше 30%
Shlackbaum
На сайте с 18.08.2010
Offline
322
#24
pimandr:

В конкретном обсуждаемом случае это как? На сайте нет релевантного контента потому что он не в топе? А как только сайт зайдет в топ, так на нем сразу необходимый контент появится?

Нет. В обсуждаемом случае это так - я делаю проект и собираю ядро. Анализируя выдачу понимаю, что по запросу цен мне не пробраться. По этому ни проектирование содержимого, ни контента, ни ссылочной массы я не делаю, т.к. какой смысл тягаться с матрикснетом по тем запросам, по которым он считает любительские сайты не выводимыми.

pimandr:
По поводу консервации выдачи. Зачем брать самые сложные случаи? Доля законсервированных топов ничтожно мала, если рассматривать все множество поисковых запросов. Почему бы сначала не разобраться не "некосервированными" топами? Их больше, их легче исследовать, по ним проще делать статистику. А уж после того, как с обычными топами все станет понятно - вернуться к этим консервам.

Ну так исследуйте... Или оставайтесь при своем и не подвергайте сомнению свои предположения. Выбор за каждым свой, плохого или хорошего в этом смысле нет.

pimandr:
Про "ИИ природу" матрикснета пропущу, слишком смешно.

Что тут забавного? Это напрямую связано с консервацией выдачи.

pimandr:
С концовкой вашего поста соглашусь: идеальный сферический кластеризатор будет сделан за бесконечность времени.

Речь не про идеальный сферический кластеризатор, а про время, требуемое для достижения статистически достоверных результатов при условии, консервации выдачи. Т.к. этот аспект в нашем исследовании (не кластеризации, а определения важности "ценовых" запросов для любительских проектов) является ключевым. Да, для определения более высокого уровня чистоты кластеризатора.

---------- Добавлено 19.06.2015 в 15:50 ----------

YaanGle:
Shlackbaum
  • Сначала ранжируем домены по их видимости для исходной семантики.
  • Затем, топ-N доменов (N-зависит от объема семантики) надо классифицировать вручную (оф. дилер, агрегатор, любительский сайт и т.д.).
  • Дальнейшую кластеризацию семантики проводить учитывая только домены из определенной группы, например оф. дилеров, либо назначив документам из этой группы повышающий коэффициент.

Дополнительно можно учитывать видимость группы по запросу (для Вашего примера с [форд фокус цена] группа "любительские сайты" получит низкий коэффициент) и отсеять неподходящие запросы.

Собственно этот вариант я и предложил

YaanGle:
Проблема, я думаю, будет в другом - бОльшая часть семантики - это НЧ запросы. Для них значение типа сайта практически не будет играть роли - будут рулить классические текстовые факторы.

Смотря как собирать запросы. Если через WS - то нет. Если через Пастухова или MOAB или даже конкурентный анализ - то да.

Пустота. Какого черта здесь появляется чья-то реклама?
YaanGle
На сайте с 06.09.2011
Offline
155
#25

Shlackbaum

Почему Вы вообще решили, что для кластеризации запросов имеет значение определение типа сайтов?


Смотря как собирать запросы. Если через WS - то нет.

Видимо, мы разные WS используем :o

Shlackbaum
На сайте с 18.08.2010
Offline
322
#26
YaanGle:
Shlackbaum
Почему Вы вообще решили, что для кластеризации запросов имеет значение определение типа сайтов?

Даже не знаю как ответить на такой вопрос:))

А как можно так не решить?

P
На сайте с 25.05.2007
Offline
103
#27
Shlackbaum:
Анализируя выдачу понимаю, что по запросу цен мне не пробраться.

Если не размещать цен, как и остальные любительские сайты - конечно не пробраться. Тут и анализировать не надо) И категории тут не при чем.

Shlackbaum:
нашем исследовании ... определения важности "ценовых" запросов для любительских проектов

Может с другого начать: посчитать, на скольких любительских проектах есть ответы на "ценовые" запросы?

Shlackbaum:
А как можно так не решить?

Легко. Сделали же так уже 5-10 кластеризаторов. И ничего, получают вполне приемлемые результаты. Некоторые на этом даже какие-то деньги зарабатывают. И дополнительные сущности для улучшения кластеризации они придумывают после, а не до.

Shlackbaum
На сайте с 18.08.2010
Offline
322
#28

pimandr, Вот у вас есть какой-то запрос, по которому вы хотите быть в топе, вы по нему анализируете топ и понимаете, что нету сайтов вашей подкатегории в топе. И что вы при этом будете пытаться туда залезть? Вы любительским сайтом будете пытаться попасть по запросу "%товар% купить цена в москве"? при том что у вас ни купить ни посмотреть цен спецификой проекта нельзя?

Это я крайний пример привожу, чтобы показать гротескность вашего предположения.

P
На сайте с 25.05.2007
Offline
103
#29
Shlackbaum:
Вы любительским сайтом будете пытаться попасть по запросу "%товар% купить цена в москве"? при том что у вас ни купить ни посмотреть цен спецификой проекта нельзя?

Не буду. Это вопрос здравого смысла. Так же как в реале на магазине по продаже молока не делают высеску "аренда автомобилей". Яндекс-то тут при чем?

Гротескность как раз у вас: вы заведомо подбираете запросы, которые не подходят к содержанию вашего сайта. И после этого говорите, что яндекс оказывается не хочет такие сайты ранжировать потому что они, видите ли, не той категории.

И вообще, это уже относится к вопросу подбора запросов под проект. А тут уж ни яндекс, ни категории не при чем.

YaanGle
На сайте с 06.09.2011
Offline
155
#30
Shlackbaum:
Даже не знаю как ответить на такой вопрос:))
А как можно так не решить?

Вы почему-то решили, что в данной задаче тип сайтов значимый фактор, отбросив другие.

Допустим [запрос 1], [запрос 2] ... [запрос n] отлично собираются в группу. Тут большее значение играют запросные факторы - мы ищем связь между запросами (хорошо собрались в группу - сильная , нет - слабая), а Вы хотите добавить условие - но это уже другая задача.

Для кластеризации более важными могут быть другие факторы (семантическая близость запросов), чем группы сайтов.

При этом, добавление группировки сайтов непосредственно в кластеризатор может ухудшить конечный результат.

На мой взгляд, изначально семантику можно кластеризовать, а затем дополнительно присвоить запросам коэффициенты релевантности, на основе групп.

1 234

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий