Проблема кластеризации при квотировании выдачи.

123 4
Shlackbaum
На сайте с 18.08.2010
Offline
322
#11
IBakalov:

Ну как вариант, дополнительно парсить еще URL из топа, на предмет того, к какой группе они относятся, но имхо это слишком геморрно :)

Именно такой вариант и является на данный момент решением, но реально геморно. Обучающую выборку не создашь, поэтому надо вручную собрать выборку по N-запросам (малая часть пула) с присвоенными каждому проекту подкатегориями, после чего прогнать весь пул запросов и неопределенным по подкатегориям проектам вручную присвоить ту или иную подкатегорию...

Но реально ж геморно. По крайней мере для потокового производства

---------- Добавлено 19.06.2015 в 12:08 ----------

IBakalov:
Так так так... Об чём речь? :)

Ну как вариант, дополнительно парсить еще URL из топа, на предмет того, к какой группе они относятся, но имхо это слишком геморрно :)
yanus:
Ford Focus для примера

Или даже "купить форд фокус" или "форд фокус цена"

Пустота. Какого черта здесь появляется чья-то реклама?
Pavel Medvedev
На сайте с 27.01.2006
Offline
166
#12
burunduk:
мусор в выдаче

Именно мусорные сайты? Или рандомные нерелевантные страницы с нормальных сайтов?

Если всякий треш и доры - то можно выделить группу авторитетных сайтов (можно по общей видимости в тематике, руками - так как известны лидеры, можно по всяким сервисам проверки траста). И кластеризовать только по ним.

Хотя, например, по ядру 3000 запросов в нормальной тематике, не думаю что мусор будет больше статистической погрешности.

Вот, пример, взять какое нибудь ядро большое, отсортировать по вхождению в топы, вроде все сайты норм, мусора откровенного нет:

Консультирую по SEO. Опыт c 2005: окна топ1,Ашан,Фишки,Спортс и др. Пишите в FB.
bossgs
На сайте с 17.03.2008
Offline
121
#13

Тут можно отталкиваться от Вашего сайта, если сайт:

- агрегатор, тогда, например, формируете страницу листинга как тут:

- дилер (цены и обзор)

Агентство "Семен Ядрен" ( https://semen-yadren.com )
P
На сайте с 25.05.2007
Offline
103
#14

Shlackbaum, извините, не могу вас понять. Ну берем эти три запоса, "ford focus", "купить форд фокус", "форд фокус цена".

Смотрим пересечения:

ford focus - купить форд фокус

http://www.ford.ru/Cars/Focus/Price

http://carsguru.net/catalog/ford/focus/

ford focus - форд фокус цена

http://www.ford.ru/Cars/Focus/Price

http://quto.ru/Ford/Focus/

http://carsguru.net/catalog/ford/focus/

купить форд фокус - форд фокус цена

http://carsguru.net/catalog/ford/focus/

http://www.ford.ru/Cars/Focus/Price

http://moscow.drom.ru/ford/focus/

http://www.cars.ru/find/marka/Ford/Focus/

В чем конкретно проблема?

coolakov.ru/tools (http://coolakov.ru/tools/): определение конкурентов (http://coolakov.ru/tools/most_promoted/), кластеризация запросов (http://coolakov.ru/tools/razbivka/) и т.д.
Shlackbaum
На сайте с 18.08.2010
Offline
322
#15

pimandr, проблема вот в чем:

Анализ топ-10 для запроса "форд фокус". Регион 213

ford.ru - квота представительства (подкатегория 1)

ford.drom.ru - квота агрегатора (подкатегория 2)

fordcenter.ru - квота дилера (подкатегория 3)

quto.ru - квота агрегатора (подкатегория 2)

Major-Ford.ru - квота дилера (подкатегория 3)

ffclub.ru - квота любительского или псевдолюбительского коммерческого проекта (подкатегория 4)

carsguru.net - квота агрегатора (подкатегория 2)

moscow.drom.ru - квота агрегатора (подкатегория 2)

focus3.ru - квота любительского проекта (подкатегория 4)

focus-club.ru - квота любительского проекта (подкатегория 4)

И это притом, что подкатегории можно на самом деле мальца подкорректировать и их будет больше, не говоря уже о том, что это только анализ топ-10 и только для одного запроса из тысяч.

Итого у нас получается:

Квота представительств = 1 место в топ-10

Квота дилеров = 2 места в топ-10

Квота агрегаторов = 4 места в топ-10

Квота любительских проектов = 3 места в топ-10

Таким образом - у каждой подкатегории свой тематико-семантический слепок. Для агрегатора и для любительского проекта он разный.

Предположим я решил создать новый любительский проект - тогда мне нужны данные слепка по любительским проектам. Мне не надо, чтобы туда подмешивались дилеры, агрегаторы, представительства или быстроробот/спектральная примесь.

А кластеризаторы все это мешают в одну кучу. Или это не так? Выскажите свое мнение.

P
На сайте с 25.05.2007
Offline
103
#16

Странно, размышляя о группировке запросов приводить пример выдачи по одному запросу :)

Но я понял вашу мысль: прежде, чем группировать запросы, нужно определить тип (набор подкатегорий) каждого из них, чтоб не группировались запросы разных типов. Без этого хорошей группировки не получится. И проблема в том, что определить тип крайне сложно.

Да, все существующие кластеризаторы, насколько мне известно, этой проблемой не занимаются. Потому что, как я уже писал, это 1-сложно, 2 - и без этого можно получить вполне приемлемый результат. Увеличивая сложность вычислений и обработки на порядки результат получится лучше на пару процентов.

(Некоторые кластеризаторы и без этих проблем не могут нормально запросы группировать более интеллектуально, чем попарно, но тут уж другие причины косяков)

Слепки для разных категорий сайтов будут ОЧЕНЬ похожи. И для аггрегатора, и для любительского сайта запросы "купить форд фокус" и "форд фокус цена" будут на одной странице, а "ремонт форд фокус" - на другой. И нет ни одной категории сайтов, где "форд фокус 2" и "форд фокус 3" будут на одной странице.

Все вышесказанное относится в реальной группировке реальных запросов. Для идеальной сферической группировки в вакууме, верной на 100%, о которой вы размышляете, это все не относится.

Shlackbaum
На сайте с 18.08.2010
Offline
322
#17

pimandr, речь скорее о том, что по запросу "форд фокус цена" любительских сайтов как раз и нет в топ-10. Это означает, что запрос "форд фокус цена" должен отсутствовать на любительском проекте или быть в другом формате, чем скажем у дилера или у агрегатора (и я не про дизайнерское оформление страницы, а именно про семантику)... Вплоть до реального отсутствия освещения этой темы на проекте.

Вышенаписанное мною в этом посте грубо и неверно, но вектор мысли я надеюсь показал...

yanus
На сайте с 21.01.2009
Offline
348
#18
pimandr:
Странно, размышляя о группировке запросов приводить пример выдачи по одному запросу :)

Рассуждения были не о группировке запросов, а о чистки выдачи, перед группировкой запросов )))

"Кластеризаторы" просто не чистят и решают проблему "в лоб". Для кластеризации запросв это не так критично, один фиг результат сомнителен. А вот если нужно генерить тз для копирайтеров на автомате, то такая очистка не помешает.

P
На сайте с 25.05.2007
Offline
103
#19
Shlackbaum:
запрос "форд фокус цена" должен отсутствовать на любительском проекте

По вашему их нет в топах по этому запросу потому, что они относятся не к той категории? А по моему, на любительских проектах тупо нет релевантных страниц по этим запросам:

https://yandex.ru/yandsearch?clid=2186618&text=%D1%86%D0%B5%D0%BD%D0%B0%20site%3Affclub.ru

https://yandex.ru/search/?text=%D1%84%D0%BE%D1%80%D0%B4%20%D1%84%D0%BE%D0%BA%D1%83%D1%81%20%D1%86%D0%B5%D0%BD%D0%B0%20site%3Afocus3.ru&clid=2186618&lr=213

https://yandex.ru/search/?text=%D1%84%D0%BE%D1%80%D0%B4%20%D1%84%D0%BE%D0%BA%D1%83%D1%81%20%D1%86%D0%B5%D0%BD%D0%B0%20site%3Afocus-club.ru&clid=2186618&lr=213&rnd=28436

Shlackbaum
На сайте с 18.08.2010
Offline
322
#20

pimandr, мы здесь можем оценить причинно-следственную связь, если она имеется, только в случае тестирования. В противном случае как один так и другой фактор может являться как причиной так и следствием.

А если учтем ИИ природу матрикснета и аспект консервации выдачи, то получим ситуацию, при которых даже грязные результаты мы получим только на промежутке времени стремящемся к бесконечности.

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий