Если не размещать цен, как и остальные любительские сайты - конечно не пробраться. Тут и анализировать не надо) И категории тут не при чем.
Может с другого начать: посчитать, на скольких любительских проектах есть ответы на "ценовые" запросы?
Легко. Сделали же так уже 5-10 кластеризаторов. И ничего, получают вполне приемлемые результаты. Некоторые на этом даже какие-то деньги зарабатывают. И дополнительные сущности для улучшения кластеризации они придумывают после, а не до.
эта фигня как минимум с 5 июня наблюдается.
Ну вот опять, я вам конкретику, а вы в абстракции уходите.
В конкретном обсуждаемом случае это как? На сайте нет релевантного контента потому что он не в топе? А как только сайт зайдет в топ, так на нем сразу необходимый контент появится?
По поводу консервации выдачи. Зачем брать самые сложные случаи? Доля законсервированных топов ничтожно мала, если рассматривать все множество поисковых запросов. Почему бы сначала не разобраться не "некосервированными" топами? Их больше, их легче исследовать, по ним проще делать статистику. А уж после того, как с обычными топами все станет понятно - вернуться к этим консервам.
Про "ИИ природу" матрикснета пропущу, слишком смешно.
С концовкой вашего поста соглашусь: идеальный сферический кластеризатор будет сделан за бесконечность времени.
И это еще одна причина, почему он нафиг не нужен.
По вашему их нет в топах по этому запросу потому, что они относятся не к той категории? А по моему, на любительских проектах тупо нет релевантных страниц по этим запросам:
https://yandex.ru/yandsearch?clid=2186618&text=%D1%86%D0%B5%D0%BD%D0%B0%20site%3Affclub.ru
https://yandex.ru/search/?text=%D1%84%D0%BE%D1%80%D0%B4%20%D1%84%D0%BE%D0%BA%D1%83%D1%81%20%D1%86%D0%B5%D0%BD%D0%B0%20site%3Afocus3.ru&clid=2186618&lr=213
https://yandex.ru/search/?text=%D1%84%D0%BE%D1%80%D0%B4%20%D1%84%D0%BE%D0%BA%D1%83%D1%81%20%D1%86%D0%B5%D0%BD%D0%B0%20site%3Afocus-club.ru&clid=2186618&lr=213&rnd=28436
Странно, размышляя о группировке запросов приводить пример выдачи по одному запросу :)
Но я понял вашу мысль: прежде, чем группировать запросы, нужно определить тип (набор подкатегорий) каждого из них, чтоб не группировались запросы разных типов. Без этого хорошей группировки не получится. И проблема в том, что определить тип крайне сложно.
Да, все существующие кластеризаторы, насколько мне известно, этой проблемой не занимаются. Потому что, как я уже писал, это 1-сложно, 2 - и без этого можно получить вполне приемлемый результат. Увеличивая сложность вычислений и обработки на порядки результат получится лучше на пару процентов.
(Некоторые кластеризаторы и без этих проблем не могут нормально запросы группировать более интеллектуально, чем попарно, но тут уж другие причины косяков)
Слепки для разных категорий сайтов будут ОЧЕНЬ похожи. И для аггрегатора, и для любительского сайта запросы "купить форд фокус" и "форд фокус цена" будут на одной странице, а "ремонт форд фокус" - на другой. И нет ни одной категории сайтов, где "форд фокус 2" и "форд фокус 3" будут на одной странице.
Все вышесказанное относится в реальной группировке реальных запросов. Для идеальной сферической группировки в вакууме, верной на 100%, о которой вы размышляете, это все не относится.
Shlackbaum, извините, не могу вас понять. Ну берем эти три запоса, "ford focus", "купить форд фокус", "форд фокус цена".
Смотрим пересечения:
ford focus - купить форд фокус
http://www.ford.ru/Cars/Focus/Price
http://carsguru.net/catalog/ford/focus/
ford focus - форд фокус цена
http://quto.ru/Ford/Focus/
купить форд фокус - форд фокус цена
http://moscow.drom.ru/ford/focus/
http://www.cars.ru/find/marka/Ford/Focus/
В чем конкретно проблема?
Так бОльшая часть факторов SEO находится в черном ящике. И чего?)
Я думаю так: если нельзя какой-либо "тонкий" фактор посчитать/определить, то проще исходить из того, что этого фактора нет.
Допустим, есть у вас 20 готовых категорий запросов. И остался последний, нераспределенный запрос. И непонятно, к какой из этих категорий его отнести. По одному фактору можно отнести к одной категории. По второму фактору - к трем другим. По третьему фактору - вообще никуда нельзя. А ведь надо учесть еще и Крайне Тонкий, Важный Фактор, который неизвестно, как определить. . Что же делать???
Я б наплевал и запихнул его в любую, от балды. По двум причинам:
1. Не может быть такой ситуации, чтоб это сломало всю группировку и продвигать сайт станет втрое сложнее. В целом она останется нормальной.
2. Как бы вы запросы не сгруппировали, это будет не идеальная группировка. Потому что идеально группировки нет. Яндексоиды такими понятиями вообще не оперируют.
Знаете, как Оппенгеймер в 20-е годы прошлого века вычислял параметры черной дыры? Кучу необходимых факторов кое-как можно было посчитать. Но внутреннее давление нейтронов посчитать было никак нельзя. Тогда не было измерительных приборов, чтобы измерить столь мелкие частицы и столь малое давление.
Так Оппенгеймер взял и решил, что раз это давление нельзя посчитать, давайте считать, будто оно равно нулю. Просто потому, что так проще.
А еще нужно было вращение учитывать. А это тоже сложно, тем более что в двадцатых годах калькуляторов не было. Решили, что вращение тоже нулевое. Исключительно для того, чтоб было проще считать.
И результаты получились достаточно достоверные, даже с сегодняшней точки зрения.
Shlackbaum, не считаю это проблемой. У двух похожих запросов и группы будут похожие, пусть по 3-4 сайта в каждой, разве нет?
И потом, смысл кластеризаторов, на мой взгляд, в том, чтобы:
1. Находить неявные фразы-синонимы (раскрутка сайтов - продвижение сайтов)
2. Отделять коммерческие запросы от информационных (с ходу не смог пример подобрать. раньше был хороший пример "смартфон" и "смартфоны", сейчас он не актуален)
Эти вещи через морфологический анализ не вычисляются, через выдачу - достаточно достоверно.
Исследование даже с большой погрешностью, имхо, лучше, чем никакого исследования. И, по моим оценкам, погрешности получаются не критичными. После обработки напильником группировки получаются вполне вменяемыми.
В любом случае, кластеризаторы на основе сравнения топов работают лучше, чем кластеризаторы на основе морфологии.
И уж точно, доработать результат работы кластеризатора вручную - быстрее, чем полностью вручную группировать запросы.
А что сейчас стало хуже? Больше несвязанных запросов объединяются в группы? Или наоборот, больше похожих запросов не объединяется?
Подтверждаю. Тоже 1 мой сайт под минусинск попал сегодня.
С другой стороны - несколько сайтов (не моих), попавших под минусиск в первой волне, сегодня из под него вышли.
Вы про k-n-d.ru ? Есть "доки": http://www.megaindex.ru/minusinsk/minusinsk-1-2.txt
k-n*d.r*
Как раз перед каким-то kok*c.c*m
Ну и позиции можно сравнить по этому проекту. Вот прошлые. https://www.megaindex.ru/index.php?region_id=0&tab=siteAnalyze&date=2015-06-11&date2=2015-05-09&site=k-n-d.ru
Сравните с сегодняшними.
Так что, извините, слив не у меня :)