Почему отличаются результаты кластеризации одним и тем же методом с одинаковыми параметрами но в разных инструментах?

I
На сайте с 07.04.2021
Offline
15
420

Воспользовался Key Collector для кластеризации с типом группировки "По поисковой выдаче v3" и режимом пересечения с силой группировки 3, что соответствует методу Hard с порогом 3, на сколько понимаю. Парсинг поисковой выдачи осуществлял для региона Москва и МО. Полные настройки и результаты с количеством полученных групп и количеством запросов в них на прикрепленном скриншоте. 

Дальше воспользовался бесплатным сервисом Кулаков, который так же осуществляет кластеризацию методом Hard, но количество полученных кластеров и запросов в них отличается, в то время как использовался тот же метод Hard с порогом 3 и от же регион Москва и МО. Запросов обработано: 116 Порог кластеризации: 3 Сформировано групп: 28 (из них групп , содержащих два и более запроса: 21, содержащих 1 запрос: 7)

Верхние по численности запросов группы в Кулакове получились размерами 15, 14, 10 и 10 запросов. В коллекторе 11, 10, 8 и 7 запросов. Вроде бы метод и параметры с регионом те же, а результаты отличаются. В чем дело?

jpg wzmbfnpd6.jpg
Виктор Петров
На сайте с 05.01.2020
Offline
240
#1
Там пачка параметров и фильтров, притом важно, откуда данные и как тянули. Чаще-то, конечно, по XML и вживую.
Кроме того, важно понимать, отфильтровываются ли сайты на "бандите", сервисы Яндекса и прочий мусор.
Задача-то - анализ корпуса образцовых сайтов, и чем меньше "шумов" - тем лучше. А что там в потрохах алгоритмов - кто ж скажет точно.
I
На сайте с 07.04.2021
Offline
15
#2
Виктор Петров #:
важно, откуда данные и как тянули

В обоих случаях результаты органической выдачи из ПС Яндекса тянулись. Режим обращений в коллекторе - напрямую к выдаче, безбраузерный.

Виктор Петров #:
важно понимать, отфильтровываются ли сайты на "бандите", сервисы Яндекса и прочий мусор.

В обоих случаях не отфильтровывались яндексовые услуги, объявления, зен и маркет.

Опций фильтрации сайтов на бандите нигде не встречал.

Тут вообще можно не заморачиваться и кей коллектор использовать без оглядки на другие сервисы?

Сайты на "бандите" при кластеризации важно отфильтровывать? А сервисы Яндекса тоже важно? Какой еще мусор может повстречаться?

Виктор Петров
На сайте с 05.01.2020
Offline
240
#3
Iwwan #:
Опций фильтрации сайтов на бандите нигде не встречал.

KeyAssort это делает. Говорят, что Кейколлектор в 4 версии такое тоже может - я не проверял.

Iwwan #:
Тут вообще можно не заморачиваться и кей коллектор использовать без оглядки на другие сервисы?

Вам нужны медианные, усредненные данные, максимально близкие к тому самому типовому образцовому корпусу, на котором и обучается нейросеть. Понятно, что сайты, аффилированные с Яндексом, чудовища типа "Вайлдберриз", "Авито", сайты, подброшенные в топы на несколько часов и сайты, которые загнали в топы накрутками ПФ - не подходят для анализа. Там может быть любая дичь.
Я много кластеризаторов перепробовал, остановился на КейАссорт и больше не тестирую - года три как уже. Там тоже результаты надо ручками до ума доводить, и чем дальше - тем больше (Яндекс тупеет, шумов всё больше). Но пока меня результаты устраивают.

Виктор Петров
На сайте с 05.01.2020
Offline
240
#4

Ну вот для примера:

Можно добавить свой список урлов, которые надо или не надо учитывать и т.п. Короче, максимум способов отфильтровать ненужное и добавить интересующее. Возможно, есть и более удобные инструменты.

Zzznoked
На сайте с 22.09.2018
Offline
64
#5
Iwwan :
Воспользовался Key Collector для кластеризации с типом группировки "По поисковой выдаче v3" и режимом пересечения с силой группировки 3, что соответствует методу Hard с порогом 3, на сколько понимаю.

Нет. Оно вроде как на словах соответствует, либо Люстик, либо Ожгибесов про это говорили, но по факту не соответствует от слова уААбще. Там по каким-то неведомым принципам кластеризация происходит. Кей Ассорт делает нормально и ожидаемо, при ручной проверке всё бьётся. В случае с кластеризацией Кей Коллектором в ручную уже ничего не бьётся толком. В общем, кластеризация в Кей Коллекторе, не смотря на весь пафос и заверения говорящих голов какая-то невнятная, неправильная.

I
На сайте с 07.04.2021
Offline
15
#6
Zzznoked #:
Кей Ассорт

Посмотрел программу и на сколько понял, она берет данные поисковой выдачи либо с платного сервиса, либо данные можно импортировать. И импортировать их можно из кей коллектора... Но если брать данные, собранные коллектором, то и кластеризацию сделает ассорт возможно так же, как и кей коллектор. Если в случае коллекторе в ручную не бьется толком, то и в ассорте не будет. И получается заслуга ассорта в платном сервисе, с помощью которого он данные поисковой выдачи получает?

I
На сайте с 07.04.2021
Offline
15
#7
Виктор Петров #:

KeyAssort это делает. Говорят, что Кейколлектор в 4 версии такое тоже может - я не проверял.

Могли бы вы рассказать, как KeyAssort вычисляет сайты не бандите? Кейколлектор последней версии этого не умеет, о чем сообщили в поддержке программы.

Сами сайты на бандите себя не выдают ничем кроме резкой кратковременной смены позиции? Такое поведение и анализирует KeyAssort после накопления информации по поисковой выдаче?

88
На сайте с 09.03.2016
Offline
92
#8
Виктор Петров #:

KeyAssort это делает. Говорят, что Кейколлектор в 4 версии такое тоже может - я не проверял.

Вам нужны медианные, усредненные данные, максимально близкие к тому самому типовому образцовому корпусу, на котором и обучается нейросеть. Понятно, что сайты, аффилированные с Яндексом, чудовища типа "Вайлдберриз", "Авито", сайты, подброшенные в топы на несколько часов и сайты, которые загнали в топы накрутками ПФ - не подходят для анализа. Там может быть любая дичь.
Я много кластеризаторов перепробовал, остановился на КейАссорт и больше не тестирую - года три как уже. Там тоже результаты надо ручками до ума доводить, и чем дальше - тем больше (Яндекс тупеет, шумов всё больше). Но пока меня результаты устраивают.

В 4 коллекторе при кластеризации можно в том же окне добавить домены которые не будут учитываться.

П/С но кластризация странная очень в коллекторе

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий