Прочитайте еще раз внимательно!
Обратите внимание, что в первом случае речь идет об абсолютном количестве ошибок на сайте.
Это пример так называемой ложной корреляции, улучшающей среднее качество выдачи (потому, что корреляция).
Если пример с орфографическими ошибками Вас все же не убедил, то представьте себе какой-нибудь другой пример ложной корреляции.
Я просто хочу сказать, что ложные корреляции улучшают качество выдачи, но добавление их как факторов снижает потенциальую возможность еще большего увеличения качества выдачи за счет добавления в будущем других факторов, с истиной корреляцией.
Поэтому бездумное (не учитывающее природу фактора) захламление матрикснет факторами, пусть и улучшающими качество выдачи - есть зло.
А что, если 1 юзер, вооруженный баром, доберется, то этого количества будет достаточно для определения качества навигации на этом сайте? :)
john2007 добавил 28.10.2010 в 02:58
И вообще, ИМХО, результаты анализа динамики неопределенее и она сложнее для анализа, чем статика.
Хотя, как говорится, на вкус и цвет...
У каждого свои пристрастия :)
Потому что, например, сайты с большим абсолютным количеством орфографических ошибок в большинстве случаев могут соответствовать большему количеству материалов на сайте. А большее количество материалов на сайте может соответствовать в большинстве случаев при прочих равных более качественному сайту.
Т.е. может повысится среднее качество выдачи. За счет небольшого увеличения релевантности большого количества качественных сайтов.
Но это также повлечет увеличение релевантности небольшого количества сайтов с большим относительным количеством орфографических ошибок, что вредно.
Поэтому в вышеуказанном случае абсолютное количество орфографических ошибок как фактор ранжирования лучше не использовать (не смотря на возможное улучшение качества).
А вместо этого лучше усилить значение фактора объема сайта и дополнительно ввести, как фактор, относительное количество орфографических ошибок.
В этом случае улучшение качества выдачи может быть существеннее.
Вы издеваетесь? :)
10-ю позицию займет 11-й.
Речь про то, как Яндексу оценить удобство навигации на сайте по его коду (HTML), потому как метрика, логи и все прочие "повденческие" инструменты могут отсутствовать на сайте или быть недоступными для Яндекса.
Те что ниже 5-го просто сдвинутся на 1 позицию вверх.
Ну, да? :)
Определние качества сайта вообще ресурсоемкая задача.
OK, сформулирую по-другому.
Смею предположить, что добавление в матрикснет фактора абсолютного количества ошибок на сайте немного повысит качество выдачи.
При этом, страницы с сайтов с большим количеством орфографических ошибок при прочих равных будут релевантнее чем с сайтов с меньшим количеством орфографических ошибок.
Т.о. добавлять фактор абсолютного количества ошибок на сайте в матрикснет нельзя.
Вот Вам и не учет логики фактора.
Речь не про анализатор логов, а про анализатор HTML страниц.
Как это не удивительно будет звучать, но я не соглашусь :)
Я, например, не исключаю, что общее качество выдачи немного повысится, если в качестве положительного фактора мы будем учитывать абсолютное количество орфографических ошибок на сайте.
Это может произойти, так как реально может быть какая-то положительная зависимость между количеством материалов на сайте и релевантностью страницы.
А абсолютное количество ошибок на сайте, в том числе, зависит от количества материалов на сайте.
:)
john2007 добавил 27.10.2010 в 19:21
Я разве сказал, что количество кликов должно быть статистически не значимо или что данную методику можно применить ко всем запросам?
И разве пример был не показателен? :)
Я ничего из этого не понял, кроме того, что понял, что Вы меня не поняли :)
Поэтому объясню еще раз на примере.
Висит сайт X на 5-ом месте по запросу "розовые слоны", на него кликнули 1 раз за 3 дня . А на все остальные сайты из топ10 минимум 10 раз на каждый сайт за это же время кликнули.
Вопрос, зачем в выдаче сайт X на 5-ом месте, да и вообще в топе по запросу "розовые слоны" ?
Поэтому причем тут новые сайты к этой методике я не понял :)
Угу, «СОРМ-2» :)
Денис, я не пойму, ты противник или защитник учета в ранжировании поведенческих характеристик в отношении конкретных сайтов? :)
Интересно, бар много инфы Яндексу сливает? Небось, мегабайтами шлет :)
А что касается метрики, liveinternet и прочих источников, то не на всех сайтах они присутствуют, поэтому если их учитывать, то неравноценность получится.
Выдача, Метрика, liveinternet и прочие источники ведут учет поведения пользователей.
Собранная информация используется, чтобы выяснить информационные предпочтения пользователей, которые затем используются в ранжировании.
Согласен с Psycho
Поведенческие юзеров по топу настолько нестабильная вещь, что давать им более менее значимое влияние в формуле ранжирования - это ж самоубийство.
Фильтровать/пессимизировать сайты по какому-то методу за явные "заслуги" - куда ни шло.
Всерьез использовать в ранжировании - это такие танцы в выдаче получатся :)
А 1% или того меньше влияния, ну может быть, кто же их знает.
Имперически :)
И там не оптимальное расстояние, а чем меньше, тем лучше.
Ну, естественно! :)
Вопрос в том, что чего же они раньше так плохо фактор расстояния между словами учитывали!
И я думаю, что дело, наверное не в том, что фактор расстояний плохо расчитывается, он именно плохо учитывается!
Т.е. текущий фактор расстояний учитывается с недостаточным весом и/или не в том месте/связке в деревьях.
А добавление еще одного фактора расстояний, видимо, улучшило вес в 2 раза, от сюда и улучшение качества поиска :)
Думаю, если добавить еще с десяток модифицированных факторов, учитывающих расстояния, то качество информационного поиска еще возрастет :)
Ну, если позаниматься этим вопросом, создать новый matrix net по оценке качества поиска, который учтет сотни факторов поведения юзера в серпе, то может и можно к чему-то хорошему прийти в оценке качества поиска.
"Зло пожирает само себя" :)
john2007 добавил 27.10.2010 в 14:08
ИМХО, единственный поведенческий, который можно учитывать -
Висит сайт в выдаче, на все сайты там юзеры кликают, а на этот не кликают (по какой-то оценке).
Ну и нафиг там сайту по этому запросу висеть?
А уж какая причина, то ли сниппет с тайтлом плохой, то ли тематика (под тематика) не та, или какая другая причина.
А количество таких сайтов в выдаче ПС - вот и одна из метрик качесва поиска :)
Точнее количество выдач с такими сайтами.
Ну, понятно, это же в лабораторных условиях было, была поставлена цель - найти ответы!
Вот у Гугла лучше и получилось по этой методе с временем.
Я удивлен, как это у них с Яндексом деление на бесконечность не получилось :)