john2007

john2007
Рейтинг
173
Регистрация
26.03.2007
Str256:
Очень спорно.

Прочитайте еще раз внимательно!

Обратите внимание, что в первом случае речь идет об абсолютном количестве ошибок на сайте.

Это пример так называемой ложной корреляции, улучшающей среднее качество выдачи (потому, что корреляция).

Если пример с орфографическими ошибками Вас все же не убедил, то представьте себе какой-нибудь другой пример ложной корреляции.

Я просто хочу сказать, что ложные корреляции улучшают качество выдачи, но добавление их как факторов снижает потенциальую возможность еще большего увеличения качества выдачи за счет добавления в будущем других факторов, с истиной корреляцией.

Поэтому бездумное (не учитывающее природу фактора) захламление матрикснет факторами, пусть и улучшающими качество выдачи - есть зло.

wolf:
Если никто из юзеров, вооруженных баром, не смог добраться до сайта, то, значит, фиг его кто найдет :)

А что, если 1 юзер, вооруженный баром, доберется, то этого количества будет достаточно для определения качества навигации на этом сайте? :)

john2007 добавил 28.10.2010 в 02:58

И вообще, ИМХО, результаты анализа динамики неопределенее и она сложнее для анализа, чем статика.

Хотя, как говорится, на вкус и цвет...

У каждого свои пристрастия :)

Str256:
А почему вы считаете, что если сайты с большим количеством орфографических ошибок станут более релевантнее, то это повысит качество выдачи?
G00DMAN:

С чего Вы взяли?

Потому что, например, сайты с большим абсолютным количеством орфографических ошибок в большинстве случаев могут соответствовать большему количеству материалов на сайте. А большее количество материалов на сайте может соответствовать в большинстве случаев при прочих равных более качественному сайту.

Т.е. может повысится среднее качество выдачи. За счет небольшого увеличения релевантности большого количества качественных сайтов.

Но это также повлечет увеличение релевантности небольшого количества сайтов с большим относительным количеством орфографических ошибок, что вредно.

Поэтому в вышеуказанном случае абсолютное количество орфографических ошибок как фактор ранжирования лучше не использовать (не смотря на возможное улучшение качества).

А вместо этого лучше усилить значение фактора объема сайта и дополнительно ввести, как фактор, относительное количество орфографических ошибок.

В этом случае улучшение качества выдачи может быть существеннее.

di_max:
Так я спрашиваю:
Кто займет освободившуюся 10-ю позицию?
Ведь на странице серпа - 10 мест.;)

Вы издеваетесь? :)

10-ю позицию займет 11-й.

di_max:

Хм... Так они между собой четко взаимосвязаны.
Тут надо еще учесть влияние бара, метрик и всего прочего с Яндекса, на анализ "повденчества".

Речь про то, как Яндексу оценить удобство навигации на сайте по его коду (HTML), потому как метрика, логи и все прочие "повденческие" инструменты могут отсутствовать на сайте или быть недоступными для Яндекса.

di_max:

- Каким имено сайтом из топ20 по "розовым слонам" заменить выбрасываемый?:)
Или на позиции топ5 оставить пустое место?😂

Те что ниже 5-го просто сдвинутся на 1 позицию вверх.

G00DMAN:

Это не реально сегодня, слишком ресурсоемкая задача.

Ну, да? :)

Определние качества сайта вообще ресурсоемкая задача.

G00DMAN:

В матрикснете нет положительных или отрицательных факторов. Есть просто факторы, которые, не зависимо от их логической сути могут сыграть в плюс или минус для конкретного документа по конкретному запросу. А по другому запросу для того же документа - сыграть наоборот.

OK, сформулирую по-другому.

Смею предположить, что добавление в матрикснет фактора абсолютного количества ошибок на сайте немного повысит качество выдачи.

При этом, страницы с сайтов с большим количеством орфографических ошибок при прочих равных будут релевантнее чем с сайтов с меньшим количеством орфографических ошибок.

Т.о. добавлять фактор абсолютного количества ошибок на сайте в матрикснет нельзя.

Вот Вам и не учет логики фактора.

di_max:
Кто такой ентот "матрикснет" - я не знаю.
Но определить числовой показатель "удобство навигации" - не вопрос.
Имхо его давно вычислили те, кто пользует Analog (анализатор логов) для Apache. ;)

Речь не про анализатор логов, а про анализатор HTML страниц.

G00DMAN:

Логика фактора при этом не важна, главное, чтобы выполнялись указанные выше условия. Т.е. если например они бы выполнялись для фактора "количество точек в документе", или "количество тегов <td>", то такие факторы вошли бы в набор. Легко. :)

Как это не удивительно будет звучать, но я не соглашусь :)

Я, например, не исключаю, что общее качество выдачи немного повысится, если в качестве положительного фактора мы будем учитывать абсолютное количество орфографических ошибок на сайте.

Это может произойти, так как реально может быть какая-то положительная зависимость между количеством материалов на сайте и релевантностью страницы.

А абсолютное количество ошибок на сайте, в том числе, зависит от количества материалов на сайте.

:)

john2007 добавил 27.10.2010 в 19:21

Alexey Levin:
Вариантов может быть много. Хотя бы такой вариант, что кол-во кликов должно быть статистически значимо, чтобы с вероятностью, хотя бы 95% сказать, что сайт не удовлетворяет запросу.

Я разве сказал, что количество кликов должно быть статистически не значимо или что данную методику можно применить ко всем запросам?

И разве пример был не показателен? :)

di_max:
Угу. А если еще равномерно растянуть ТОП10 до ТОП1000, что бы скоррелировать результаты, то... может что и получится.:)
Бо за ТОП30 - жизнь... только на Марсе.😂

Кста!
- А куда и как в нее, методику, всовывать новые сайты?
Речь о тех 5%, которые все же просто сайты, а не СЕО-"творения"

Я ничего из этого не понял, кроме того, что понял, что Вы меня не поняли :)

Поэтому объясню еще раз на примере.

Висит сайт X на 5-ом месте по запросу "розовые слоны", на него кликнули 1 раз за 3 дня . А на все остальные сайты из топ10 минимум 10 раз на каждый сайт за это же время кликнули.

Вопрос, зачем в выдаче сайт X на 5-ом месте, да и вообще в топе по запросу "розовые слоны" ?

Поэтому причем тут новые сайты к этой методике я не понял :)

юни:
Есть, правда, однозначный и глобальный метод сбора статистики, но он затратен зело, и сложен для анализу.

Угу, «СОРМ-2» :)

юни:
Здесь используются значительно более длинные зависимости, чем в традиционных сейчас методах.

Если, говоря общими словами, в ссылочном оценивается пара "запрос-документ" по множеству параметров, то в поведенческом, при минимуме влияющих факторов (хит/хост/время), учитываются их взаимозависимости на больших промежутках времени (в пределах сессий, куков и пр.) и большим количество инструментов (аналитикса/метрики, баров и пр.).

Денис, я не пойму, ты противник или защитник учета в ранжировании поведенческих характеристик в отношении конкретных сайтов? :)

Интересно, бар много инфы Яндексу сливает? Небось, мегабайтами шлет :)

А что касается метрики, liveinternet и прочих источников, то не на всех сайтах они присутствуют, поэтому если их учитывать, то неравноценность получится.

Выдача, Метрика, liveinternet и прочие источники ведут учет поведения пользователей.

Собранная информация используется, чтобы выяснить информационные предпочтения пользователей, которые затем используются в ранжировании.

Согласен с Psycho

Поведенческие юзеров по топу настолько нестабильная вещь, что давать им более менее значимое влияние в формуле ранжирования - это ж самоубийство.

Фильтровать/пессимизировать сайты по какому-то методу за явные "заслуги" - куда ни шло.

Всерьез использовать в ранжировании - это такие танцы в выдаче получатся :)

А 1% или того меньше влияния, ну может быть, кто же их знает.

юни:
Кстати, а на основе чего было принято, что одно расстояние между словами должно учитываться хорошо, а несколько большее - хуже? Какие расстояния были взяты за основу, и по какому принципу?

Ну, не по конкретным формулам, а вообще, в самом начале.

Имперически :)

И там не оптимальное расстояние, а чем меньше, тем лучше.

wolf:
Подозреваю, это улучшение произошло на запросах, скажем так, не находящихся по SEO-прессингом :) То есть там, где нет прямых вхождений.

Ну, естественно! :)

Вопрос в том, что чего же они раньше так плохо фактор расстояния между словами учитывали!

И я думаю, что дело, наверное не в том, что фактор расстояний плохо расчитывается, он именно плохо учитывается!

Т.е. текущий фактор расстояний учитывается с недостаточным весом и/или не в том месте/связке в деревьях.

А добавление еще одного фактора расстояний, видимо, улучшило вес в 2 раза, от сюда и улучшение качества поиска :)

Думаю, если добавить еще с десяток модифицированных факторов, учитывающих расстояния, то качество информационного поиска еще возрастет :)

mhz:

Плюс, это лично вы, возможно, не найдя ответа в топ10-20 сразу же уходите в Гугл, а ведь у многих другой рефлекс — переформулировка запроса.

Ну, если позаниматься этим вопросом, создать новый matrix net по оценке качества поиска, который учтет сотни факторов поведения юзера в серпе, то может и можно к чему-то хорошему прийти в оценке качества поиска.

"Зло пожирает само себя" :)

john2007 добавил 27.10.2010 в 14:08

G00DMAN:
Эти параметры можно использовать в факторах для конкретного документа. А можно и не использовать.

ИМХО, единственный поведенческий, который можно учитывать -

Висит сайт в выдаче, на все сайты там юзеры кликают, а на этот не кликают (по какой-то оценке).

Ну и нафиг там сайту по этому запросу висеть?

А уж какая причина, то ли сниппет с тайтлом плохой, то ли тематика (под тематика) не та, или какая другая причина.

А количество таких сайтов в выдаче ПС - вот и одна из метрик качесва поиска :)

Точнее количество выдач с такими сайтами.

G00DMAN:

То, что опубликованы честные цифры в пользу гугла - красиво. Гугл такого наверняка не стал бы публиковать. :)

Ну, понятно, это же в лабораторных условиях было, была поставлена цель - найти ответы!

Вот у Гугла лучше и получилось по этой методе с временем.

Я удивлен, как это у них с Яндексом деление на бесконечность не получилось :)

Всего: 2535