G00DMAN

G00DMAN
Рейтинг
122
Регистрация
19.04.2008
Shopper:
Неужели все приведенные Вами однословики на момент начала эксперимента были допустим в ТОП20?

Вы наверное не правильно поняли, брались топы по таким однословным запросам. Т.е. пара десятков сайтов по каждому запросу.

Shopper:
Насколько большая выборка? И на чем основываетесь, говоря что она качественная?

С точки зрения статистики выборка была не большая, порядка 20К сайтов, но ее хватило. На самом деле нужно было брать бОльшую выборку, но время на данные исследования было ограничено, в т.ч. и машинное, потому и сделали так.

Shopper:
Тогда после каждого обучения необходимо проводить новый анализ. Стоит ли результаты таких усилий? И да, как думаете сколько было изменений за время эксперимента? Я понимаю что единичными изменениями при таком большом количестве факторов можно пренебречь, но в сумме за определенный период они могу существенно повлиять на результат.

Новый анализ придется проводить, если полученная функция после какого-то апдейта перестанет удовлетворять заданным условиям. Случится ли это после каждого пересчета - совсем не очевидно.

Shopper:
Илья, при все уважении...
Результаты Ваших исследований все равно носят больше эмпирический характер. Слишком много факторов не зависящих от Ваших действий и влияющих на частоту эксперимента - бан сайтов, попадание под фильтр, проблемы с хостингом и т.д.

Результаты носят реальный характер, они ведь проверяются на живой выдаче. А факторы, которые Вы привели, на топ практически не влияют, количество зафильтрованных страниц в топах, где найдено много ответов, исчезающе мало. :)

Shopper:
По поводу формул.
Насколько я понял деревья это по сути каскад условий при выполнении которых, определенному фактору в формуле ранжирования присваивается конкретное значение, при этом условия могут меняться в процессе обучения алгоритма.

Деревья - это каскад условий на факторы пары (запрос, документ). Условия в дереве при обучении выставляются один раз.

Shopper:
В итоге получаем, что результат в формуле ранжирования это конкретное число(!), состоящее из суммы всех значений функций.

Это число - релевантность документа запросу, по этому числу документы и ранжируются.

Shopper:
Причем эти значения могут меняться скачкообразно, даже при изменении входного значения на 0,001 или при изменении уловий в самих деревьях.

Скачкообразно при изменении одного из факторов на 0.001 могут меняются значения в одном дереве, но нужно иметь ввиду, что данный фактор встречается в разных условиях на большом числе деревьев, и значение функции на одном дереве - малая величина. Так что будет ли большой скачок релевантности документа - не факт. Изменение скорее всего будет в какую-то сторону.

Shopper:
По этому поводу мысль - как можно математически просчитать модель алгоритма если на обучаемость влияет такой фактор как асессоры (люди), то есть спонтанно изменяются начальные данные для обучения и проанализировать можно только полученные результаты.

Модель обучается, если есть обучающая выборка. В данном случае она была достаточно качественная.

Shopper:
По сути при каждом обучении мы получаем новый лес деревьев со своими условиями.

Ну да. То же самое происходит в матрикснете. :)

Shopper:
Лично мое мнение, что нужно ввести коэффициент вероятности, основываясь на статистике по прошлым изменениям.

В этом нет смысла.

pro-maker:
Нет смысла в дискуссии, если на просьбу предъявить обоснование получаешь ответы типа "мой здравый смысл толще" или "я общаюсь с Сегаловичем".

Ну так это вынужденные ответы. На какие-то вопросы так пришлось отвечать, чтобы не уйти глубже в математику, т.к. аудитория этого бы не поняла и скисла совсем. На другие - чтобы замять смешной вопрос от гуры, который не в теме. Иначе пришлось бы его зачморить, но опять же с уходом в дебри, что никому не нужно. :)

pro-maker:
Илья, во-первых, не были четко сформулированы выводы, во-вторых, нет чистоты (например, анализ велся по серпам, из-за чего невозможно корректно выделить контентную часть веб-документа и т.п.). Т.е. слушать было увлекательно и прикольно, но, не в обиду, прикладная значимость сомнительна.

Дык, вывода никто и не хотел понять, а он на самом деле прикольный. Все очень просто - дан полный инструментарий для имитации матрикснета в домашних условиях и сказано, что в этом есть смысл. Осталось только потрудиться, но кому это нужно? :)

dimok:
Мой отчет о конфе: http://blog.dimok.ru/otchet-o-konferentsii-proofseo
dimok в своем блоге:
Доклад про "формулу макрикснета" мне не понравился. Очевидно, что теория не масштабируется на большой пул запросов - слишком частное и очень уж условное исследование.

Откуда это очевидно? И как же тогда масштабируется у Яндекса? :D

dimok в своем блоге:
Помню, я с одним хорошим другом делал подобный анализ лет 6 назад и примерно с такой же формулой (только были не деревья, а в основном квадратичные зависимости) и оптимизировали через генетический алгоритм - вывод был тот же, что я и в предыдущем предложении написал.

Ну да, типа раз у меня не получилось испечь тульский пряник, то и у гудмана не получится влезть на бабу. Логично.

dimok в своем блоге:
На вопросы докладчик отвечал:

мой здравый смысл здоровее твоего

Главное - лаконично. Не устраивать же математическую полемику при такой аудитории. Тем более, что ее итог все равно остался бы таким же. Ну и автор вопроса не пожелал дискуссию продолжить в кулуарах, видимо ответ его удовлетворил. :D

dimok в своем блоге:
Если исследование не оперирует ссылочной базой Яндекса, то он может (причем не всегда) "работать" только на том наборе запросов, на котором оно и производилось.

Исследовалась текстовая релевантность документов, при чем тут ссылочное? Результаты получены интересные, хотя могло случится и иначе. Но поперло. :)

white.:
Ну низок, но повлиять то все-равно можно, значит выдача будет меняться. Или я не прав?

Конечно прав. :)

Mills:
Если стоит задача продвинуть документ по определнному запросу в топ - что тогда делать? раз у значимых факторов (внешие и внутренние ссылки, оптимизация документа и проч.) такой низкий процент, как вы говорите ? :) Если все так - то получается никакой сайт в топ вывести невозможно чисто теоретически - коэффициент у факторов на которые можно повлиять низок и в топе будут находится только те сайты, которые там уже находятся, т.к. на выдачу нельзя повлиять толком.

В топе буду находиться сайты, которые там с какого числа стоят? И они что, Яндекс-медом намазаны? ;)

aalexeev:
2.не рассмотрены общеизвестные значимые факторы ранжирования, в т.ч. ВИЦ страницы донора, SEOin донора

Что касается мадридских свойств, то не факт, что их все же смогли вписать в концепцию матрикснета.

wolf:
Это потому что вклад каждого отдельно взятого фактора в результирующее значение довольно низкий. Полагаю, речь идет о порядке в единицы процентов у самых значимых.

Ну да, именно так. Поэтому измерения такого вклада в каком-нибудь экселе становится проблематичным. Хотя есть множественный корреляционный анализ, там что-то вытянуть удается иногда.

vanchopik:
Кстати вот созрел такой вопрос:
Допустим если пробовать выводить свою обучающуюся формулу релевантности по той методике, которую представил Илья, как во-первых нормировать значение самой функции. Просто как я понял ее значение коррелируется с позицией в ПС, иначе как определить что корреляция дала высокое значение, скажем 1.
У Яндекса значение функции коррелируется с оценкой ассесора, а в данном случае как? Если не прав, поправьте пожалуйста.

В Вашем случае асессором выступает Яндекс. Вы получаете ранговую оценку, которую нужно перевести в численную. Я это делал достаточно хитрым методом, который базируется на некоторой закрытой от паблика информации. Поэтому спалить не могу, извините.

ya_sinoptik:
G00DMAN, многолюдно было, Илья..?

Да.

wolf:
А дифуры были? :)

Дык, какие дифуры в поисковой науке? Какой еще матан? Ты ж понимаешь, там в основном дроби... :D

Ну там еще несколько логарифмов вроде в метрики затесалось, но все равно, все поисковые формулы только выглядят страшно. Если немного подумать, то они совсем простые.

wolf:
Сорри, не смог приехать. Работа, будь она неладна... :)

Жаль, а мы с Миражом мерялись толщиной. Если бы ты его поддержал - может вы бы на пару и перемеряли старика. :D

Всем пожалуйста, но докладчик из мну унылый... :)

Юрий-Михалыч:
Теперь ВСЕ знают, что у Гудмана РЕАЛЬНО -ТОЛЩЕ!

А то. :D

datot:
Когда пошел разговор про деревья, я вышел, не смог сдержаться.:)

А Вы ждали, что я выложу ссылку на скачку формулы ранжирования, вместе с частотными базами?

datot:
Кузя - просто прелесть, особо про кондиционеры от SIMa 60 сайтов в один ТОП10

Самое забавное, что некоторые из топовых потоковых контор взяли бы 60 клиентов по кондиционерам одновременно на вывод в топ-10. :)

P.S. Организаторам спасибо за отличную конфу.

Всего: 1960