PROOFSEO: первая конференция от сервиса ROOKEE!!!

pro-maker
На сайте с 08.12.2003
Offline
281
#151
G00DMAN:
Ну и автор вопроса не пожелал дискуссию продолжить в кулуарах, видимо ответ его удовлетворил.

Нет смысла в дискуссии, если на просьбу предъявить обоснование получаешь ответы типа "мой здравый смысл толще" или "я общаюсь с Сегаловичем".

Илья, во-первых, не были четко сформулированы выводы, во-вторых, нет чистоты (например, анализ велся по серпам, из-за чего невозможно корректно выделить контентную часть веб-документа и т.п.). Т.е. слушать было увлекательно и прикольно, но, не в обиду, прикладная значимость сомнительна.

[Удален]
#152
pro-maker:
Нет смысла в дискуссии, если на просьбу предъявить обоснование получаешь ответы типа "мой здравый смысл толще" или "я общаюсь с Сегаловичем".

я кстати помню и в вопросе тоже самое было, про общения с яндексоидами:). в итоге у кого то длинее, а у кого то толще.

G00DMAN
На сайте с 19.04.2008
Offline
122
#153
pro-maker:
Нет смысла в дискуссии, если на просьбу предъявить обоснование получаешь ответы типа "мой здравый смысл толще" или "я общаюсь с Сегаловичем".

Ну так это вынужденные ответы. На какие-то вопросы так пришлось отвечать, чтобы не уйти глубже в математику, т.к. аудитория этого бы не поняла и скисла совсем. На другие - чтобы замять смешной вопрос от гуры, который не в теме. Иначе пришлось бы его зачморить, но опять же с уходом в дебри, что никому не нужно. :)

pro-maker:
Илья, во-первых, не были четко сформулированы выводы, во-вторых, нет чистоты (например, анализ велся по серпам, из-за чего невозможно корректно выделить контентную часть веб-документа и т.п.). Т.е. слушать было увлекательно и прикольно, но, не в обиду, прикладная значимость сомнительна.

Дык, вывода никто и не хотел понять, а он на самом деле прикольный. Все очень просто - дан полный инструментарий для имитации матрикснета в домашних условиях и сказано, что в этом есть смысл. Осталось только потрудиться, но кому это нужно? :)

Илья Зябрев, AlterTrader Research Ltd. Последние статьи: Об отмене ссылок в Яндексе. (www.altertrader.com/publications38.html)|Поведенческие факторы (формулы) (www.altertrader.com/publications36.html) Жадные алгоритмы Яндекса. (www.altertrader.com/publications20.html)|MatrixNet для «чайников». (www.altertrader.com/publications19.html)
[Удален]
#154
G00DMAN:
Все очень просто - дан полный инструментарий для имитации матрикснета в домашних условиях и сказано, что в этом есть смысл. Осталось только потрудиться, но кому это нужно? :)

Илья, при все уважении...

Результаты Ваших исследований все равно носят больше эмпирический характер. Слишком много факторов не зависящих от Ваших действий и влияющих на частоту эксперимента - бан сайтов, попадание под фильтр, проблемы с хостингом и т.д.

По поводу формул.

Насколько я понял деревья это по сути каскад условий при выполнении которых, определенному фактору в формуле ранжирования присваивается конкретное значение, при этом условия могут меняться в процессе обучения алгоритма. В итоге получаем, что результат в формуле ранжирования это конкретное число(!), состоящее из суммы всех значений функций. Причем эти значения могут меняться скачкообразно, даже при изменении входного значения на 0,001 или при изменении уловий в самих деревьях.

По этому поводу мысль - как можно математически просчитать модель алгоритма если на обучаемость влияет такой фактор как асессоры (люди), то есть спонтанно изменяются начальные данные для обучения и проанализировать можно только полученные результаты. По сути при каждом обучении мы получаем новый лес деревьев со своими условиями.

Лично мое мнение, что нужно ввести коэффициент вероятности, основываясь на статистике по прошлым изменениям.

Последнее сугубо ИМХО.

G00DMAN
На сайте с 19.04.2008
Offline
122
#155
Shopper:
Илья, при все уважении...
Результаты Ваших исследований все равно носят больше эмпирический характер. Слишком много факторов не зависящих от Ваших действий и влияющих на частоту эксперимента - бан сайтов, попадание под фильтр, проблемы с хостингом и т.д.

Результаты носят реальный характер, они ведь проверяются на живой выдаче. А факторы, которые Вы привели, на топ практически не влияют, количество зафильтрованных страниц в топах, где найдено много ответов, исчезающе мало. :)

Shopper:
По поводу формул.
Насколько я понял деревья это по сути каскад условий при выполнении которых, определенному фактору в формуле ранжирования присваивается конкретное значение, при этом условия могут меняться в процессе обучения алгоритма.

Деревья - это каскад условий на факторы пары (запрос, документ). Условия в дереве при обучении выставляются один раз.

Shopper:
В итоге получаем, что результат в формуле ранжирования это конкретное число(!), состоящее из суммы всех значений функций.

Это число - релевантность документа запросу, по этому числу документы и ранжируются.

Shopper:
Причем эти значения могут меняться скачкообразно, даже при изменении входного значения на 0,001 или при изменении уловий в самих деревьях.

Скачкообразно при изменении одного из факторов на 0.001 могут меняются значения в одном дереве, но нужно иметь ввиду, что данный фактор встречается в разных условиях на большом числе деревьев, и значение функции на одном дереве - малая величина. Так что будет ли большой скачок релевантности документа - не факт. Изменение скорее всего будет в какую-то сторону.

Shopper:
По этому поводу мысль - как можно математически просчитать модель алгоритма если на обучаемость влияет такой фактор как асессоры (люди), то есть спонтанно изменяются начальные данные для обучения и проанализировать можно только полученные результаты.

Модель обучается, если есть обучающая выборка. В данном случае она была достаточно качественная.

Shopper:
По сути при каждом обучении мы получаем новый лес деревьев со своими условиями.

Ну да. То же самое происходит в матрикснете. :)

Shopper:
Лично мое мнение, что нужно ввести коэффициент вероятности, основываясь на статистике по прошлым изменениям.

В этом нет смысла.

dnx
На сайте с 22.04.2005
Offline
191
dnx
#156

Мой отчет о конференции. Вкратце - Супер!

ПыСы: кроме кондиционера над головой. Заливаюсь соплями (

[Удален]
#157
G00DMAN:
Результаты носят реальный характер, они ведь проверяются на живой выдаче. А факторы, которые Вы привели, на топ практически не влияют, количество зафильтрованных страниц в топах, где найдено много ответов, исчезающе мало. :)

Неужели все приведенные Вами однословики на момент начала эксперимента были допустим в ТОП20?


Модель обучается, если есть обучающая выборка. В данном случае она была достаточно качественная.

Насколько большая выборка? И на чем основываетесь, говоря что она качественная?


Ну да. То же самое происходит в матрикснете. :)

Тогда после каждого обучения необходимо проводить новый анализ. Стоит ли результаты таких усилий? И да, как думаете сколько было изменений за время эксперимента? Я понимаю что единичными изменениями при таком большом количестве факторов можно пренебречь, но в сумме за определенный период они могу существенно повлиять на результат.

sanitarn
На сайте с 20.08.2007
Offline
199
#158
pro-maker:
Илья, во-первых, не были четко сформулированы выводы, во-вторых, нет чистоты (например, анализ велся по серпам, из-за чего невозможно корректно выделить контентную часть веб-документа и т.п.). Т.е. слушать было увлекательно и прикольно, но, не в обиду, прикладная значимость сомнительна.

Странно, когда Вольф говорит, я знаю, знаю, а вы злюки и незнаки, что к нему, на мой взгляд Илья более открыт сказал - ответил(за базар :) )

Кстати агрегаторы все читают, вопрос такой какой агрегатор даст 100% гарантию на продвижение интима????

финансовый ответ (https://finansanswer.ru) Займ для безработных (https://finansanswer.ru/mikrozajmy/bezrabotnym/)
[Удален]
#159
sanitarn:
какой агрегатор даст 100% гарантию на продвижение интима????

А какой агрегатор даст 100 % гарантию на продвижение чего угодно?

G00DMAN
На сайте с 19.04.2008
Offline
122
#160
Shopper:
Неужели все приведенные Вами однословики на момент начала эксперимента были допустим в ТОП20?

Вы наверное не правильно поняли, брались топы по таким однословным запросам. Т.е. пара десятков сайтов по каждому запросу.

Shopper:
Насколько большая выборка? И на чем основываетесь, говоря что она качественная?

С точки зрения статистики выборка была не большая, порядка 20К сайтов, но ее хватило. На самом деле нужно было брать бОльшую выборку, но время на данные исследования было ограничено, в т.ч. и машинное, потому и сделали так.

Shopper:
Тогда после каждого обучения необходимо проводить новый анализ. Стоит ли результаты таких усилий? И да, как думаете сколько было изменений за время эксперимента? Я понимаю что единичными изменениями при таком большом количестве факторов можно пренебречь, но в сумме за определенный период они могу существенно повлиять на результат.

Новый анализ придется проводить, если полученная функция после какого-то апдейта перестанет удовлетворять заданным условиям. Случится ли это после каждого пересчета - совсем не очевидно.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий