UZPN

Рейтинг
58
Регистрация
16.10.2007
_S_:
А признаков у нас, и правда, несколько сотен.

Так я же оценку сделал а не точное количество сказал. То что не 50-100 а несколько сотен объясняется очень просто:

моя оценка базируется фактически на предположении о том что в расчете функции релевантности все факторы участвуют в полиноме второй степени. А тот факт что факторов несколько сотен говорит только о том что сотня-другая факторов участвует в расчете функции релевантности в виде полинома первой степени, без корреляции с другими факторами (о том что это вполне возможно я в своей оценке говорил).

G00DMAN:
Где-то наверное можно...

Я просто думал что это какие-то стандартные в данной области математики функции. Впрочем не важно я уже начитался форума и первоисточников и вроде как разобрался (почти :) ).

У меня такая, как Вы выразились, "объяснялка" получилась:

В новом алгоритме ищется функция релевантности в виде:

F = a1*h1 + a2*h2 + … + an*hn (f на h сразу заменил потому что возникает путаница с двойным использованием f-итых). Аргументами функций hi являются выраженные математически, привычные для нас факторы - текстовая релевантность например, виц и т.д. (в т.ч. и не очень привычные) а так же какие-то суперпозиции этих факторов.

Ищется функция рел. как результат решения оптимизационной задачи, "физический" смысл которой: максимально приблизить функцию F к оценке релевантности данной асессорами для тестовой выборки при сильных ограничениях на возможность выбора произвольных функций hi (ограничения в первую очередь продиктованы вычислительными ресурсами).

Фишка такого подхода в том что отпадает необходимость искать "руками" соотношение ("важность") тех или иных факторов и их суперпозиций. ...И выкатывать пару раз в год новую формулу.

Функции hi ищутся в виде "кусочно-постоянных" функций. Причем пары ai hi ищутся итеративно путем решения локальной оптимизационной задачи аналогичной исходной, но с фиксированными всеми aj, hj где j<i и с нулевыми aj hj где j>i. Для решения этой задачи используется некий градиентный метод, который у меня вызываети некоторое недоумение:

Обычно градиент используется в каждом шаге для поиска направления шага и его "длины", здесь же, что мне не очень-то понятно, градиент используется лишь для определения размера шага, но не для определения его направления (видимо направление все-таки косвенно определяется, но не строго).

Выводы и домыслы:

1. Количество “реальных” факторов вовсе не “тысячи” и его можно оценить:

Несколько тысяч – это с учетом суперпозиций, а их гораздо больше чем самих факторов. Сделаем допущение о том что нет никакого интереса делать какие-то специфические суперпозиции (разве что какие-то единичные) и вполне можно ограничиться полиномиальными моделями. Причем для разных групп факторов степень полинома может быть разной от 1 до много. Если взять эту степень в среднем 2, то получается что исходных факторов вовсе не тысячи, а всего лишь 50-100.

2. Видимо этот метод ищет не лучшую функцию релевантности для заданной обучающей выборки, а всего лишь “хорошую” – т.е. локальный, а не глобальный минимум.

G00DMAN:
кусочно-постоянная функция(о чем выше уже писал Сергей Людкевич), ее вид еще более не логичный, но он сложен для осмысления не специалистами. Так что не стоит про hk в объяснялке расписывать. Аргументы для hk тоже не простые, что следует из реплики Сегаловича.

А о виде hk где-то можно почитать?

G00DMAN:
Хотя на объяснялку в моей статье про Снежинск эти никак не влияет.

Кстати насчет Вашей объяснялки. Вы там пишите:

G00DMAN:
Из примера видно, что функции немного «странные». В этом и заключается одна из «фишек» метода – в набор функций включают абсолютно дикие экземпляры, важно, что этих функций очень много.

и вот пример о котором идет речь:

F = 3:14*log7(f9(q; d)) + ef66(q;d) + …

Вы чуть выше этого примера (аналогично в презентации ya на которую Вы ссылаетесь) пишите что функция релевантности есть линейная комбинация всех этих f k-ых. А в приведенном примере это не так. Эта путаница из-за двойного использования обозначения fk?

Т.е. я правильно понимаю что в формуле F = a1*f1 + a2*f2 + … + an*fn (приведенной у Вас чуть выше примера кривой функции) f1, f2, ... fn - это то что в дальнейшем в презентации яндекс обозначается как hk - "слабые ученики"? А то что в приведенном примере называется f9 и f66 - это аргументы этих самых hk?

boga@voxnet.ru:
UZPN, что Вы хотите Дымовский - сам продукт системы и не понимает этого.
Обратите внимание, что он принципиально не хочет интересоваться политикой,
он ничего не говорит о гражданах, о правах, он говорит о том, что его обидело начальство.

Продукт конечно, причем любопытный:

Вроде валенок валенком: "граждаНИНЫ", "звОнит" - ошибки через слово, слова связывает с трудом. Свои цели сформулировать не может - то это мысли о тяжелой доле простого милиционера то стремление к романтическим идеалам, сожаления о чести мундира и т.д. Короче простой парень с рабочих окраин рубанул правду матку потому что не мог больше терпеть.

Но при такой безграмотности и простоте какой высокий уровень политической грамотности демонстрирует: знает что политикой принципиально нельзя интересоваться, знает что есть человек, который точно не виноват ни в каких проблемах и что этот человек - "мужик" (знает опять же что хвалить этого человека надо именно так: "мужик", "взялся по мужски - пошли конкретные изменения").

Всего 10 лет прошло, а новую политическую грамоту все уже усвоили:

К гражданскому обществу напрямую обращаться нельзя - только один человек знает что действительно нужно обществу, а что для общества вредно.

Соответственно и апеллировать к обществу может только один человек - тот который знает все его нужды.

А если Вам все-таки что-то нужно от общества то обращайтесь к заведующему общественным мнением, причем обязательно изобразив все надлежащие признаки уважения. Тогда, если повезет, то есть шанс быть услышанным...

boga@voxnet.ru:
Так это одна контора - вертикаль власти называется
А чему тут удивляться то? Удивительно, что они к нему обращаются, то есть к тому, кто эту систему выстроил и поддерживает. Он же директор конторы под названием РФ.

Ответ от одного из первоисточников (http://echo.msk.ru/programs/razvorot-morning/634122-echo/):

А.ТРЕФИЛОВА: Вы считаете, что Владимир Владимирович был не в курсе до вашего выступления, дел, которые происходят в МВД?

А.ДЫМОВСКИЙ: Я думаю, да, наверное. Потому что те генералы, которые предоставляют ему отчеты, они сами повязли в этом. И, как бы, я думаю, именно низ вот этот, самый низ – он не видел.

В.ВАРФОЛОМЕЕВ: Ну вот смотрите, опять же, на сайте безработный из России пишет: «Неужели вы не понимаете, что Путин – один из создателей сложившейся системы правопорядка

А.ДЫМОВСКИЙ: Нет, я не понимаю этого.

А.ТРЕФИЛОВА: Ну а как? Вот эта самая вертикаль власти.

А.ДЫМОВСКИЙ: Нет, вы знаете, вот, когда он пришел к власти, президентом еще будучи, как бы, видно было, что человек пытается что-то сделать, именно по-мужски что-то, какие-то изменения пошли конкретные. Но до нас это не дошло.

Слава Шевцов:
А не должно быть ни того, ни другого.

Насчет "другого" согласен, а насчет "того" не уверен :) :

Общество в целом должно влиять на власть. Т.к. большая часть общества пассивна, то влияет небольшая активная часть. Было бы гораздо лучше, если бы все общество было активным и активно влияло на власть, но к этому невозможно принудить.

pelvis:
Это называется феодализм. А он и не заканчивался у нас. Ни в советские, ни в послеперестроечное время.

Аналогии с феодализмом есть конечно, но все-таки мир развивается и Россия вместе с ним: в новых условиях применяются другие, соответствующие этим условиям, модернизированные схемы паразитирования группы лиц на целом государстве :)

Варкута:
Он воспитывает из и без того обделенных умом ПТУшников фашистских ублюдков и за это гореть ему в аду.

Да шо Вы такое говорите? Ад таки слишком комфортное место для этого человека. Нет не человека, для этого организма!

Я уверен что ВВП именно за это на Лимонова и разгневался. Нет совсем не за то что Лимонов активно критикует Путина, как скажут некоторые странные люди которые не верят нашему ВВП. А именно за размягчение мозга ПТУшникам.

Странно только что "русские марши" не разгоняют, а "марши несогласных" разгоняют... Но тут наверняка есть разумное объяснение и нет повода для волнений. Не стоит над этим задумываться...

pelvis:
Различаются лишь механизмы контроля

Да, причем принципиально: там бизнес влияет на исполнительную и законодательную власть, а здесь исполнительная власть контролирует бизнес :) и законодательную власть

Slavomir:
Может быть сейчас идет не получение ранжирующей функции, а обучение алгоритма ее получения?

На 70-ти проклятых Вами страницах как раз об этом и говорят. В тех местах, где вообще что-то содержательное говорится.

Slavomir:
а итоговый результат увидим только, когда в полную силу заработают все факторы и будет построена окончательная формула ранжирования.

На сколько я понимаю этого Вы теперь не скоро дождетесь. Теперь введение нового алгоритма вовсе не означает введение какой-то новой, окончательной (до следующего изменения алгоритма) формулы. Теперь это всего лишь означает введение нового алгоритма устанавливающего эту формулу на текущий момент...

Всего: 1023