В кулуарах Киб Риф: сотрудник Яндекса об оптимизаторах

wolf
На сайте с 13.03.2001
Offline
1183
#131
Zlyden:
Мало, если есть более прогрессивные методы.

А это и есть самые прогрессивные методы. В IR сейчас рулит boosting, однако. Хотя, на горизонте вроде как маячит стохастический градиентный спуск

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
[Удален]
#132
wolf:
А это и есть самые прогрессивные методы. В IR сейчас рулит boosting, однако.

Нет, ИНС более прогрессивен, т.к. позволяет гораздо эффективнее отсеивать "шум", бустинг этого не позволяет, это его недостаток.

источник алгоритм AdaBoost

Достоинства

* Хорошая обобщающая способность. В реальных задачах (не всегда, но часто) удаётся строить композиции, превосходящие по качеству базовые алгоритмы. Обобщающая способность может улучшаться (в некоторых задачах) по мере увеличения числа базовых алгоритмов.
* Простота реализации.
* Собственные накладные расходы бустинга невелики. Время построения композиции практически полностью определяется временем обучения базовых алгоритмов.
* Возможность идентифицировать объекты, являющиеся шумовыми выбросами.

Недостатки

* AdaBoost склонен к переобучению при наличии значительного уровня шума в данных. Экспоненциальная функция потерь слишком сильно увеличивает веса наиболее трудных объектов, на которых ошибаются многие базовые алгоритмы. Однако именно эти объекты чаще всего оказываются шумовыми выбросами. В результате AdaBoost начинает настраиваться на шум, что ведёт к переобучению. Проблема решается путём удаления выбросов или применения менее агрессивных функций потерь.
* AdaBoost требует достаточно длинных обучающих выборок. Другие методы линейной коррекции, в частности, бэггинг, способны строить алгоритмы сопоставимого качества по меньшим выборкам данных.
* Жадная стратегия последовательного добавления приводит к построению неоптимального набора базовых алгоритмов. Для улучшения композиции можно периодически возвращаться к ранее построенным алгоритмам и обучать их заново. Для улучшения коэффициентов можно оптимизировать их ещё раз по окончании процесса бустинга с помощью какого-нибудь стандартного метода построения линейной разделяющей поверхности. Рекомендуется использовать для этой цели SVM (машины опорных векторов).
* Бустинг может приводить к построению громоздких композиций, состоящих из сотен алгоритмов. Такие композиции исключают возможность содержательной интерпретации, требуют больших объёмов памяти для хранения базовых алгоритмов и существенных затрат времени на вычисление классификаций.

Красным выделено мной.

Плюс ручное (СУБЪЕКТИВНОЕ) управление алгоритмом. Мое мнение.

По признанию Садовского, естественных ссылок меньше чем покупных (читай "шума"), этот алгоритм ВСЕГДА будет в этой его части анализа данных ориентирован на "шум".

Zlyden добавил 03.05.2010 в 13:51

wolf:
стохастический градиентный спуск

Это метод для обучения внутри алгоритма, а не алгоритм, в ИНС также используется.

wolf
На сайте с 13.03.2001
Offline
1183
#133

Zlyden, Вы хотя бы ссылки на источник цитат приводили... А по нейронным сетям красным выделить нечего? Сплошной позитив? :) Если, к примеру, у них нет вот этого достоинства:

Zlyden:
Простота реализации

, то заниматься ими можно только теоретически :)

[Удален]
#134
wolf:
Zlyden, Вы хотя бы ссылки на источник цитат приводили... А по нейронным сетям красным выделить нечего? Сплошной позитив? :) Если, к примеру, у них нет вот этого достоинства:
, то заниматься ими можно только теоретически :)

Источник цитаты вставил, это нужно, видимо, для тех кто пользуется Яндексом 🚬, а для остальных и поГУГЛИТЬ можно:).

Простые пути не всегда самые лучшие, к сожалению не могу оценить что сложнее, помучиться с созданием системы и потом изредка корректировать, или быстро слепить и потом непрерывно подкручивать "болты и гайки", хотя яркий и понятный пример из жизни привести можно, вот возьмем "жигули" и ..... В общем всем все ясно.🚬 снежинск быстро ввели но отладить до сих пор не могут, может лучше это время было потратить на создание более эффективного алгоритма?

Мы перешли в пустой и бесполезный спор, каждый останется при своем, поэтому бог с ним, с Яндексом, проведите хорошо этот праздничный день.

[Удален]
#135

Это типа новая трактовка фразы "алгоритм яндекса дерьмо"?

wolf
На сайте с 13.03.2001
Offline
1183
#136
Zlyden:
Источник цитаты вставил, это нужно, видимо, для тех кто пользуется Яндексом , а для остальных и поГУГЛИТЬ можно.

Вопрос элементарной порядочности. Если что-то цитируешь - будь добр указать источник, а не отсылать собеседников искать его.

wolf
На сайте с 13.03.2001
Offline
1183
#137
Zlyden:
к сожалению не могу оценить что сложнее

Вот когда сможете, тогда и будете учить Яндекс, чтобы Вы делали на его месте :)

[Удален]
#138
Miha Kuzmin (KMY):
Это типа новая трактовка фразы "алгоритм яндекса дерьмо"?

Я так конечно не говорил, но в моей теме есть ряд сайтов в топ 10 которые для меня являются показателем что "не все в порядке в Датском королевстве".

[Удален]
#139

Zlyden, а в моих тема их даже больше. Уроды конкуренты. Всех гнать из топа поганой метлой и сцаными тряпками.

[Удален]
#140
wolf:
Вот когда сможете, тогда и будете учить Яндекс, чтобы Вы делали на его месте :)

Не люблю агрессию которая явно сквозит в ваших словах, вы поучите Эффектор правильно работать, тогда, там работы не початый край🚬

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий