Regret Analysis of Stochastic and Nonstochastic Multi-armed Bandit Problems

2019-01-01 · 619 words · 2 minute read

machine learning

bandit · 読書 · Regret Analysis of Stochastic and Nonstochastic Multi-armed Bandit Problems

このページについて

バンディット問題に対するアルゴリズムについてのサーベイ論文であるRegret Analysis of Stochastic and Nonstochastic Multi-armed Bandit Problemsを読んでまとめる．
このページでは概要の全訳と他の投稿のリンクを貼る．

概要の全訳

マルチアームバンディット問題は探索と活用のトレードオフがある最も基本的な次々に意思決定を行う問題である．探索と活用のトレードオフとは過去に最も高い利益を出していた選択肢にとどまり続けるか，将来より高い利益を上げるかもしれない新しい選択肢を探索するかというトレードオフだ．バンディット問題の研究は１９３０年代まで遡るが，探索と活用のトレードオフはいくつかの現代的なアプリケーションの中に現れる．例えば，広告表示やウェブサイトの最適化，パケットルーティングなどである．数学的には，マルチアームバンディットはそれぞれの選択に紐付いた利益が上がる過程によって定義づけられる．本稿ではリグレット解析が部分的にシンプルでエレガントな２つの場合を取り上げる．つまり，利益が独立同分布からもたらされる場合と敵対的にもたらされる場合だ．有限回のたくさんの試行をおこなう基本的な場合に加えて，重要な上記のバンディット問題の亜種や拡張についていくつか解析する．たとえば，コンテキスト付きバンディットのような．