バンディットアルゴリズム

Learning to Bid with AuctionGym

学会: AdKDD 2022 http://papers.adkdd.org/2022/papers/adkdd22-jeunen-learning.pdf 内容 セカンドプライスオークションは強い仮定のもとでは真の価値を入札すれば最適戦略 文脈が与えられた時の期待価値を入札者が知っている 提示された入札額が商品の価値に影響しない 競合の入札者は全員同じ情報にアクセスできる オークションの繰り

Dynamic collaborative filtering Thompson Sampling for cross-domain advertisements recommendation

学会: AdKDD 2022 https://www.adkdd.org/Papers/Dynamic-collaborative-filtering-Thompson-Sampling-for-cross-domain-advertisements-recommendation/2022 内容 色々なドメインの知識を転移させて、推薦システムを作りたい。 トンプソンサンプリングでは自身のアームの結果を用いて Beta(Σclick, Σ(imp - click)) で事後分布を推定する。 提案手法ではユーザのコサイン類似度 S(u, v) を用いて自身以外