内容
- Youtubeのビデオ広告の審査をマルチモーダルのDNNでやった
- 正解ラベルは人手でつけたbad ads rate
- 広告タイトルと説明をBERTに入れた
- 動画を60フレームサンプリングして、ResNetに入れた
- 文字列特徴量と画像特徴量をいつマージするかで、Early Fusion、Mid Fusion、Late Fusionを試したら、Mid Fusionが良かった。
- Early Fusion: 各特徴量をすぐにconcatenateしてAverage Pooling
- Mid Fusion: 各特徴量ごとにSelf-Attension Layerを何層か噛ませてからConcatenateして、Co-Attension Layerを何層か噛ませてAverage Pooling
- Late Fusion: 各特徴量ごとにSelf-Attension Layerを何層か噛ませてからAverage Pooling