AdaEnsemble: Learning Adaptively Sparse Structured Ensemble Network for Click-Through Rate Prediction
Page content
実験を見て、FMやDCNと大差ないので途中で読むのをやめました。 実務で保守コストを含めて考えると、シンプルなMLPに意味のある特徴量と大量のデータを入れた方がアーキテクチャを複雑にするより性能が良いので・・・
内容
- Sparse MoE (Mixture of Experts)層を提案
- Sparse MoE層を重ねる際に最適な深さを適応的に学習する仕組みを提案
- FMやWide&Deep、DCN v2を上回る性能
- ソースコード:https://github.com/yanyachen/AdaEnsemble