Niku の学习记录站

练习时长两年半的Ctrl CV/Ctrl Shift Ins算法工程师(误)。

李宏毅深度学习 2021 作业四 Self-Attention 实验记录

这次作业的信息量突然变得很大,真正想做到 strong baseline 的话避不开去读 transformer , conformer 的论文。并且实现 ppt 里的几点提示:Self-attention pooling,Additive margin softmax,模型改为 conformer。
因此本篇文章用来整理自己从这个作业里学到的一些训练技巧,和调包流程。

0%