Transformer——台大李宏毅详讲Transformer
创始人
2024-03-21 10:24:48
0

文章目录

    • 李宏毅老师讲Transformer
      • Encoder
      • Decoder
        • Decoder整体逻辑
        • non-autoregressive
        • Decoder中的Cross Attention
      • 训练Seq2seq的一些Tips

老师讲的超级棒,激动哭了:

视频链接:台大李宏毅21年机器学习课程 self-attention和transformer

李宏毅老师讲Transformer

  • Transformer本质就是Seq2seq问题:

在这里插入图片描述

在这里插入图片描述

Encoder

  • 作用:输入一系列向量,输出同样长度的一系列向量,将向量编码到一种机器空间。

在这里插入图片描述

在这里插入图片描述

  • 每一个模块都是Residual的设计;
  • norm:求平均值和标准差,计算归一化。

在这里插入图片描述

在这里插入图片描述

Decoder

在这里插入图片描述

在这里插入图片描述

Decoder整体逻辑

  • 有一个初始vector:BOS,在Decoder可能输出的向量前加一个即可;
  • 输出的向量vector:是对你所有可能结果(如果是英文翻译中文,则是中文词料库所有词)的softmax后分数最高的对应的vector;
  • 然后以此类推。
    在这里插入图片描述

在这里插入图片描述

  • 在Decoder的Masked Self Attention中,每一次输出的vector只和前边已生成的vector进行交互,不能包括还未生成的vector;

在这里插入图片描述

  • 通过预测END符号来表示sequence的结束;

在这里插入图片描述
在这里插入图片描述

non-autoregressive

在这里插入图片描述

  • 优势:并行化,可控制输出长度;
  • 用self attention也可以得到;

在这里插入图片描述

Decoder中的Cross Attention

在这里插入图片描述

  • 通过Cross Entropy计算loss;
    在这里插入图片描述
  • 训练时会给deocder输入正确答案;
    在这里插入图片描述

训练Seq2seq的一些Tips

  • 训练时给Decoder加入一些错误的GT。

相关内容

热门资讯

汽车油箱结构是什么(汽车油箱结... 本篇文章极速百科给大家谈谈汽车油箱结构是什么,以及汽车油箱结构原理图解对应的知识点,希望对各位有所帮...
美国2年期国债收益率上涨15个... 原标题:美国2年期国债收益率上涨15个基点 美国2年期国债收益率上涨15个基...
嵌入式 ADC使用手册完整版 ... 嵌入式 ADC使用手册完整版 (188977万字)💜&#...
重大消息战皇大厅开挂是真的吗... 您好:战皇大厅这款游戏可以开挂,确实是有挂的,需要了解加客服微信【8435338】很多玩家在这款游戏...
盘点十款牵手跑胡子为什么一直... 您好:牵手跑胡子这款游戏可以开挂,确实是有挂的,需要了解加客服微信【8435338】很多玩家在这款游...
senator香烟多少一盒(s... 今天给各位分享senator香烟多少一盒的知识,其中也会对sevebstars香烟进行解释,如果能碰...
终于懂了新荣耀斗牛真的有挂吗... 您好:新荣耀斗牛这款游戏可以开挂,确实是有挂的,需要了解加客服微信8435338】很多玩家在这款游戏...
盘点十款明星麻将到底有没有挂... 您好:明星麻将这款游戏可以开挂,确实是有挂的,需要了解加客服微信【5848499】很多玩家在这款游戏...
总结文章“新道游棋牌有透视挂吗... 您好:新道游棋牌这款游戏可以开挂,确实是有挂的,需要了解加客服微信【7682267】很多玩家在这款游...
终于懂了手机麻将到底有没有挂... 您好:手机麻将这款游戏可以开挂,确实是有挂的,需要了解加客服微信【8435338】很多玩家在这款游戏...