编辑“Transformer模型”（章节）

== 模型原理 ==
=== 编码器-解码器结构 ===
编码器和解码器是Transformer模型的核心组成部分。编码器将输入序列转换为一系列连续的表达，这些表达被设计成能够捕捉序列内所有位置的信息。解码器则使用这些表达来生成输出序列。这种结构在机器翻译中尤为重要，例如将一种语言翻译成另一种语言。
=== 多头注意力 ===
多头注意力机制允许模型在不同的表示子空间中捕捉到输入数据的不同方面。每个“头”都是一个注意力机制的实例，但它们的线性变换（即Q、K、V）是不同的。这允许模型并行地学习数据的多个不同特征，并将它们组合起来以形成最终的表达。
=== 位置编码 ===
为了让模型能够理解单词在序列中的相对位置或距离，Transformer引入了位置编码。这是通过给输入的单词嵌入添加一组位置编码来实现的，确保了模型具有某种对单词顺序的感知能力。
=== 层归一化和残差连接 ===
为了稳定训练更深的网络，Transformer在每一层使用了层归一化，并且在每个块的输入和输出间加入了残差连接。层归一化有助于梯度更好地流动，而残差连接防止了梯度消失问题，并允许梯度直接流向任何层次。
=== 掩码 ===
在解码器中，掩码用于防止模型在预测当前位置的输出时看到未来的信息。这种掩码保证了模型的输出仅依赖于已经生成或已知的输出，从而强制模型在每一步都必须根据当前的上下文进行预测。