编辑“LLaMA”（章节）

== 模型架构 ==
=== RMSNorm ===
为了提高训练稳定性，LLaMA采用了前置的RMSNorm（Root Mean Square Normalization）。不同于传统的Transformer模型中常用的后置Layer Normalization (LN)，这种归一化方法作用于transformer子层的输入而非输出，有助于模型更好地捕捉长距离依赖关系。
=== RoPE ===
在位置编码方面，LLaMA使用了RoPE（Rotary Positional Embeddings），这是一种旋转式位置编码方式，用于增强模型处理位置信息的能力。
=== SwiGLU ===
LLaMA利用了SwiGLU激活函数，这是受到PaLM启发的一种激活函数，用以替代原始的ReLU，以期提升模型的学习效果。
=== Group Query Attention (GQA) ===
为了处理更长的文本输入，LLaMA使用了分组查询注意力机制，允许模型拥有更长的上下文窗口（达到4096个tokens），并有效减少了整体参数量。
=== MLP结构 ===
在多层感知机（MLP）的设计上，LLaMA采用了down(up(x)) × SiLU(gate(x))的形式，其中down, up, gate均为线性层，这有助于模型学习更复杂的非线性关系。
=== Causal Mask ===
由于采用了因果解码器（causal decoder-only）的Transformer模型结构，LLaMA在自注意力机制中使用了因果掩码（causal mask），确保每个位置只能看到前面的tokens，从而符合自然语言处理中的时序性要求。