编辑“Llama3”（章节）

=== 技术创新 ===
Llama3采用了分组查询注意力（Grouped QA）机制和掩码技术，这些技术有助于提高模型的性能，同时降低能耗。

为了确保模型不会跨越文档边界，通常会与掩码技术一起使用。在自我注意力中，掩码被应用于注意力权重矩阵，用于指示哪些位置的信息是有效的，哪些位置应该被忽略。通常当处理文档边界时，可以使用两种类型的掩码来确保自我注意力不会跨越边界：

1、填充掩码：当输入序列的长度不一致时，通常会对较短的序列进行填充，使其与最长序列的长度相等。填充掩码用于标记填充的位置，将填充的部分掩盖，使模型在自我注意力计算中忽略这些位置。

2、未来掩码：在序列生成任务中，为了避免模型在生成当前位置的输出时依赖后续位置的信息，可以使用未来掩码。未来掩码将当前位置之后的位置都掩盖起来，使得自我注意力只能关注当前或之前的位置。