编辑“Llama3”

Llama3是科技、社交巨头[[Meta]]于2024年4月发布的一款[[开源]]大模型。据悉，Llama3共有80亿、700亿两种参数，分为基础预训练和指令微调两种模型，使用了15T tokens的训练[[数据]]，在推理、数学、代码生成、指令跟踪等能力获得大幅度提升。同时，Llama3还使用了分组查询注意力、掩码等创新技术，帮助开发者以最低的能耗获取绝佳的性能。
== Llama3特点 ==
=== Transformer架构 ===
Llama3采用了纯解码器Transformer架构，这是一种处理序列数据的技术，能够捕获输入序列中每个元素之间的重要关系。
=== 技术创新 ===
Llama3采用了分组查询注意力（Grouped QA）机制和掩码技术，这些技术有助于提高模型的性能，同时降低能耗。

为了确保模型不会跨越文档边界，通常会与掩码技术一起使用。在自我注意力中，掩码被应用于注意力权重矩阵，用于指示哪些位置的信息是有效的，哪些位置应该被忽略。通常当处理文档边界时，可以使用两种类型的掩码来确保自我注意力不会跨越边界：

1、填充掩码：当输入序列的长度不一致时，通常会对较短的序列进行填充，使其与最长序列的长度相等。填充掩码用于标记填充的位置，将填充的部分掩盖，使模型在自我注意力计算中忽略这些位置。

2、未来掩码：在序列生成任务中，为了避免模型在生成当前位置的输出时依赖后续位置的信息，可以使用未来掩码。未来掩码将当前位置之后的位置都掩盖起来，使得自我注意力只能关注当前或之前的位置。

=== 参数规模 ===
Llama3提供了两种参数规模的模型，分别是80亿参数（8B）和700亿参数（70B）。其中，8B版本适合在消费级[[GPU]]上高效部署和开发，而70B版本则专为大规模[[AI]]应用设计。
=== 预训练与微调 ===
每个版本都包括基础预训练和指令微调两种形式，这使得模型能够更好地适应不同的应用场景和需求。
=== 性能提升 ===
Llama3在超过15万亿tokens的公开数据集上进行了预训练，这比前代模型Llama 2的训练数据量有显著增加，从而在多个领域，如推理、数学、[[代码]]生成、指令跟踪等方面的能力获得了大幅度提升。
=== 多语言支持 ===
为了实现多语言能力，Llama 3的预训练数据集中包含了超过5%的高质量非英语数据，涵盖了30多种语言，这有助于模型处理更广泛的语言任务。
=== 安全性增强 ===
基于Llama 3 8B微调后的Llama Guard新版本也已发布，即Llama Guard 2（安全微调版本），这标志着模型在安全性方面的进步。
=== 开放性与集成 ===
Llama3的发布体现了Meta对开放AI领域的持续投入，并且与Hugging Face生态系统实现了深度集成，这有助于推动AI技术的普及和应用。
== Llama3测试数据 ==
为了测试Llama3的性能，Meta开发了一个全新的高质量人类评估数据集，有1,800个提示，涵盖12个关键用例，包含，征求建议，头脑风暴，分类，封闭式问题回答，编码，推理等。

测试结果显示，Llama3 -700亿参数的指令微调模型的性能，大幅度超过了Claude Sonnet、Mistral Medium和GPT-3.5。

Meta还在MMLU、AGIEval、BIG、ARC等知名测试平台中，对Llama3 -700亿参数基础预训练模型进行了综合测试，性能大幅度超过了Mistral 7B、Gemma 7B、[[Gemini]] Pro 1.0等知名开源模型。
== 发展历程 ==
* 2024年4月18日，Meta在官网上宣布公布了旗下最新大模型Llama 3。
* 2024年4月19日，百度智能云千帆大模型平台在国内首家推出针对Llama 3全系列版本的训练推理方案，便于开发者进行再训练，搭建专属大模型。
* 2024年4月22日，[[阿里云]]百炼大模型服务平台宣布在国内推出针对Llama 3系列的限时免费训练、部署、推理服务。
== 相关条目 ==
* [[ChatGPT]]
* [[PaLM_2]]
* [[ChatGLM-6B]]
* [[Gemini]]
* [[Claude]]
* [[LLaMA]]
[[category:AI大模型|L]]