站长百科 | 数字化技能提升教程 数字化时代生存宝典
首页
数字化百科
电子书
▼
建站程序
开发
服务器
办公软件
开发教程
▼
服务器教程
软件使用教程
运营教程
热门电子书
▼
CSS教程
WordPress教程
导航
程序频道
推广频道
网赚频道
人物频道
网站程序
网页制作
云计算
服务器
CMS
论坛
网店
虚拟主机
cPanel
网址导航
WIKI使用导航
WIKI首页
热点词条
最新资讯
网站程序
站长人物
页面分类
使用帮助
编辑测试
创建条目
网站地图
站长百科导航
站长百科
主机侦探
IDCtalk云说
跨境电商导航
WordPress啦
站长专题
网站推广
网站程序
网站赚钱
虚拟主机
cPanel
网址导航专题
云计算
微博营销
虚拟主机管理系统
开放平台
WIKI程序与应用
美国十大主机
编辑“
Llama3
”
人物百科
|
营销百科
|
网赚百科
|
站长工具
|
网站程序
|
域名主机
|
互联网公司
|
分类索引
跳转至:
导航
、
搜索
警告:
您没有登录。如果您做出任意编辑,您的IP地址将会公开可见。如果您
登录
或
创建
一个账户,您的编辑将归属于您的用户名,且将享受其他好处。
反垃圾检查。
不要
加入这个!
Llama3是科技、社交巨头[[Meta]]于2024年4月发布的一款[[开源]]大模型。据悉,Llama3共有80亿、700亿两种参数,分为基础预训练和指令微调两种模型,使用了15T tokens的训练[[数据]],在推理、数学、代码生成、指令跟踪等能力获得大幅度提升。同时,Llama3还使用了分组查询注意力、掩码等创新技术,帮助开发者以最低的能耗获取绝佳的性能。 == Llama3特点 == === Transformer架构 === Llama3采用了纯解码器Transformer架构,这是一种处理序列数据的技术,能够捕获输入序列中每个元素之间的重要关系。 === 技术创新 === Llama3采用了分组查询注意力(Grouped QA)机制和掩码技术,这些技术有助于提高模型的性能,同时降低能耗。 为了确保模型不会跨越文档边界,通常会与掩码技术一起使用。在自我注意力中,掩码被应用于注意力权重矩阵,用于指示哪些位置的信息是有效的,哪些位置应该被忽略。通常当处理文档边界时,可以使用两种类型的掩码来确保自我注意力不会跨越边界: 1、填充掩码:当输入序列的长度不一致时,通常会对较短的序列进行填充,使其与最长序列的长度相等。填充掩码用于标记填充的位置,将填充的部分掩盖,使模型在自我注意力计算中忽略这些位置。 2、未来掩码:在序列生成任务中,为了避免模型在生成当前位置的输出时依赖后续位置的信息,可以使用未来掩码。未来掩码将当前位置之后的位置都掩盖起来,使得自我注意力只能关注当前或之前的位置。 === 参数规模 === Llama3提供了两种参数规模的模型,分别是80亿参数(8B)和700亿参数(70B)。其中,8B版本适合在消费级[[GPU]]上高效部署和开发,而70B版本则专为大规模[[AI]]应用设计。 === 预训练与微调 === 每个版本都包括基础预训练和指令微调两种形式,这使得模型能够更好地适应不同的应用场景和需求。 === 性能提升 === Llama3在超过15万亿tokens的公开数据集上进行了预训练,这比前代模型Llama 2的训练数据量有显著增加,从而在多个领域,如推理、数学、[[代码]]生成、指令跟踪等方面的能力获得了大幅度提升。 === 多语言支持 === 为了实现多语言能力,Llama 3的预训练数据集中包含了超过5%的高质量非英语数据,涵盖了30多种语言,这有助于模型处理更广泛的语言任务。 === 安全性增强 === 基于Llama 3 8B微调后的Llama Guard新版本也已发布,即Llama Guard 2(安全微调版本),这标志着模型在安全性方面的进步。 === 开放性与集成 === Llama3的发布体现了Meta对开放AI领域的持续投入,并且与Hugging Face生态系统实现了深度集成,这有助于推动AI技术的普及和应用。 == Llama3测试数据 == 为了测试Llama3的性能,Meta开发了一个全新的高质量人类评估数据集,有1,800个提示,涵盖12个关键用例,包含,征求建议,头脑风暴,分类,封闭式问题回答,编码,推理等。 测试结果显示,Llama3 -700亿参数的指令微调模型的性能,大幅度超过了Claude Sonnet、Mistral Medium和GPT-3.5。 Meta还在MMLU、AGIEval、BIG、ARC等知名测试平台中,对Llama3 -700亿参数基础预训练模型进行了综合测试,性能大幅度超过了Mistral 7B、Gemma 7B、[[Gemini]] Pro 1.0等知名开源模型。 == 发展历程 == * 2024年4月18日,Meta在官网上宣布公布了旗下最新大模型Llama 3。 * 2024年4月19日,百度智能云千帆大模型平台在国内首家推出针对Llama 3全系列版本的训练推理方案,便于开发者进行再训练,搭建专属大模型。 * 2024年4月22日,[[阿里云]]百炼大模型服务平台宣布在国内推出针对Llama 3系列的限时免费训练、部署、推理服务。 == 相关条目 == * [[ChatGPT]] * [[PaLM_2]] * [[ChatGLM-6B]] * [[Gemini]] * [[Claude]] * [[LLaMA]] [[category:AI大模型|L]]
摘要:
请注意,您对站长百科的所有贡献都可能被其他贡献者编辑,修改或删除。如果您不希望您的文字被任意修改和再散布,请不要提交。
您同时也要向我们保证您所提交的内容是您自己所作,或得自一个不受版权保护或相似自由的来源(参阅
Wordpress-mediawiki:版权
的细节)。
未经许可,请勿提交受版权保护的作品!
取消
编辑帮助
(在新窗口中打开)