DeepSeek-V3是由深度求索公司推出的一款具备6710亿参数的专家混合(MoE)大语言模型,而DeepSeek-R1则是基于DeepSeek-V3-Base训练的高性能推理模型。通过阿里云Model Gallery,用户可以轻松利用vLLM或BladeLLM加速部署功能,一键部署DeepSeek-V3及DeepSeek-R1系列模型。
阿里云官网:点击访问
一、阿里云支持的模型列表
注意:
- DeepSeek-R1、DeepSeek-V3满血版模型的参数量较大(671B),所需配置和成本较高(8卡96G显存以上)。建议您选择蒸馏版模型(机器资源较充足、部署成本较低);
- 根据测试,DeepSeek-R1-Distill-Qwen-32B模型的效果和成本较优,适合云上部署,可尝试作为DeepSeek-R1的替代模型。您也可以选择7B、8B、14B等其他蒸馏模型部署,Model Gallery还提供了模型评测功能,可以评测模型实际效果(评测入口在模型详情页右上角)。
表中给出的是最低所需配置机型,在Model Gallery的部署页面的资源规格选择列表中系统已自动过滤出模型可用的公共资源规格。
模型 |
最低配置 |
支持的最大Token数 |
|||
部署方式为BladeLLM加速(推荐) |
部署方式为SGLang加速(推荐) |
部署方式为vLLM加速 |
部署方式为标准部署 |
||
DeepSeek-R1 |
8卡GU120(8 * 96 GB显存) |
不支持 |
163840 |
4096 |
不支持 |
DeepSeek-V3 |
8卡GU120(8 * 96 GB显存) |
不支持 |
163840 |
4096 |
2000 |
DeepSeek-R1-Distill-Qwen-1.5B |
1卡A10(24 GB显存) |
131072 |
不支持 |
131072 |
131072 |
DeepSeek-R1-Distill-Qwen-7B |
1卡A10(24 GB显存) |
131072 |
不支持 |
32768 |
131072 |
DeepSeek-R1-Distill-Llama-8B |
1卡A10(24 GB显存) |
131072 |
不支持 |
32768 |
131072 |
DeepSeek-R1-Distill-Qwen-14B |
1卡GPU L(48 GB显存) |
131072 |
不支持 |
32768 |
131072 |
DeepSeek-R1-Distill-Qwen-32B |
2卡GPU L(2 * 48 GB显存) |
131072 |
不支持 |
32768 |
131072 |
DeepSeek-R1-Distill-Llama-70B |
2卡GU120(2 * 96 GB显存) |
131072 |
不支持 |
32768 |
131072 |
部署方式说明:
- BladeLLM 加速部署:BladeLLM 是阿里云 PAI 自研的高性能推理框架;
- SGLang 加速部署:SGLang 是一个适用于大型语言模型和视觉语言模型的快速服务框架;
- vLLM 加速部署:vLLM 是一个业界流行的用于LLM推理加速的库;
- 标准部署:不使用任何推理加速的标准部署;
推荐使用加速部署(BladeLLM、SGLang),性能和支持的最大Token数都会更优。加速部署仅支持API调用方式,标准部署支持API调用方式及WebUI chat界面。
二、部署模型
1、进入Model Gallery页面。
- 登录PAI控制台;
- 在顶部左上角根据实际情况选择地域;
- 在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间;
- 在左侧导航栏选择快速开始 > Model Gallery。
2、在Model Gallery页面右侧的模型列表中,找到需要部署的模型卡片,例如DeepSeek-R1-Distill-Qwen-32B模型,单击进入模型详情页面。
3、单击右上角部署,选择部署方式和部署资源后,即可一键部署,生成一个 PAI-EAS 服务。
说明:对于DeepSeek-R1、DeepSeek-V3的部署,除了公共资源组中的ml.gu8v.c192m1024.8-gu120、ecs.gn8v-8x.48xlarge机型(库存可能较紧张)外,ecs.ebmgn8v.48xlarge机型也可以使用,但请注意该机型无法通过公共资源使用,请购买EAS专属资源 。
三、使用推理服务
部署成功后,在服务页面单击查看调用信息获取调用的 Endpoint 和 Token。
不同部署方式支持的服务调用方式不同,您可以在Model Gallery的模型介绍页查看详细说明。
|
BladeLLM部署 |
SGLang部署 |
vLLM部署 |
标准部署 |
WebUI |
不支持。可下载Web UI代码,在本地启动一个Web UI。注意:BladeLLM和vLLM的Web UI代码不同。
|
支持 |
||
在线调试 |
支持。您可以在任务管理–部署任务选择部署任务进入详情页找到在线调试的入口。 |
|||
API调用 |
completions 接口:<EAS_ENDPOINT>/v1/completions chat 接口: <EAS_ENDPOINT>/v1/chat/completions |
API 描述文件:<EAS_ENDPOINT>/openapi.json 模型列表:<EAS_ENDPOINT>/v1/models completions 接口: <EAS_ENDPOINT>/v1/completions chat 接口:<EAS_ENDPOINT>/v1/chat/completions |
<EAS_ENDPOINT> |
|
兼容OpenAI SDK |
不兼容 |
兼容 |
兼容 |
不兼容 |
请求数据格式 |
completions与chat请求数据格式不一样。 |
相比BladeLLM,需要增加model参数。model参数的值可通过模型列表接口‘<EAS_ENDPOINT>/v1/models’获取。 |
支持字符串和JSON类型。 |
1、BladeLLM加速部署
Completions请求数据:
{"prompt":"hello world", "stream":"true"}
chat请求数据:
{ "messages": [ { "role": "system", "content": "You are a helpful assistant." }, { "role": "user", "content": "Hello World!!" } ] }
2、SGLang/vLLM加速部署
以下示例中,<model_name>请替换为模型列表接口'<EAS_ENDPOINT>/v1/models’ API获取的模型名称。
Completions请求数据:
{"model": "<model_name>", "prompt":"hello world"}
chat请求数据: { "model": "<model_name>", "messages": [ { "role": "system", "content": "You are a helpful assistant." }, { "role": "user", "content": "Hello!" } ] }
3、标准部署
String类型 hello world
JSON类型
{ "max_new_tokens": 4096, "use_stream_chat": false, "prompt": "What is the capital of Canada?", "system_prompt": "Act like you are a knowledgeable assistant who can provide information on geography and related topics.", "history": [ [ "Can you tell me what's the capital of France?", "The capital of France is Paris." ] ], "temperature": 0.8, "top_k": 10, "top_p": 0.8, "do_sample": true, "use_cache": true }
如果是标准部署,支持Web应用。在PAI-Model Gallery > 任务管理 > 部署任务中单击已部署的服务名称,在服务详情页面右上角单击查看WEB应用,即可通过ChatLLM WebUI进行实时交互。
四、关于成本
由于DeepSeek-V3和DeepSeek-R1模型较大,模型部署费用较高,建议用于正式生产环境。
您还可以选择部署经过知识蒸馏的轻量级模型,这些模型的参数量显著减少,从而大幅降低部署成本。
如果您从未使用过EAS,可以前往阿里云试用中心领取PAI-EAS试用资源。领取成功后,可以在Model Gallery选择最低配置为 A10 的模型(如DeepSeek-R1-Distill-Qwen-7B)进行部署,并在部署时修改资源规格为试用活动中的机型。
对于长期使用的模型,您可以采用公共资源组搭配节省计划的方式,或者购买预付费EAS资源组来节约成本。
如果是非生产环境使用,可以在部署时打开竞价模式,但需满足一定条件才能竞价成功,且有资源不稳定的风险。
-
广告合作
-
QQ群号:707632017