阿里云一键部署DeepSeek-V3、DeepSeek-R1模型

DeepSeek-V3是由深度求索公司推出的一款具备6710亿参数的专家混合（MoE）大语言模型，而DeepSeek-R1则是基于DeepSeek-V3-Base训练的高性能推理模型。通过阿里云Model Gallery，用户可以轻松利用vLLM或BladeLLM加速部署功能，一键部署DeepSeek-V3及DeepSeek-R1系列模型。

阿里云官网：点击访问

一、阿里云支持的模型列表

注意：

DeepSeek-R1、DeepSeek-V3满血版模型的参数量较大（671B），所需配置和成本较高（8卡96G显存以上）。建议您选择蒸馏版模型（机器资源较充足、部署成本较低）;
根据测试，DeepSeek-R1-Distill-Qwen-32B模型的效果和成本较优，适合云上部署，可尝试作为DeepSeek-R1的替代模型。您也可以选择7B、8B、14B等其他蒸馏模型部署，Model Gallery还提供了模型评测功能，可以评测模型实际效果（评测入口在模型详情页右上角）。

表中给出的是最低所需配置机型，在Model Gallery的部署页面的资源规格选择列表中系统已自动过滤出模型可用的公共资源规格。

模型	最低配置	支持的最大Token数
模型	最低配置	部署方式为BladeLLM加速（推荐）	部署方式为SGLang加速（推荐）	部署方式为vLLM加速	部署方式为标准部署
DeepSeek-R1	8卡GU120（8 * 96 GB显存）	不支持	163840	4096	不支持
DeepSeek-V3	8卡GU120（8 * 96 GB显存）	不支持	163840	4096	2000
DeepSeek-R1-Distill-Qwen-1.5B	1卡A10（24 GB显存）	131072	不支持	131072	131072
DeepSeek-R1-Distill-Qwen-7B	1卡A10（24 GB显存）	131072	不支持	32768	131072
DeepSeek-R1-Distill-Llama-8B	1卡A10（24 GB显存）	131072	不支持	32768	131072
DeepSeek-R1-Distill-Qwen-14B	1卡GPU L（48 GB显存）	131072	不支持	32768	131072
DeepSeek-R1-Distill-Qwen-32B	2卡GPU L（2 * 48 GB显存）	131072	不支持	32768	131072
DeepSeek-R1-Distill-Llama-70B	2卡GU120（2 * 96 GB显存）	131072	不支持	32768	131072

部署方式说明：

BladeLLM 加速部署：BladeLLM 是阿里云 PAI 自研的高性能推理框架；
SGLang 加速部署：SGLang 是一个适用于大型语言模型和视觉语言模型的快速服务框架；
vLLM 加速部署：vLLM 是一个业界流行的用于LLM推理加速的库；
标准部署：不使用任何推理加速的标准部署；

推荐使用加速部署（BladeLLM、SGLang），性能和支持的最大Token数都会更优。加速部署仅支持API调用方式，标准部署支持API调用方式及WebUI chat界面。

二、部署模型

1、进入Model Gallery页面。

登录PAI控制台；
在顶部左上角根据实际情况选择地域；
在左侧导航栏选择工作空间列表，单击指定工作空间名称，进入对应工作空间；
在左侧导航栏选择快速开始 > Model Gallery。

2、在Model Gallery页面右侧的模型列表中，找到需要部署的模型卡片，例如DeepSeek-R1-Distill-Qwen-32B模型，单击进入模型详情页面。

3、单击右上角部署，选择部署方式和部署资源后，即可一键部署，生成一个 PAI-EAS 服务。

说明：对于DeepSeek-R1、DeepSeek-V3的部署，除了公共资源组中的ml.gu8v.c192m1024.8-gu120、ecs.gn8v-8x.48xlarge机型（库存可能较紧张）外，ecs.ebmgn8v.48xlarge机型也可以使用，但请注意该机型无法通过公共资源使用，请购买EAS专属资源。

三、使用推理服务

部署成功后，在服务页面单击查看调用信息获取调用的 Endpoint 和 Token。

不同部署方式支持的服务调用方式不同，您可以在Model Gallery的模型介绍页查看详细说明。

	BladeLLM部署	SGLang部署	vLLM部署	标准部署
WebUI	不支持。可下载Web UI代码，在本地启动一个Web UI。注意：BladeLLM和vLLM的Web UI代码不同。 BladeLLM：BladeLLM_github、 BladeLLM_oss vLLM、SGLang：vLLM_github、vLLM_oss `python webui_client.py --eas_endpoint "<EAS API Endpoint>" --eas_token "<EAS API Token>"`			支持
在线调试	支持。您可以在任务管理–部署任务选择部署任务进入详情页找到在线调试的入口。
API调用	completions 接口：<EAS_ENDPOINT>/v1/completions chat 接口： <EAS_ENDPOINT>/v1/chat/completions	API 描述文件：<EAS_ENDPOINT>/openapi.json 模型列表：<EAS_ENDPOINT>/v1/models completions 接口： <EAS_ENDPOINT>/v1/completions chat 接口：<EAS_ENDPOINT>/v1/chat/completions		<EAS_ENDPOINT>
兼容OpenAI SDK	不兼容	兼容	兼容	不兼容
请求数据格式	completions与chat请求数据格式不一样。	相比BladeLLM，需要增加model参数。model参数的值可通过模型列表接口‘<EAS_ENDPOINT>/v1/models’获取。		支持字符串和JSON类型。

单击查看请求数据示例

1、BladeLLM加速部署

Completions请求数据：

{"prompt":"hello world", "stream":"true"}

chat请求数据：

{
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "Hello World!!"
}
]
}

2、SGLang/vLLM加速部署

以下示例中，<model_name>请替换为模型列表接口'<EAS_ENDPOINT>/v1/models’ API获取的模型名称。

Completions请求数据：

{"model": "<model_name>", "prompt":"hello world"}

chat请求数据：

{
"model": "<model_name>",
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "Hello!"
}
]
}

3、标准部署

String类型

hello world

JSON类型

{
"max_new_tokens": 4096,
"use_stream_chat": false,
"prompt": "What is the capital of Canada?",
"system_prompt": "Act like you are a knowledgeable assistant who can provide information on geography and related topics.",
"history": [
[
"Can you tell me what's the capital of France?",
"The capital of France is Paris."
]
],
"temperature": 0.8,
"top_k": 10,
"top_p": 0.8,
"do_sample": true,
"use_cache": true
}