容器运行千问3的快速方法

济南小老虎 2025-05-06

415

前言

千问3是阿里巴巴最新开源的SOTA的大模型
自己本想节前验证一下.
但是一直没有抽出来时间.
5月份公司的大模型机器有可能到位.
所以想赶紧在公司内先下载一下. 

此次Qwen3开源8个模型
MOE架构：Qwen3-235B-A22B、Qwen3-30B-A3B，
Dense架构：Qwen3 0.6B/1.7B/4B/8B/14B/32B），

新版本的Qwen3特性包括：
支持混合思维模式，即推理/非推理一体模型：
多语言支持：支持119种语言和方言
Agent能力提升：加强了编码和Agent表现，并加强了MCP的支持

驱动下载

因为公司要买的是L20的显卡
所以想着先下载一下驱动,避免拿到机器后手足无措

计划是安装银河麒麟, 所以想试试用CentOS8的驱动进行验证.
地址为: 
https://www.nvidia.cn/drivers/lookup/

选择好部分内容后进行下载: 
https://cn.download.nvidia.cn/tesla/570.133.20/nvidia-driver-local-repo-rhel8-570.133.20-1.0-1.x86_64.rpm

发现 L20有银河麒麟v10的驱动. 
https://cn.download.nvidia.cn/tesla/570.133.20/nvidia-driver-local-repo-kylin10-570.133.20-1.0-1.x86_64.rpm

因为机器还没到位, 所以我还不知道有没有效果, 先下载备用着
其他的内容计划先下载拉取到本地

注意后续实验式通过阿里云上面虚拟机进行的.

拉取镜像

使用之前案例过的网站搜索: 
渡渡鸟镜像站
https://docker.aityp.com/
使用阿里云的机器 拉取镜像: 
docker pull swr.cn-north-4.myhuaweicloud.com/ddn-k8s/docker.io/vllm/vllm-openai:v0.8.5
然后 
docker tag swr.cn-north-4.myhuaweicloud.com/ddn-k8s/docker.io/vllm/vllm-openai:v0.8.5  vllm/vllm-openai:v0.8.5

命令

docker rm -f qwen3_0.6b
docker run -d --runtime nvidia --gpus all \
--ipc=host -p 8000:8000 -v root/models:/root/models \
-e "PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:128" \
--name=qwen3_0.6b vllm/vllm-openai:v0.8.5 \
--model root/models/Qwen3-0.6B --trust-remote-code \
--served-model-name Qwen3-0.6B --max_num_seqs 10 \
--tensor-parallel-size 4 --gpu_memory_utilization 0.98  \
--enforce-eager --disable-custom-all-reduce --enable-auto-tool-choice \
--tool-call-parser hermes --compilation-config 0 \
--enable-reasoning --reasoning-parser deepseek_r1 \
--rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":40960}' \
--max-model-len 98304

报错解决

docker: Error response from daemon: could not select device driver "" with capabilities: [[gpu]].

解决方案是按照官方介绍的安装: NVIDIA Container Toolkit
https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html

我用的 龙蜥8.9的方法为: 
curl -s -L https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo | \
  sudo tee etc/yum.repos.d/nvidia-container-toolkit.repo

sudo dnf install -y nvidia-container-toolkit

需要注意安装成功后需要重启一下 docker 
systemctl restart docker

重新启动镜像

docker restart Qwen3-0.6b
docker ps 就可以看到启动成功了

可以通过 
docker logs -f Qwen3-0.6b
查看日志

容器参数解释

model : 映射到容器的本地模型所在的目录
served-model-name：模型别名，API等调用时使用
max_num_seqs：最大并发数
gpu_memory_utilization：显存利用率
enable-auto-tool-choice、tool-call-parser：启用tool calling,Qwen系列模型是hermes
enable-reasoning、reasoning-parser：启用推理模式，并设置参考推理为deepseek_r1（截止当前均为deepseek_r1）
rope-scaling：模型默认是40k，外推长度参数
max-model-len：模型支持的上下文长度（Qwen32 B最大支持128k）
来源：https://blog.csdn.net/sunny0121/article/details/147603740

文章转载自济南小老虎，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

容器运行千问3的快速方法

前言

驱动下载

拉取镜像

命令

报错解决

重新启动镜像

容器参数解释

评论