前言
千问3是阿里巴巴最新开源的SOTA的大模型
自己本想节前验证一下.
但是一直没有抽出来时间.
5月份公司的大模型机器有可能到位.
所以想赶紧在公司内先下载一下.
此次Qwen3开源8个模型
MOE架构:Qwen3-235B-A22B、Qwen3-30B-A3B,
Dense架构:Qwen3 0.6B/1.7B/4B/8B/14B/32B),
新版本的Qwen3特性包括:
支持混合思维模式,即推理/非推理一体模型:
多语言支持:支持119种语言和方言
Agent能力提升:加强了编码和Agent表现,并加强了MCP的支持
驱动下载
因为公司要买的是L20的显卡
所以想着先下载一下驱动,避免拿到机器后手足无措
计划是安装银河麒麟, 所以想试试用CentOS8的驱动进行验证.
地址为:
https://www.nvidia.cn/drivers/lookup/
选择好部分内容后进行下载:
https://cn.download.nvidia.cn/tesla/570.133.20/nvidia-driver-local-repo-rhel8-570.133.20-1.0-1.x86_64.rpm
发现 L20有银河麒麟v10的驱动.
https://cn.download.nvidia.cn/tesla/570.133.20/nvidia-driver-local-repo-kylin10-570.133.20-1.0-1.x86_64.rpm
因为机器还没到位, 所以我还不知道有没有效果, 先下载备用着
其他的内容计划先下载拉取到本地
注意后续实验式通过阿里云上面虚拟机进行的.
拉取镜像
使用之前案例过的网站搜索:
渡渡鸟镜像站
https://docker.aityp.com/
使用阿里云的机器 拉取镜像:
docker pull swr.cn-north-4.myhuaweicloud.com/ddn-k8s/docker.io/vllm/vllm-openai:v0.8.5
然后
docker tag swr.cn-north-4.myhuaweicloud.com/ddn-k8s/docker.io/vllm/vllm-openai:v0.8.5 vllm/vllm-openai:v0.8.5
命令
docker rm -f qwen3_0.6b
docker run -d --runtime nvidia --gpus all \
--ipc=host -p 8000:8000 -v root/models:/root/models \
-e "PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:128" \
--name=qwen3_0.6b vllm/vllm-openai:v0.8.5 \
--model root/models/Qwen3-0.6B --trust-remote-code \
--served-model-name Qwen3-0.6B --max_num_seqs 10 \
--tensor-parallel-size 4 --gpu_memory_utilization 0.98 \
--enforce-eager --disable-custom-all-reduce --enable-auto-tool-choice \
--tool-call-parser hermes --compilation-config 0 \
--enable-reasoning --reasoning-parser deepseek_r1 \
--rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":40960}' \
--max-model-len 98304
报错解决
docker: Error response from daemon: could not select device driver "" with capabilities: [[gpu]].
解决方案是按照官方介绍的安装: NVIDIA Container Toolkit
https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html
我用的 龙蜥8.9的方法为:
curl -s -L https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo | \
sudo tee etc/yum.repos.d/nvidia-container-toolkit.repo
sudo dnf install -y nvidia-container-toolkit
需要注意安装成功后需要重启一下 docker
systemctl restart docker
重新启动镜像
docker restart Qwen3-0.6b
docker ps 就可以看到启动成功了
可以通过
docker logs -f Qwen3-0.6b
查看日志
容器参数解释
model : 映射到容器的本地模型所在的目录
served-model-name:模型别名,API等调用时使用
max_num_seqs:最大并发数
gpu_memory_utilization:显存利用率
enable-auto-tool-choice、tool-call-parser:启用tool calling,Qwen系列模型是hermes
enable-reasoning、reasoning-parser:启用推理模式,并设置参考推理为deepseek_r1(截止当前均为deepseek_r1)
rope-scaling:模型默认是40k,外推长度参数
max-model-len:模型支持的上下文长度(Qwen32 B最大支持128k)
来源:https://blog.csdn.net/sunny0121/article/details/147603740
文章转载自济南小老虎,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




