使用Llama.cpp部署DeepSeek-R1-Distill-Qwen-14B-GGUF模型

IT那活儿 2025-07-07

1915

点击上方“IT那活儿”公众号--专注于企业全栈运维技术分享，不管IT什么活儿，干就完了！！！

一

模型简介

DeepSeek-R1-Distill-Qwen-14B-GGUF是由深度求索公司开发的开源大语言模型，基于Qwen架构的蒸馏版本，通过量化技术（GGUF格式）降低了计算资源需求，同时保留了较高的推理性能。

该模型支持商业用途，擅长文本生成、代码解释、逻辑推理等任务，其14B参数规模在本地部署中平衡了性能与资源消耗。

关键特性：

- **高效推理**
相比原版模型，GGUF量化版显存占用减少约40%，12-16GB显存即可流畅运行；
- **多场景适配**
支持中英文混合输入，输出质量接近ChatGPT 3.5水平；
- **开源生态**
可通过Hugging Face、魔塔社区等平台获取模型文件。

二

环境准备

2.1 硬件要求

组件	最低配置	推荐配置
CPU	Intel i7-10代 / AMD Ryzen 5 3600	Intel i9-13代 / AMD Ryzen 9 7900X
内存	32GB DDR4	64GB DDR5
显卡	NVIDIA RTX 3060 12GB	NVIDIA RTX 4090 24GB
存储	50GB SSD	1TB NVMe SSD

2.2 软件要求

- Windows 10 64位（版本1903或更高）
- Visual Studio 2022（C++开发工具）
- CUDA Toolkit 12.2
- CMake 3.28+

三

部署步骤

步骤1：安装Visual Studio

1）访问[Visual Studio官网]

https://visualstudio.microsoft.com/，下载Community 2022版本；

2）安装时勾选

**使用C++的桌面开发**
**Windows 10/11 SDK**（版本需≥10.0.19041.0）
**C++ CMake工具** ；

3）完成安装后重启系统

步骤2：配置CUDA环境

1）访问[NVIDIA CUDA下载页]

https://developer.nvidia.com/cuda-downloads，选择Windows版本CUDA 12.2；

2）安装时选择**自定义安装**，确保勾选：

CUDA Toolkit
CUDA Samples
NVIDIA Nsight Compute；

3）验证安装

打开CMD执行`nvcc --version`，应显示版本12.2。

步骤3：编译Llama.cpp

# 克隆仓库（需预先安装Git）：

git clone https://github.com/ggml-org/llama.cpp

cd llama.cpp

CPU 构建：

使用以下方法构建 llama.cpp CMake：

cmake -B build
cmake --build build --config Release

CUDA 构建：

使用以下方法构建 llama.cpp CMake：

cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release

步骤4：下载模型文件

1）访问魔塔社区（ModelScope）或Hugging Face

- **ModelScope**：

https://www.modelscope.cn/models/unsloth/DeepSeek-R1-Distill-Qwen-14B-GGUF/

- **Hugging Face**：

https://huggingface.co/unsloth/DeepSeek-R1-Distill-Qwen-14B-GGUF

2）下载`DeepSeek-R1-Distill-Qwen-14B-Q5_K_M.gguf`

推荐平衡精度与性能的量化版本。

步骤5：运行模型

进入llama.cpp的build目录：

. llama-cli \
--model unsloth/DeepSeek-R1-Distill-Qwen-14B-GGUF/DeepSeek-R1-Distill-Qwen-14B-Q4_K_M.gguf
--cache-type-k q8_0 
--threads 16
--n-gpu-layers 20 \ 
--prompt"请用中文回答：量子计算机的工作原理是什么？"

参数说明：

- `--n-gpu-layers 40`
指定40层网络使用GPU加速（可以根据显存调整）；
- `--temp 0.7`
控制输出随机性（0=确定性，1=高创造性）；

四

性能优化技巧

4.1 显存管理

- 使用`--n-gpu-layers`逐步增加GPU层数，直至接近显存上限；

- 添加`--mlock`参数将模型锁定在内存中，减少重复加载耗时。

4.2 量化模型选择

量化级别	显存占用	适用场景
Q2_K	5.8GB	低配设备
Q5_K_M	8.4GB	平衡模式
Q8_0	12.1GB	高精度需求

五

常见问题解决

5.1 编译错误

- **CUDA未识别**
检查CMake命令中的CUDA路径，确保环境变量`CUDA_PATH`已设置；
- **缺少dll文件**
安装[VC Redistributable]https://aka.ms/vs/17/release/vc_redist.x64.exe

5.2 显存不足

- 降低`--n-gpu-layers`数值；

- 使用更低量化级别的模型文件。

5.3 输出质量低

- 调整`--temp`至0.3-0.5范围；

- 增加`--repeat_penalty 1.2`减少重复内容。

END

本文作者：李昊(上海新炬中北团队）

本文来源：“IT那活儿”公众号

显存 cuda https build

文章转载自IT那活儿，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

使用Llama.cpp部署DeepSeek-R1-Distill-Qwen-14B-GGUF模型

点击上方“IT那活儿”公众号--专注于企业全栈运维技术分享，不管IT什么活儿，干就完了！！！

本文作者：李 昊(上海新炬中北团队）

本文来源：“IT那活儿”公众号

评论

本文作者：李昊(上海新炬中北团队）