点击上方“IT那活儿”公众号--专注于企业全栈运维技术分享,不管IT什么活儿,干就完了!!!
模型简介
- **高效推理** 相比原版模型,GGUF量化版显存占用减少约40%,12-16GB显存即可流畅运行; - **多场景适配** 支持中英文混合输入,输出质量接近ChatGPT 3.5水平; - **开源生态** 可通过Hugging Face、魔塔社区等平台获取模型文件。
环境准备
- Windows 10 64位(版本1903或更高) - Visual Studio 2022(C++开发工具) - CUDA Toolkit 12.2 - CMake 3.28+
部署步骤
**使用C++的桌面开发** **Windows 10/11 SDK**(版本需≥10.0.19041.0) **C++ CMake工具** ;
CUDA Toolkit CUDA Samples NVIDIA Nsight Compute;
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
cmake -B build
cmake --build build --config Release
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release
. llama-cli \
--model unsloth/DeepSeek-R1-Distill-Qwen-14B-GGUF/DeepSeek-R1-Distill-Qwen-14B-Q4_K_M.gguf
--cache-type-k q8_0
--threads 16
--n-gpu-layers 20 \
--prompt"请用中文回答:量子计算机的工作原理是什么?"
- `--n-gpu-layers 40` 指定40层网络使用GPU加速(可以根据显存调整); - `--temp 0.7` 控制输出随机性(0=确定性,1=高创造性);
性能优化技巧
常见问题解决
- **CUDA未识别** 检查CMake命令中的CUDA路径,确保环境变量`CUDA_PATH`已设置; - **缺少dll文件** 安装[VC Redistributable]https://aka.ms/vs/17/release/vc_redist.x64.exe

本文作者:李 昊(上海新炬中北团队)
本文来源:“IT那活儿”公众号

文章转载自IT那活儿,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




