令人惊喜：新下载的QWQ可以一战了

白鳝的洞穴 2025-03-18

161

老白的话：

在大语言模型领域的实践中，我们都是新兵。就像我经常和年轻的DBA说，在讨论一个问题的时候，不要犯盲人摸象的错误，只感知到自己摸到的东西。前几天对QWQ的评价就犯了这个错误。当时我们下载的还是BETA版，在我们的测试场景中就频频翻车。最近我们下载了最新更新的模型，没想到其能力让我们惊诧。在大多数场景的测试中，其效果已经完全碾压deepseek-r1:32b这个同门兄弟，甚至已经接近满血版的deepseek的水平。这意味着在实际生产应用中，使用小得多的硬件，就能高质量完成分析任务了。下面转载团队的同事在使用了3月13日更新版本的QWQ后的分析文章。

可能今天我们要为前几天对QWQ的不负责任的言论道歉了，QWQ的更新速度还是挺快的，在3月13号又有更新，我们尝试了一下用新版本的QWQ来诊断分析某个数据库故障，从结果上看效果已经相当不错了。

从这个案例的推理质量来看，已经优于deepseek-r1:32b，比较接近于deepseek-r1:671b的水平了。唯一的缺点是推理的速度慢一些，这个案例，deepseek-r1:32b的推理时间为20秒不到，QWQ要超过1分钟。虽然慢点，但是更加精准的分析结果更为重要。

经过最后的分析我们发现速度的问题其实不是因为QWQ本身，而是因为我们的测试环境上用的RTX3090的显存不够用了。QWQ是FP16、64隐层的，在N_BATCH为512的情况下，完成一个推理最低需要26GB的显存，已经超出了RTX 3090显卡的显存，因此部分使用了内存，其推理性能明显就降低了不少。Deepseek-r1:32b是如果同样是全部使用显存的情况下，QWQ思考44秒钟，同样的问答，deepseek-r1:32b大约15秒。

另外一个故障模型的分析也没让我们失望，十分清晰地找出了大表扫描的SQL语句，并且分析出了产生大表扫描的不合理的设计因素。

唯一不足的地方还是存在较大的幻觉，上面的SQL优化环节看似很牛X，但是实际上是幻觉，因为在这个智能体在问答时并没有给出SQL的执行计划，因此对于SQL存在的问题的分析是存在严重幻觉的。因为这条SQL来自于TPC-H，模型中包含了这方面的知识。QWQ的幻觉比deepseek-r1:32b严重的问题在以前的测试中我们也发现过，看样子目前还没有解决，也许这和QWQ的训练方式与deepseek不同有关。

在多个场景的测试中，QwQ都表现出了远超deepseek-r1:32b的推理能力，很多场景与满血版的deepseek-r1表现接近。

和deepseek-r1:32b相比，唯一的缺点就是context_length了，40K的ctx_length和ds 32b的128K相比，在长文本处理方面还是相差比较大。不过在一般的运维场景领域，40K基本上够用了。

无论如何，看到上面的分析结果，我们要真诚地为前几天匆匆忙忙发出的对QWQ的评价道歉了。目前QWQ的版本已经可以一战了。AI用户在拥有了这样一个强大的基础模型之后，落地自己的场景可能会更加容易了吧。

这两天很热闹，谷歌开源了gemma3，据说也是能力超强。找时间我们也来试试。gemma3需要ollama 6.0，我们先得升级下自己的ollama服务才行。

文章转载自白鳝的洞穴，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

令人惊喜：新下载的QWQ可以一战了

评论