QWQ 32B真的那么神奇吗？

白鳝的洞穴 2025-03-10

689

最近阿里发布了QWQ 32B，网上一片赞誉之词，吊打满血deepseek-r1是看到最多的说法。真的如此吗？DBAIOPS社区的同学听说这个消息之后也十分兴奋，搞离线模型部署应用的人，谁不希望有一个体量小、输出速度快、推理性能好的开源模型呢？在试用了两天后我们谈谈对QWQ的感受。

QwQ 是 Qwen系列模型中的推理模型，QwQ-32B 是中型推理模型，能够实现与最先进的推理模型（如 DeepSeek-R1、o1-mini）相似的性能。试用了一些场景后，这个模型让人感觉是惊喜与惊吓并存。首先模型的输出速度之快令人咂舌，这是让人最为感到惊喜的地方，比起deepseek-r1:32b来，输出速度可以说是飞速。其次是推理的能力也十分强，正常的时候输出结果靠谱指数也还算挺高的。

问题来了，QwQ 32B真的以32B的中型模型的规模达到了671B这样的大型模型的推理性能了吗？这一点按照常识来想，是不太可能的。事实上这些年号称吊打ChatGPT的中小型模型事实上都是吃牛逼，而参数较少的模型在复杂推理和长文本处理上有天然的弱点，因此测试长文本对话才能真正看出QwQ的弱点。

在内存使用上，其实QwQ并没有体现出很多测试者发现的比DS-R1 32b 更节约显存的特点，类似的参数规模（都是32.8B），同样4bit量化，其大小差不太多。

在速度上，大家在测试的时候会发现QwQ输出速度特别快，所以觉得QwQ速度比deepseek-r1:32b要好，其实这是一个错觉。实际上当时的输出都是思考过程，QwQ在思考时输出的内容很多，通过观察思考过程，我们发现QwQ是不断通过自我对话来完善输出的，其思考模式与DeepSeek-r1不同，经过多轮对话，QwQ不断完善输出，最后获得一个最满意的版本来输出。一个问题QwQ思考了39秒，同样的问题我们测试了多次，思考时间差不多，都在三十多秒范围内。

完全相同的问题，在相同的硬件上，Deepseek-r1:32b花了16秒的思考时间，得到的推理结果与QwQ差不多，从这个比较来看，QwQ只是输出速度更快，输出的推理过程更加丰富，真正的思考速度并不比DeepSeek-r1:32b更快。

下面我们来测试一个语义逻辑上不是太严谨，存在可能误解的场景，在满血DeepSeek-r1上，表现出了很好的性能，输出结果十分完美。不过在DeepSeek-r1:32b上表现不如人意，虽然思考时间差不多也是不到20秒，但是输出结果中出现了明显的误判。

在周五的测试中，这个问题是陷入死循环的，输出了几十分钟，还没有完成思考。周六早上重新下载了最新版后，死循环的问题解决了。不过思考了51秒之后，QwQ给出了与DS 32B类似的错误结论。同样的问题，DS 32B的思考时间是15秒。

最终的测试结果与我们的预期基本类似。参数较小的中型模型与大参数的671B模型相比，在长文本复杂问题的推理上，还是存在较大的差距的，最大的问题是远距离语料之间的推理性能较差，如果两个语料之间隔得比较远，那么在后面得推理中很可能无法识别前面的内容，因此需要在推理中的时候将逻辑关系比较相近的数据放在一起，否则容易出现幻觉。

刚开始测试QwQ的时候，应该也是大量赞誉网文发出的时候，QwQ在我们的场景中就像一个任性的弱智一样，不但胡思乱想，而且不听劝，无论我们如何通过提示想消除它的幻觉，它都不听劝。当时我们甚至已经决定完全放弃QwQ了，不过更新了最新版本后，我们发现QwQ还是可用的，其性能与DeepSeek-r1:32B相当，思考时间大约是3倍左右的时间。QwQ还在不断进步，我想今后会越来越好的。做离线部署LLM应用的人，又多了一个不错的武器。不过也仅此而已了，说吊打满血DS的人，大多数是看了跑分结果，没有自己去做认真测试就下结论的。跑分这玩意，也就看看吧，不同的任务场景下，对模型的要求也是不同的，就像某些数据库说吊打Oracle一样，也许某个场景确实如此，但是换个场景，可能就完全不同了。

文章转载自白鳝的洞穴，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

QWQ 32B真的那么神奇吗？

评论