暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

令人惊喜:新下载的QWQ可以一战了

白鳝的洞穴 2025-03-18
161
老白的话:
在大语言模型领域的实践中,我们都是新兵。就像我经常和年轻的DBA说,在讨论一个问题的时候,不要犯盲人摸象的错误,只感知到自己摸到的东西。前几天对QWQ的评价就犯了这个错误。当时我们下载的还是BETA版,在我们的测试场景中就频频翻车。最近我们下载了最新更新的模型,没想到其能力让我们惊诧。在大多数场景的测试中,其效果已经完全碾压deepseek-r1:32b这个同门兄弟,甚至已经接近满血版的deepseek的水平。这意味着在实际生产应用中,使用小得多的硬件,就能高质量完成分析任务了。下面转载团队的同事在使用了3月13日更新版本的QWQ后的分析文章。
可能今天我们要为前几天对QWQ的不负责任的言论道歉了,QWQ的更新速度还是挺快的, 在3月13号又有更新,我们尝试了一下用新版本的QWQ来诊断分析某个数据库故障,从结果上看效果已经相当不错了。
从这个案例的推理质量来看,已经优于deepseek-r1:32b,比较接近于deepseek-r1:671b的水平了。唯一的缺点是推理的速度慢一些,这个案例,deepseek-r1:32b的推理时间为20秒不到,QWQ要超过1分钟。虽然慢点,但是更加精准的分析结果更为重要。
经过最后的分析我们发现速度的问题其实不是因为QWQ本身,而是因为我们的测试环境上用的RTX3090的显存不够用了。QWQ是FP16、64隐层的,在N_BATCH为512的情况下,完成一个推理最低需要26GB的显存,已经超出了RTX 3090显卡的显存,因此部分使用了内存,其推理性能明显就降低了不少。Deepseek-r1:32b是如果同样是全部使用显存的情况下,QWQ思考44秒钟,同样的问答,deepseek-r1:32b大约15秒。

另外一个故障模型的分析也没让我们失望,十分清晰地找出了大表扫描的SQL语句,并且分析出了产生大表扫描的不合理的设计因素。
唯一不足的地方还是存在较大的幻觉,上面的SQL优化环节看似很牛X,但是实际上是幻觉,因为在这个智能体在问答时并没有给出SQL的执行计划,因此对于SQL存在的问题的分析是存在严重幻觉的。因为这条SQL来自于TPC-H,模型中包含了这方面的知识。QWQ的幻觉比deepseek-r1:32b严重的问题在以前的测试中我们也发现过,看样子目前还没有解决,也许这和QWQ的训练方式与deepseek不同有关。
在多个场景的测试中,QwQ都表现出了远超deepseek-r1:32b的推理能力,很多场景与满血版的deepseek-r1表现接近。
和deepseek-r1:32b相比,唯一的缺点就是context_length了,40K的ctx_length和ds 32b的128K相比,在长文本处理方面还是相差比较大。不过在一般的运维场景领域,40K基本上够用了。
无论如何,看到上面的分析结果,我们要真诚地为前几天匆匆忙忙发出的对QWQ的评价道歉了。目前QWQ的版本已经可以一战了。AI用户在拥有了这样一个强大的基础模型之后,落地自己的场景可能会更加容易了吧。
这两天很热闹,谷歌开源了gemma3,据说也是能力超强。找时间我们也来试试。gemma3需要ollama 6.0,我们先得升级下自己的ollama服务才行。

文章转载自白鳝的洞穴,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论