尽管量化已成为大模型性能优化的常规技术手段,但由于很难评估模型量化的实际效果,依然有人质疑量化模型的准确度与生成质量。
对此,基于Llama 3.1系列模型,AI模型优化与加速推理服务商Neural Magic进行了超五十万次的实测,以对比模型量化与原始模型的效果。以下是他们评估后中的要点:
1.设计了一套覆盖广泛推理场景的评估体系,确保从结构化任务到实际应用的全面分析,包括学术基准测试、真实场景基准测试、文本相似度评估。
2.学术基准测试结果:在OpenLLM Leaderboard v1测试中,所有量化方案——无论模型大小——都恢复了未量化基准平均得分的99%以上的分数;在OpenLLM Leaderboard v2测试中,量化模型的平均得分接近99%的基准平均得分,所有模型的恢复率至少达到96%。
3.真实世界基准测试结果:在Arena-Hard测试中,所有模型尺寸和量化方案的95%置信区间存在重叠,说明量化对准确率的影响极小;量化模型在HumanEval和HumanEval+上均表现出色,8-bit模型实现了99.9%的准确率恢复,4-bit模型则达到了98.9%。
4.文本相似度评估结果:较大的量化模型(70B和405B)与全精度模型保持了较高的文本相似度,ROUGE-1和ROUGE-L得分显示其在词汇选择和结构方面保留程度良好。BERTScore和STS进一步证实,即使量化引入了细微的词元变化,但整体含义仍保持一致。
5.与全精度模型相比,量化模型保持了令人印象深刻的准确性和高质量。量化在成本、能源和性能方面提供了巨大的优势,同时又不会牺牲模型的完整性。
(本文由OneFlow编译发布,转载请联系授权。原文:https://neuralmagic.com/blog/we-ran-over-half-a-million-evaluations-on-quantized-llms-heres-what-we-found/)
————————————————
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/OneFlow_Official/article/details/143225613
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




