LLM量化效果评估：50万次实测后的发现

吼吼哈嘿 2024-10-28

172

尽管量化已成为大模型性能优化的常规技术手段，但由于很难评估模型量化的实际效果，依然有人质疑量化模型的准确度与生成质量。

对此，基于Llama 3.1系列模型，AI模型优化与加速推理服务商Neural Magic进行了超五十万次的实测，以对比模型量化与原始模型的效果。以下是他们评估后中的要点：

1.设计了一套覆盖广泛推理场景的评估体系，确保从结构化任务到实际应用的全面分析，包括学术基准测试、真实场景基准测试、文本相似度评估。

2.学术基准测试结果：在OpenLLM Leaderboard v1测试中，所有量化方案——无论模型大小——都恢复了未量化基准平均得分的99%以上的分数；在OpenLLM Leaderboard v2测试中，量化模型的平均得分接近99%的基准平均得分，所有模型的恢复率至少达到96%。

3.真实世界基准测试结果：在Arena-Hard测试中，所有模型尺寸和量化方案的95%置信区间存在重叠，说明量化对准确率的影响极小；量化模型在HumanEval和HumanEval+上均表现出色，8-bit模型实现了99.9%的准确率恢复，4-bit模型则达到了98.9%。

4.文本相似度评估结果：较大的量化模型（70B和405B）与全精度模型保持了较高的文本相似度，ROUGE-1和ROUGE-L得分显示其在词汇选择和结构方面保留程度良好。BERTScore和STS进一步证实，即使量化引入了细微的词元变化，但整体含义仍保持一致。

5.与全精度模型相比，量化模型保持了令人印象深刻的准确性和高质量。量化在成本、能源和性能方面提供了巨大的优势，同时又不会牺牲模型的完整性。

（本文由OneFlow编译发布，转载请联系授权。原文：https://neuralmagic.com/blog/we-ran-over-half-a-million-evaluations-on-quantized-llms-heres-what-we-found/）
————————————————

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/OneFlow_Official/article/details/143225613

墨力计划

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者

LLM量化效果评估：50万次实测后的发现

评论