【国金证券】文心一言、GPT3.5及GPT-4的应用测评对比.pdf

Tonyhacks

501

32页

10次

2023-04-14

免费下载

敬请参阅最后一页特别声明

OpenAI 于 2023 年 3 月 14 日发布最新版本多模态大模型 GPT-4 及其 API；国内百度于 3 月 16 日发布生成式大模型

“文心一言”并开放邀请测试。为对比国内外大模型在各领域的性能差异，我们对文心一言、GPT-3.5（ChatGPT 的

原模型）和 GPT-4 的问答表现分别进行了测评。测评涉及常识和创作（文学/图片）、归纳和推理（演绎推理/情感推

理/逻辑推理/主体信息抽取）、数学和代码、应用（AI 助手/客服/办公协同/推荐/诗词理解）等方面。

 在常识和创作类问题中，三大模型均能正确回答客观常识类问题；进行文学创作结果均能体现正面价值观，但文

心一言的分词功能有待提升；目前 GPT-4 尚未开放图像生成外部测试，文心一言的图像生成能力较为出色。

 在归纳和推理类问题中，文心一言在演绎推理、逻辑推理等领域表现略逊于 GPT 系列模型，但在归纳总结类任

务中表现较好；三大模型在情感推理类问题中仍有提升空间。

 在数学和代码类问题中，GPT-3.5 有更好的数学能力表现；GPT-3.5 及 GPT-4 模型均完成了本文提出的代码生

成问题，但并非最优解，文心一言代码问题识别能力有待加强。

 在应用场景测试中，三大模型均能较好地完成 AI 生活助手、售后客服、产品推荐、办公场景文本生成等任务，

但在文言文和古诗词理解运用方面表现不佳。

我们认为随百度文心及 OpenAI 合作生态伙伴数量快速增长、训练数据量和模型训练能力持续提升，各模型性能都有

望实现进一步优化完善。

文心一言、GPT-3.5、GPT-4 三大模型在常识问答、文字生成等领域均有出色表现，其中，文心一言虽然在逻辑推理

等任务中表现不及 GPT-3.5、GPT-4，但已能够基本满足 AI 助手、售后客服、产品推荐等诸多场景需求。百度文心

的开放应用将极大加速国内生成式 AI 模型的落地应用节奏，有望帮助生态伙伴实现用户体验提升和生产降本增效。

我们建议关注在 AI 领域进行持续布局且拥有成熟应用场景的公司，如万兴科技、汉得信息、凌志软件、同花顺、金

山办公。

海外基础软硬件使用受限；应用落地不及预期；行业竞争加剧风险；测评问题有限导致结果或有偏差。

行业深度研究

敬请参阅最后一页特别声明

内容目录

1. 常识和创作.................................................................................. 3

2. 归纳和推理.................................................................................. 7

3. 数学和代码................................................................................. 12

4. 现实应用场景测试........................................................................... 17

5. 投资建议................................................................................... 30

6. 风险提示................................................................................... 30

图表目录

图表 1：三大模型测评结果综合对比 ............................................................... 3

图表 2：常识类问题的回答对比 ................................................................... 4

图表 3：文字创作问题的回答对比 ................................................................. 4

图表 4：图像创作问题的回答对比 ................................................................. 6

图表 5：演绎推理问题的回答对比 ................................................................. 7

图表 6：情感推理问题的回答对比 ................................................................. 8

图表 7：逻辑推理问题的回答对比 ................................................................. 9

图表 8：归纳总结问题的回答对比 ................................................................ 10

图表 9：数学问题的回答对比 .................................................................... 13

图表 10：代码生成问题的回答对比 ............................................................... 14

图表 11：安全应用问题的回答对比 ............................................................... 18

图表 12：生活应用问题的回答对比 ............................................................... 19

图表 13：客服场景问题的回答对比 ............................................................... 21

图表 14：办公协同问题的回答对比 ............................................................... 22

图表 15：推荐场景问题的回答对比 ............................................................... 26

图表 16：诗词理解问题的回答对比 ............................................................... 28

of 32

免费下载

文档被以下合辑收录

ChatGPT（共14篇）

语言交互模型

关注

文档被以下合辑收录

评论