暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
【国金证券】文心一言、GPT3.5及GPT-4的应用测评对比.pdf
501
32页
10次
2023-04-14
免费下载
敬请参阅最后一页特别声明
1
OpenAI 2023 3 14 日发布最新版本多模态大模 GPT-4 及其 API国内百度于 3 16 日发布生成式大模型
“文心一言”并开放邀请测试。为对比国内外大模型在各领域的性能差异,我们对文心一言、GPT-3.5ChatGPT
原模型)和 GPT-4 的问答表现分别进行了测评。测评涉及常识和创作(文学/图片)、归纳和推理(演绎推理/感推
/逻辑推理/主体信息抽取、数学和代码、应用(AI 助手/客服/办公协同/推荐/诗词理解)等方面。
在常识和创作类问题中,三大模型均能正确回答客观常识类问题;进行文学创作结果均能体现正面价值观但文
心一言的分词功能有待提升;目前 GPT-4 尚未开放图像生成外部测试,文心一言的图像生成能力较为出色。
在归纳和推理类问题中,文心一言在演绎推理、逻辑推理等领域表现略逊于 GPT 系列模型,但在归纳总结类任
务中表现较好;三大模型在情感推理类问题中有提升空间。
在数学和代码类问题中,GPT-3.5 有更好的数学能力表现;GPT-3.5 GPT-4 模型均完成了本文提出的代码生
成问题,但并非最优解,文心一言代码问题识别能力有待加强
在应用场景测试中,三大模型均能较好地完成 AI 生活助手、售后客服、产品推荐、办公场景文本生成等任务,
但在文言文和古诗词理解运用方面表现不佳。
我们认为随百度文心及 OpenAI 合作生态伙伴数量快速增长、训练数据量和模型训练能力持续提升,各模型性能都有
实现进一步优化完善
文心一言、GPT-3.5GPT-4 三大模型在常识问答、文字生成等领域均有出色表现,其中,文心一言虽然在逻辑推理
等任务中表现不及 GPT-3.5GPT-4,但已能够基本满足 AI 助手、售后客服、产品推荐等诸多场景需求。百度文心
的开放应用将极大加速国内生成式 AI 模型的落地应用节奏,有望帮助生态伙伴实现用户体验提升和生产降本增效。
我们建议关注在 AI 领域进行持续布局且拥有成熟应用场景的公司,如万兴科技、汉得信息、凌志软件、同花顺、金
山办公。
海外基础软硬件使用受限应用落地不及预期;行业竞争加剧风险测评问题有限导致结果或有偏差
行业深度研究
敬请参阅最后一页特别声明
2
内容目录
1. 常识和创作.................................................................................. 3
2. 归纳和推理.................................................................................. 7
3. 数学和代码................................................................................. 12
4. 现实应用场景测试........................................................................... 17
5. 投资建议................................................................................... 30
6. 风险提示................................................................................... 30
图表目录
图表 1 三大模型测评结果综合对比 ............................................................... 3
图表 2 常识类问题的回答对比 ................................................................... 4
图表 3 文字创作问题的回答对比 ................................................................. 4
图表 4 图像创作问题的回答对比 ................................................................. 6
图表 5 演绎推理问题的回答对比 ................................................................. 7
图表 6 情感推理问题的回答对比 ................................................................. 8
图表 7 逻辑推理问题的回答对比 ................................................................. 9
图表 8 归纳总结问题的回答对比 ................................................................ 10
图表 9 数学问题的回答对比 .................................................................... 13
图表 10 代码生成问题的回答对比 ............................................................... 14
图表 11 安全应用问题的回答对比 ............................................................... 18
图表 12 生活应用问题的回答对比 ............................................................... 19
图表 13 客服场景问题的回答对比 ............................................................... 21
图表 14 办公协同问题的回答对比 ............................................................... 22
图表 15 推荐场景问题的回答对比 ............................................................... 26
图表 16 诗词理解问题的回答对比 ............................................................... 28
of 32
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

文档被以下合辑收录

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜