GPT-4震撼发布，这次引入了图像输入

程序员学长 2023-03-15

262

大家好，我是小寒。

今天凌晨，「OpenAI 发布了多模态预训练大模型 GPT-4。」

「GPT-4 是一个大型多模态模型（接受图像和文本输入，进行文本输出）。」

虽然在许多现实世界场景中的能力不如人类，但在各种专业和学术基准上表现出人类水平。

例如，它通过模拟律师考试，分数在应试者的前 10% 左右；相比之下，GPT-3.5 的得分在倒数 10% 左右。

能力

GPT-3.5 和 GPT-4 之间的区别可能很微妙。当任务的复杂性达到足够的阈值时，差异就会出现，GPT-4 比 GPT-3.5 更可靠、更有创意，并且能够处理更细微的指令。

为了了解这两种模型之间的区别，OpenAI 在各种基准测试中进行了测试，包括最初为人类设计的模拟考试。

OpenAi 还在为机器学习模型设计的传统基准上评估了 GPT-4。

「GPT-4 大大优于现有的大型语言模型，以及大多数最先进的 (SOTA) 模型。」

视觉输入

「GPT-4 可以接受文本和图像 prompt。」

具体来说，它在「给定由文本和图像组成的输入的情况下生成文本输出」。

比如问：这张照片有什么不寻常之处？

GPT4 的回答是：这张照片的不同寻常之处在于，一名男子正在移动的出租车车顶上的熨衣板上熨烫衣服。

可以看到，GPT4 回到的还真的是不错。

不过 OpenAI 在这里说了，图像输入是研究预览，仍不公开，这里只能遗憾的期待一波了。。。

操纵性

与具有固定冗长、语气和风格的经典 ChatGPT 个性不同，「开发人员（以及 ChatGPT 用户）现在可以通过在 “system” 消息中描述这些方向来规定他们的 AI 的风格和任务。」

系统消息 允许 API 用户在一定范围内显着定制他们的用户体验。

限制

尽管功能强大，但 GPT-4 与早期的 GPT 模型具有相似的局限性。

最重要的是，它仍然不完全可靠（它 “幻觉” 事实并出现推理错误）。

在使用语言模型输出时应格外小心，特别是在高风险上下文中。

但 GPT-4 相对于以前的模型显着减少了幻觉。在 OpenAI 内部对抗性真实性评估中，GPT-4 的得分比最新的 GPT-3.5 高 40%。

ChatGPT 直接升级 GPT-4 版本

ChatGPT Plus 订阅者将在 chat.openai.com 上获得具有「使用上限的 GPT-4 访问权限。」

OpenAI 根据实践中的需求和系统性能调整确切的使用上限，但预计会受到严重的容量限制（尽管 OpenAi 将在未来几个月内扩大规模和优化）。

要通过 API 访问 GPT-4，可以通过 https://openai.com/waitlist/gpt-4-api 进行注册，等待 OpenAI 的审核通过。

OpenAi 将开始邀请一些开发人员，并逐步扩大规模以平衡容量与需求。

获得访问权限后，你可以向 gpt-4 模型发出纯文本请求（图像输入仍处于有限的 alpha 阶段）。

「最后，明天就是百度文心一言的发布时刻，然我们一起来期待一下吧。」

随后，我会带大家一起测试一下 GPT-4，欢迎大家一起加入。
‍

加入方式，添：algo_code

最后

—

今天的分享就到这里。如果觉得不错，点赞，转发安排起来吧。

接下来我们会分享更多的 「深度学习案例以及python相关的技术」，欢迎大家关注。

最后，最近新建了一个 python 学习交流群，会经常分享 「python相关学习资料，也可以问问题，非常棒的一个群」。

「进群方式：加我微信，备注 “python”」

往期回顾

Fashion-MNIST 服装图片分类-Pytorch实现

python 探索性数据分析（EDA）案例分享

深度学习案例分享 | 房价预测 - PyTorch 实现

万字长文 | 面试高频算法题之动态规划系列

面试高频算法题之回溯算法（全文六千字）

如果对本文有疑问可以加作者微信直接交流。进技术交流群的可以拉你进群。

python openai

文章转载自程序员学长，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

GPT-4震撼发布，这次引入了图像输入

能力

视觉输入

操纵性

限制

ChatGPT 直接 升级 GPT-4 版本

评论

ChatGPT 直接升级 GPT-4 版本