MIT斯坦福联手搞出「灵魂画手」AI！草图生成竟比GPT-4o更懂人类脑回路

AI 搜索引擎 2025-06-05

826

编辑 | 白菜包

当文字表达卡壳时，随手涂鸦往往是人类理清思路的「外挂神器」。但现有 AI 绘画工具大多只会输出成品，完全丢失了草图创作中「一笔一画推敲」的灵魂过程。

MIT CSAIL与斯坦福大学的研究团队最新研发的 SketchAgent 系统，让 AI 学会了人类「边画边改」的思考方式！

图示：SketchAgent利用了现成的多模式LLM，以通过直接素描语言来促进语言驱动的顺序素描生成。它可以勾勒出各种概念，与人类进行互动素描，并通过聊天编辑内容。（来源：论文）

比 DALL-E 3 更懂「灵魂画法」

研究团队给多模态语言模型（类似 Anthropic Claude 3.5 Sonnet）开发了一套「草图语言」——将每个图形拆解为网格上的笔画序列。就像教小朋友画房子：第 7 笔是标着「大门」的矩形，第 9 笔是标着「烟囱」的梯形。

这种「分步拆解大法」让 AI 无需海量训练数据，就能举一反三画出机器人、DNA 双螺旋、悉尼歌剧院等抽象概念。

论文第一作者 Yael Vinker 博士表示：「人们日常用草图梳理想法的场景比想象中更多，我们要复现的就是这种自然创作流程。」

人机协作的翻车现场与高光时刻

在协作测试中，当人类与 AI 联手绘制帆船时，如果删除 AI 画的桅杆笔画，整幅图立刻变成「四不像」；但有时 AI 也会突然放飞自我——比如把兔子画成双头怪。研究者解释，这源于 AI 分步推理时误解了人类的创作意图。

在横向对比实验中，搭载 Claude 3.5 Sonnet 的 SketchAgent 表现碾压 GPT-4o 等模型，生成的矢量图形最接近人类手绘风格。

作者之一 Tamar Rott Shaham 指出：「当 AI 能理解草图这种表达方式时，人机交互会变得更直觉化。」

某些局限性

当前这个版本的「灵魂画手」还有一些槽点：

• 目前只能画简笔画级别的火柴人/流程图；

• 遇到 LOGO、句子、独角兽等复杂对象就翻车；

• 协作时需要多次提示才能画出理想效果。

研究团队计划通过扩散模型生成合成数据来提升 AI 画技，未来可能开发成教学工具或艺术创作游戏。

这项研究将在 CVPR 2025 亮相，相关论文已上传 arXiv。

论文链接：https://arxiv.org/abs/2411.17673

也许下次你和 AI 头脑风暴时，就能体验「你画一笔AI补一笔」的奇妙协作啦！

小编想说，这个把AI逼成「美术课代表」的操作实在太秀了！所以问题来了——当AI连涂鸦都能陪你玩，人类最后的倔强是不是只剩...画饼？🐶

相关报道：https://techxplore.com/news/2025-06-ai-broad-humans.html

——————the end——————

想要跟小编一起交流 AI 使用心得的小伙伴

可以扫描二维码进群

也可以添加小助手微信加入社群

微信号：18500643618

好期待见到大家呀~~~

文章转载自AI 搜索引擎，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。