暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

MIT斯坦福联手搞出「灵魂画手」AI!草图生成竟比GPT-4o更懂人类脑回路

AI 搜索引擎 2025-06-05
694
编辑 | 白菜包

当文字表达卡壳时,随手涂鸦往往是人类理清思路的「外挂神器」。但现有 AI 绘画工具大多只会输出成品,完全丢失了草图创作中「一笔一画推敲」的灵魂过程。

MIT CSAIL与斯坦福大学的研究团队最新研发的 SketchAgent 系统,让 AI 学会了人类「边画边改」的思考方式!

图示:SketchAgent利用了现成的多模式LLM,以通过直接素描语言来促进语言驱动的顺序素描生成。它可以勾勒出各种概念,与人类进行互动素描,并通过聊天编辑内容。(来源:论文)

比 DALL-E 3 更懂「灵魂画法」

研究团队给多模态语言模型(类似 Anthropic Claude 3.5 Sonnet)开发了一套「草图语言」——将每个图形拆解为网格上的笔画序列。就像教小朋友画房子:第 7 笔是标着「大门」的矩形,第 9 笔是标着「烟囱」的梯形。

这种「分步拆解大法」让 AI 无需海量训练数据,就能举一反三画出机器人、DNA 双螺旋、悉尼歌剧院等抽象概念。

论文第一作者 Yael Vinker 博士表示:「人们日常用草图梳理想法的场景比想象中更多,我们要复现的就是这种自然创作流程。」

人机协作的翻车现场与高光时刻

在协作测试中,当人类与 AI 联手绘制帆船时,如果删除 AI 画的桅杆笔画,整幅图立刻变成「四不像」;但有时 AI 也会突然放飞自我——比如把兔子画成双头怪。研究者解释,这源于 AI 分步推理时误解了人类的创作意图。

在横向对比实验中,搭载 Claude 3.5 Sonnet 的 SketchAgent 表现碾压 GPT-4o 等模型,生成的矢量图形最接近人类手绘风格。

作者之一 Tamar Rott Shaham 指出:「当 AI 能理解草图这种表达方式时,人机交互会变得更直觉化。」

某些局限性

当前这个版本的「灵魂画手」还有一些槽点:

• 目前只能画简笔画级别的火柴人/流程图;

• 遇到 LOGO、句子、独角兽等复杂对象就翻车;

• 协作时需要多次提示才能画出理想效果。

研究团队计划通过扩散模型生成合成数据来提升 AI 画技,未来可能开发成教学工具或艺术创作游戏。

这项研究将在 CVPR 2025 亮相,相关论文已上传 arXiv。

论文链接:https://arxiv.org/abs/2411.17673

也许下次你和 AI 头脑风暴时,就能体验「你画一笔AI补一笔」的奇妙协作啦!

小编想说,这个把AI逼成「美术课代表」的操作实在太秀了!所以问题来了——当AI连涂鸦都能陪你玩,人类最后的倔强是不是只剩...画饼?🐶

相关报道:https://techxplore.com/news/2025-06-ai-broad-humans.html 

——————the end——————
想要跟小编一起交流 AI 使用心得的小伙伴
可以扫描二维码进群
也可以添加小助手微信加入社群
微信号:18500643618
好期待见到大家呀~~~

文章转载自AI 搜索引擎,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论