AI绘画“打败 98% 人类画家”,却为何画不出一只好看的手?|AI|图像
从2022年开始,突然冒出了许多自动生成图片的AI绘画神器:Disco Diffusion、 DALL·E 2代等。
2022年8月31日,出自AI之手的《空间歌剧院》在美国科罗拉多州博览会一项美术竞赛中斩获一等奖后,AI的作画能力迅速成为焦点。
人们突然发现,仿佛是一夜之间,AI作画的能力已经发展到了难以想象的地步,甚至直言:AI 就能生成可以「打败 98% 人类画家」的作品。
不过,最近有人发现,几乎就要“乱拳打死老师傅”的AI,却画不好一只手,这是为什么呢?《纽约客》特约撰稿人凯尔·柴卡对此展开深入的探讨。
一、人与AI都是画手困难户
画手是高中艺术课上的经典练习:一个学生坐在桌子前,一手拿着炭笔,稳稳地放在一张纸上,另一只手在她面前摊开,手掌朝上,手指放松,向内弯曲。然后她用握笔的手在纸上画出另一只摊开的手。这是每一个初学者的任务。
虽然看似简单,但画出令人信服的手却是写实艺术中最可怕的挑战之一。我记得那十分令人沮丧——确保每根手指的角度和比例都是正确的,确定拇指与手掌的连接方式,表现一根手指恰好重叠在另一根手指上。通常情况下,我画的小指会出奇地长,或者拇指以一个不可能的角度伸出来,就像一根断了的骨头。
“这就是学生开始学习如何画画的方式:学习仔细观察,”我在美国康涅狄格州的高中美术老师克里斯蒂·苏西最近给我打电话时告诉我,“每个人都以为他们知道手的样子,但直到你真正看到它时,你才会明白。”
人工智能也面临着类似的问题。Midjourney、Stable Diffusion和Dall-E等AI绘图新工具能够渲染逼真的风景,复制名人的脸,以任何艺术家的风格重新混合图像,并无缝地替换图像背景。
去年9月,一张AI生成的图像在科罗拉多州博览会上获得了数字艺术一等奖。但当被要求画手时,这些工具就会产出一张张噩梦般的图:一只有十几个手指的手,一只有两个拇指的手,还有一只像某种植物突变体一样长出超多手的手。手指要么关节太多,要么根本没有。它们看起来就像来自外星世界的医学教科书上的图表。
机器在这项特定任务上的无能已经成为了一个关于人工智能缺点的流行笑话,就像有人在推特上说的那样,“永远不要问一个女人的年龄或一个AI模型为什么要把手藏起来。”
正如其他报道,手的问题在一定程度上与生成器从训练过的大量图像数据集中推断信息的能力有关。当用户在生成器中输入文本提示时,它会提取无数相关图像并复制它已学习到的模式。
但是,就像考古学家试图从罗塞塔石碑上翻译埃及象形文字一样,机器只能从给定的材料中推断,而且它的知识存在空白,特别是在全面理解复杂的有机形状时。有缺陷或不完整的数据集从而导致产生有缺陷的输出。
二、大脑和AI的区别
语言学家诺姆·乔姆斯基和他的合著者最近在《纽约时报》的一篇专栏文章中指出,机器和人类的学习方式不同。他们写道:“人类的大脑不像ChatGPT和它的同类那样,是一个笨重的模式匹配统计引擎,吞噬着数千亿字节的数据。”相反,它“使用少量信息;它不寻求推断数据点之间的强力关联,而是创造一种解释。”
生成器可以计算出手有手指,但很难训练它知道人只有五个手指,或者手指之间有或多或少的固定长度。毕竟,从不同的角度看,手的样子是不一样的。当我在笔记本电脑键盘上打字时,低头看着自己的手指,我的手指被缩短了,被手掌遮住了一半;人们无法从静态图像中确定它们确切的X射线结构。
伦敦大学学院计算机科学教授彼得·本特利表示,AI工具“已经知道手有手指、指甲和手掌等元素。但他们不理解手究竟是什么。”
同样的问题有时也会出现在AI试图绘画更小的特征时,比如耳朵,看起来像没有复杂软骨结构的肉质漩涡;或者牙齿,不正确地放在嘴里;或者瞳孔,变成了小山羊的斑点。AI可以掌握视觉模式,但无法掌握潜在的生物逻辑。
三、如何让AI画出更好的手
部分问题在于,大多数人的照片都没有聚焦他们的手。AI面对的是人脸照片,而不是手指的特写镜头。“如果数据集是百分之百的人手,我认为AI会做得更好,因为它会把更多的容量分配给人手。”Creative公司的联合创始人亚历克斯·查潘达尔说道。
一种解决方案可能是在专门的专题数据集上训练AI程序。比如,查潘达尔目前正在制作完全由沥青或砖块图像组成的训练集,以便电影制作人或视频游戏开发者可以快速添加表面纹理。
本特利教授认为,另一种可能是在AI数据集中添加三维效果图。目前,AI工具还没有可训练的3D数据,但去年12月,OpenAI发表了一篇论文,介绍了一种创建三维模型的工具,这可以帮助图像生成器获得更多的空间意识,即对二维皮肤下骨骼结构的了解。不过,在新版的GPT-4中的并未着重展示此项功能。
在为AI生成器编写提示时,用户通常不是很精确。他们可能会输入“手”这个词,但没有具体说明这只手应该做什么或它应该如何摆姿势。
吉姆·南丁格尔曾是一名广告文案,现在是一名人工智能顾问。他建议人们“想象一下训练图片可能是如何被贴上标签的,转而逆向设计你的提示。”还有,命名一些“可识别的手势”,如握紧的拳头,以及特征,如毛茸茸的指关节,用于帮助生成器自主分离更具体或详细的源图像。
然而,这样的把戏并不总是奏效。南丁格尔的一位客户是一位需要电子书封面的作家。AI生成了一个完美的人形,却无法画出作者想要的特定手势,南丁格尔为此不得不请来一位自由职业的人类艺术家,手动将它们画进这张图像中。
四、人类的想象力是AI无法替代的
至少到目前为止,在生成式人工智能的生命周期中,用户倾向于寻找尽可能接近现实的图像。我们对AI的评价是基于它如何精确地复制我们已经看到的东西。看着粗糙的AI手,我们陷入深深的恐惧,并体验到一种发自内心的厌恶感。虽然两只手都是真实的,有纹理,有皱纹,有斑点,比大多数人类艺术家所能达到的细节要多,但是完全不是手应该有的样子。
在某种程度上,这台机器的故障令人欣慰。手是人性的象征,正如帕蒂·史密斯所说,“这是想象力和执行力之间的直接对应”。只要我们是唯一理解它们的人,也许我们的计算机不会完全取代我们。
AI手的奇怪扭曲让人产生一种期待的怀旧之情,因为在未来,当技术不可避免地得到改进时,我们会把这些缺陷视为“早期人工智能”时代的庸俗遗迹,就像粗糙的数码相机照片让人想起2000年。
随着时间的推移,我们对哪些图像是由人工智能生成的,哪些是由人类手绘完成的越来越模糊。就像查潘达尔所说,虽然AI画的奇怪的手指和不完整的爪子越来越多,但“只是一个暂时性的问题。”
美术老师苏西在AI图像和她学生的画中指出了一个相似的新手问题。她说:“一个八年级或九年级的学生画画时,他们也总是把注意力集中在轮廓上。”
当一名年轻的艺术家在画褶皱皮肤的扭动线条时,分心了,他就无法思考手的整体形状。就像任何努力学习的艺术学生一样,AI工具也需要更多的培训,才能精进绘画水平。“对于一个学生来说,当手的结构和轮廓结合在一起的那一刻,才能画出一只真正的手,”苏西说,“那通常是在他们大学二年级的时候。”
而AI能何时学会画出一只“真正的手”,还需一定的时间,不过也许不用太久,让我们一起尽请期待吧!