逐浪大模型,国产GPU的机遇和挑战 | 钛媒体深度
“这是一个比互联网时代还大10倍的机会。”
在ChatGPT出现以后,科技界和各路风险投资机构普遍认为,真正的人工智能有了可以实现的路径,ChatGPT的推出是AI的“iPhone时刻”。2022年11月30日,OpenAI发布了聊天机器人ChatGPT。两个月之后,ChatGPT的用户量突破了1 亿。在ChatGPT之前,TikTok 达到1 亿用户用了9 个月,微信用了14个月,Instagram 用了2 年半,Twitter则用了5 年。瑞银分析师在报告中感叹道,“在互联网过去20 年的发展中,我们找不到哪款消费级互联网应用的用户增长速度比ChatGPT 更快。”
不过,应用层面的火爆只是这次AI浪潮中的一个头浪,ChatGPT背后的大模型技术,让人们看到了更多的可能性。
所谓大模型,是指具有非常大参数数量的人工神经网络模型。公开数据显示,到2020年时ChatGPT所使用的预训练大大语言模型参数GPT—3,达到了1750亿。
“当参数数量达到700亿时,人工智能就发展出‘涌现’的能力,意味着出现了某种程度的智能。”曾经在英伟达任职的石浩对钛媒体App表示,目前学术界解释不了“涌现”的原因,但ChatGPT的大模型训练是现在行业可以参考的唯一方向。“国内大模型的众多参与者,也只能按照这个路线‘依葫芦画瓢’,先把模型理解了,才能一步步进行调优。”
而伴随着巨大参数数量的大模型参与到人工智能的研究中,算力成为了成败的关键,GPU则是决定算力大小的核心部件。目前的算力市场,英伟达的产品几乎是无可代替的存在。当越来越多的国产大模型进入到追赶GPT的队伍中,国产GPU也迎来了行业的机遇和挑战。
GPU为何能成为大模型算力基础设施中最重要的一环,还要追溯到十多年一次试验的巧合。
根据财新的报道,2012年,多伦多大学的研究员联合同学llya Sutskever与导师Geoffreytinton设计了一个深度卷积神经网络(CNN)。当时,训练这一神经网络需要庞大的CPU资源,甚至花上几个月时间。该团队最后使用了两张当时英伟达为大型PC游戏准备的GPU GTX580,结果训练不到一周便完成了。
事实上,巧合的发生来源于GPU特有的单元架构。
CPU 作为核心控制计算单元,高速缓冲存储器(Cache)、控制单元(Control)在 CPU 硬件架构设计中所占比例较大,主要为实现低延迟和处理单位内核性能要求较高的工作而存在,而计算单元(ALU)所占比例较小,这使得 CPU 的大规模并行计算表现不佳。
而GPU 架构内主要为计算单元,采用极简的流水线进行设计,适合处理高度线程化、相对简单的并行计算。随着 GPU 可编程性的不断提高,去掉或减弱 GPU 的图形显示部分能力,全部投入通用计算的 GPGPU(通用计算处理器)也应运而生。
llya Sutskever后来成为了OpenAI的联合创始人和首席科学家,他们所设计的网络被称为AlexNet。llya Sutskever称,“我一直深信训练数据集越大越好,成立OpenAI的目的之一,也是为了探究如何利用数据的规模。”此后,随着ChatGPT的训练模型的不断增长,GPU成为大模型算力的重要供给工具。
不过,在巧合之外,英伟达的GPU之所以能够在如今的人工智能领域,实现一家独大,主要是之前选对了方向。
石浩对钛媒体App表示,人工智能最早是由谷歌的人工智能深度学习系统——Tensorflow在2015年开创的。紧接着,英伟达将CUDA的生态迁移到Tensorflow上,与其兼容建立了人工智能早期的软件生态。但是由于谷歌的TPU(张量处理单元,计算芯片的一种)不对外开放,导致英伟达的GPU和CUDA软件生态越来越被行业认可。
与此同时,2015年前后PC游戏开始进入下行态势,英伟达选择聚焦人工智能领域,旗下负责游戏开发的工程师,也纷纷转型到人工智能领域的开放工作中。
“从2015年-2022年,英伟达的工程师积累了大量的人工智能试验方案,一些方案与英伟达的GPU是天生适配的。”石浩称,这对于初入人工智能的用户是非常好的一个方式,因为他们只需要买英伟达的产品,下载CUDA软件生态中的参考方案就能复现自己想要的结果。
而对比英伟达,GPU并行计算的另一个主要玩家——AMD则出现了“战略资源错配”。
“从2015年到现在,AMD实际看重的是CPU市场,其服务器CPU的市场份额也从最初百分之十几,上升到现在的40%。”石浩表示,但是随着半导体先进制程一路从28纳米走向12纳米,再到3纳米,工艺的升级就带来了计算成本急剧的降低。而CPU内部的计算资源大概只有10%,GPU则为90%。在目前这种情况下,受益最大的是GPU,AMD压错了方向。
受益于GPU暴涨的需求,英伟达的股价也一路水涨船高,最新市值超过了一万亿美元,是AMD的5倍多。
根据市场调研机构Trendforce估计,2020年GPT模型处理训练数据所需的A100数量达到了2万张左右,未来ChatGPT商业化所需的A100数量将达到3万张以上。Trendforce指出,英伟达
DGX A100是业界大数据分析和A加速的首选,随着生成式A成为趋势,英伟达将从中受益。
同时,根据摩根大通的一份最新报告显示,英伟达将在今年的人工智能产品市场中获得 60% 的份额,主要来自于其图形处理器(GPU)和网络互连产品。英特尔和 AMD 也出现在了榜单上,但他们的收入百分比可以忽略不计,低于 1%。
而当英伟达成为大模型浪潮中的主要算力提供方时,国内诸如百度、阿里、华为这样的大模型参与者,将面临一个颇为棘手的境遇。
按照美国商务部2022年关于高端GPU的出口限令,中国只能向英伟达购买算力一致但传输速率只有A100三分之二的特供版芯片A800,且此后算力更强的GPU芯片都会被限制。在此情况下,国内的GPU厂商能够实现对英伟达产品的部分替代,成为了行业共同面临的问题。
目前,国产GPU 有两条主要的发展路线:分别为传统的 2D/3D 图形渲染 GPU 和专注高性能计算的 GP GPU。生态方面,国产厂商大多兼容英伟达 CUDA,融入大生态进而实现客户端导入。
其中,寒武纪旗下的思元370系列GPU产品,单精度浮点算力和半精度浮点算力分别为24TFLOPS和96TFLPOS,均超过了英伟达A100,但显存容量只有24GB,与英伟达最新的H100也还相距甚远。同样地,海光信息的海光8100、壁仞科技的壁砺104P等国产GPU也存在着相当的差距,处于持续追赶中。
“对于算力的需求量主要与模型参数量相关,大厂现在所做的通用大模型依然只能使用英伟达的产品。但是,垂类行业的大模型(金融、医疗等)或者参数量不像GPT那样大的模型,国产GPU的算力已经非常够用了。”
电子行业分析师袁琪对钛媒体App表示,目前国内某短视频平台参数量约为1000亿的大模型,就用了寒武纪的产品,做训练和推理。同时,该模型也使用了英伟达A100。最后,按照短视频平台的标准对于两个产品进行打分。
最终结果显示,英伟达A100得分是92分,寒武纪得分为87,这意味两者之间的表现已经相差不大了。
“后续随着模型对寒武纪芯片的定向调优完成,这个得分肯定还会往上走。”袁琪称,目前行业排名中,性能最强的是寒武纪的思远590,其次则是华为的昇腾910。这两者主要对标的是英伟达A100,国内大模型的训练和推理都可以用。
不过,在刚刚结束的GTC大会上,英伟达推出了基于新一代 GPU芯片H100的服务器,H100则采用的台积电4nm的先进制程。英伟达创始人黄仁勋称,该服务器相比A100服务器的速度提升了10倍,并可将大型语言模型的处理成本降低一个数量级。以GPT-3模型为例,目前使用的A100训练时长需要5天,而H100仅需19小时。
这意味着,下一代国产GPU能否跟得上英伟达的步伐,依然是一个问题。
“实际上,对于算力和先进制程,大家看的比较笼统。”
袁琪表示,从市场的角度来看,GPU的计算资源、储存资源和通信资源一般会要求达到一个均衡的状态,以此来实现GPU更高的利用率。更为先进的制程工艺,虽然能够提高GPU单位面积的算力,但是随着大模型完成数据训练走到推理阶段,所需的算力将不再像训练阶段那么大,限制模型成本的就不是单位面积的算力,而是单位面积的存储。
以英伟达A100为例,该产品就有2个版本。这2个版本在计算性能上没有任何差别,但一个是搭载了40GB的显存容量,另一个是80GB。其中,80GB的A100,是OpenAI提出了需求才有的。也就是说,大模型后期对于显存的需求要比计算的需求要高。
按照袁琪的说法,随着大模型继续往前推进,对于计算单元的主要考验将不是算力,也不是先进制程,而是存储。
基于上述的技术路径,存算一体(Computing in Memory)的解决方案成为了提升大模型算力的另一条可行路径。
所谓存算一体,就是在存储器中嵌入计算能力,以新的运算架构进行二维和三维矩阵乘法/加法运算。阿里达摩院在2021年发布采用混合键合(Hybrid Bonding)的3D堆叠技术——将计算芯片和存储芯片face-to-face地用特定金属材质和工艺进行互联。在实际推荐系统应用中,相比传统CPU计算系统,存算一体芯片的性能提升10倍以上,能效提升超过300倍。
另外,存算一体路线下的存内计算方案中,存储单元和计算单元完全融合,没有独立的计算单元:直接在存储器颗粒上嵌入算法,由存储器芯片内部的存储单元完成计算操作。
以国内公司亿铸科技为例,基于CIM框架、RRAM存储介质的研发“全数字存算一体”大算力芯片,通过减少数据搬运提高运算能效比,同时利用数字存算一体方法保证运算精度,适用于云端AI推理和边缘计算。
利用存内计算方案,亿铸科技单板卡算力范围在1000TOPS以上,在较低成本、低功耗、低延退下,能够借着存算一体芯片,用较小的代价实现高算以上力,突破芯片大厂的生态壁垒。
存算一体之外,通过软件调度来提升硬件处理数据的效率,也成为了解决大模型算力不足的另外一种选择。
潞晨科技的创始人尤洋告诉钛媒体App,理论上,用多个低端芯片来代替英伟达的一个高端芯片是可能的。比如,假设每一个低端芯片算力是100TFLOPS,四颗芯片简单叠加就能得到400TFLOPS的算力。但是,在实际工作中,400TFLOPS的算力无法被完全发挥出来。因为数据在四个芯片之间要不断地进行传输和交互,一颗芯片的速度过慢就会拖累整体的效率,这就需要高难度的软件优化。
尤洋曾任新加坡国立大学教授,从事分布式计算、机器学习、高性能计算相关研究。2021年,尤洋创办了潞晨科技,试图通过分布式AI开发和部署平台,帮助企业降低大模型的落地成本,提升训练、推理效率。创办的18个月里,这家公司共计拿到了3轮融资。
事实上,根据一些公开的论文显示,阿里巴巴、百度和华为已经在寻求使用 A100、老一代 Nvidia 芯片 V100 和 P100 以及华为 Ascends (昇腾)芯片的各种组合方案。
在 3 月份的一篇论文中,华为研究人员展示了他们如何结合软件技术,通过仅使用华为的 Ascend 芯片而不使用 Nvidia 芯片,来训练其最新一代大型语言模型。研究人员在论文中写道,尽管存在一些缺点,但 PanGu-Σ(盘古) 的模型在一些中文任务上达到了最先进的性能,包括阅读理解和语法挑战。
“所以,在对ChatGPT的追赶上,我认为不用过度悲观。”袁琪称,面对差距,腾讯的冷静态度是对的。这是一个非常新的东西,它是有颠覆性,但也有很多弊端。“纵观这么多年的历史,我们发现现在还没有任何一项技术,在短暂的落后之后,是永远跟不上的。”(应受访者要求,文中石浩、袁琪为化名,本文首发钛媒体App,作者 | 饶翔宇,编辑 | 钟毅)