NVIDIA 执行长黄仁勳在年度活动 GTC 2023 时,提出现在将是 AI 的「 iPhone 时刻」的论调,对於以 GPU 异构加速运算将 AI 从仅有基本功能发展至现在看似蓬勃发展现况的 NVIDIA ,貌似 AI 的「 iPhone 时刻」早已开始,为何黄仁勳现在再度提出接下来才是 AI 的「 iPhone 时刻」的论点。
所谓的「 iPhone 时刻」指的是如当年在 iPhone 之前早已有智慧手机(如 Nokia Symbian 、 Windows Phone 等),但智慧手机真正奠定现在所认知的特性、功能却是直到苹果推出 iPhone 後才有了雏形,同时也带动智慧手机的积极发展,这些由 iPhone 奠定的智慧手机基础最终促成智慧手机取代功能手机成为手机的主流发展型态。
▲ iPhone 借助直观的人机介面与触控,使智慧手机成为简单易用的设备并奠定现代智慧手机的基础
同时, iPhone 也颠覆在此之前智慧手机对一般使用者门槛过高、以触控与直观的使用者介面使人人都能轻松使用各项功能,此外藉由高度的整合,使手机不仅只是手机。对於当前的 AI ,以 ChatGPT 为首的自然语言理解也将会使 AI 能够广泛被大众轻松使用,不再仅限於特定领域专家才能驾御。
虽然透过 GPU 加速运算的 AI 相较传统 AI 已经有显着的突破,然而黄仁勳认为现行 AI 将进入「 iPhone 时刻」的关键则在於大型语言模型 LLM 得以扩展且实用化,其中的关键即是由 Open AI 展示 ChatGPT 对於各领域应用的可能性;虽然单就文字叙述,语言认知领域的应用应该是以声音与文字为主,但实际上语言领域是许多重要应用的基础。
▲大型语言模型不仅使用在语意理解,更延伸到包括生医研究、影像生成等领域
虽然一般会说人是视觉的动物,但实际上,人是透过各种感官接收资讯,再透过思考逻辑进行转化,作为思考逻辑基础的即是语言;人类在接收到资讯後,首先会将其转化为自身认知的语言再进行各种类型的延伸,而人工智慧( AI )也依循相同的原则,藉助各式感测器接收资讯,无论是文字、声音、影像,再将资讯转化为各种的文字叙述,後续再将其进行反向输出。
当前许多的 AI 应用的背後都是透过叙述(文字)为基础进行,例如现在智慧手机的照片影像增强,即是透过辨识技术拆解图像的元素,将其对照到符合的情境(如日出、晴空、阴天)或是物件(如人物、动物、车辆)後,再透过资料库当中对於不同特性的处理方式进行增强;而近期热门的 AI 绘图也是依循相近的原理,先理解使用者的语意後,再从 AI 模型当中融合这些条件产生影像。
▲在无法理解正确语意的情况,就会产生荒谬且严重错误的结果
虽然对於人类而言,语言与语意是一种自然行为,但透过 AI 进行语意理解是一件极其复杂的事物,因为自然语言的形成是相当复杂的一件事情,是经过日积月累而来,同时还会因为不同的时空背景产生分歧,最简单的例子就是不同国家的语言,若未经过学习是难以直接理解的,纵使理解字面上的意义,但项是俚语、成语或是隐喻或是地方方言,又需要更深层的语言认知才能理解。
从语言了解到语意理解需要复杂的资料库进行训练完成 AI 模型,也就是当前 AI 产业提及的大型语言模型 LLM ( Large Language Model ),不过以往进行 LLM 训练时,不光只是训练模型所需的算力,对於 GPU 异构而言,更头痛的还有记忆体容量的问题,故 NVIDIA 在多年前就积极地进行布局,不光只是引进大容量的高速记忆体,同时还有加速跨晶片沟通的 NVLink 技术。
▲因为通用高速连接介面发展速度无法满足 NVIDIA 对多晶片沟通的需求,是故自行发展 NVLink 与相关延伸技术
NVLink 的出现是为了消弭典型运算架构中过於侧重 CPU 、将 GPU 作为附庸,以及受到 PCIe 通道的规范演进速度过慢的问题;毕竟作为完整的 PC 系统仍需要 CPU 运作,在 GPU 运算的资料仍须回传至 CPU 处理,故 NVIDIA 的作法是尽可能减少资料之间反覆传输,同时还有尽可能扩大 GPU 的记忆体,於是藉由自定义的高速通道技术一举解决这些问题。
藉由 NVLink 提供较同期 PCIe 更快的通道速度,能够使 GPU 与 GPU 之间利用高速通道连接并共享记忆体,使多个 GPU 被 CPU 视为一个单一的大型 GPU ;当然 NVLink 更初期也希冀颠覆 CPU 与 GPU 的单向沟通模式,不过毕竟 NVIDIA 在当时未有发展 CPU , AMD 与 Intel 并未支援 NVLink 技术,仅有 IBM Power 与其合作,但毕竟 IBM Power 并非主流 CPU 架构,也使得 NVLink 仅在少数系统实现多向沟通的能力。
不过随着技术的演进,後续包括在同一个回圈能够容纳更多 GPU 的 NVSwitch 闸道技术,以及晶粒对晶粒级的 NVLink-C2C ,还有 NVIDIA 以 Arm Neoverse 为基础开发的 Grace CPU 的诞生,进一步实现 NVIDIA 对异构加速运算所勾勒的蓝图,同时未来 NVIDIA 亦打算透过 NVLink-C2C 提供客制化架构设计,也进一步为异构加速运算提供更多的愿景。
▲收购 Mellanox 是使 NVIDIA 进一步取得高速网路互连的战略布局
同时, NVIDIA 藉由收购提供 Infiniband 技术的以色列 Mellanox 取得系统对系统的高速互联技术,并进一步结合 NVIDIA 的 GPU 加速技术打造一系列的 DPU 产品,藉此使跨系统之间的沟通更具效益,同时进一步扩大「单一大型 GPU 」的理念,使多个系统的连接的反应速度趋近於在单一系统执行。
▲借助支援 FP8 与 Transofrmer Engine ,不仅加速训练的效率同时在推论阶段也不须将模型进行转化
同时, NVIDIA 的专业加速产品亦逐世代因应产业变化而进化,最新一代的代号 Hopper 的 NVIDIA H100 除了升级加速器架构,还增添 Transformer Engine 与对 FP8 精度的支援,透过可应用混合 FP8 与 FP16 的第四代 Tensor Core , Transformer Engine 透过动态使用 16bit 浮点精度与新增的 8bit 浮点资料格式,藉由将人工智慧的数学运算降至 8 位元,大幅提升在人工智慧神经网路的训练速度,同时保有与 16bit 相当的精度。
另外在推论领域,相较於前一代 NVIDIA A100 所支援的 INT8 需将训练後神经网路转换为 INT8 格式, NVIDIA H100 的 Transformer Engine 的 NVIDIA TensorRT 推论优化器可在不需进行资料转换的前提进行推论,开发者可直接透过 FP8 进行模型训练并维持相同的精度进行推论,并保有与 INT8 使用更少记忆体的优点。
▲简单易用易取得,才能促使开发者愿意投入
不过支撑强大的硬体运算力的关键,则是 NVIDIA 持续强化的软体与开发环境战略布局,因为再强大的硬体若没有友善的开发环境也难以成形,举个游戏玩家可能比较熟悉的例子,就是 Sony 的 PlayStation 3 的发展史, Sony 当时大胆采用超算级的 Cell 处理器,然而由於硬体领先世代太多,上市初期甚至几家作为首发技术展演的夥伴因为开发游戏过於烧钱而倒闭,直到後期开发环境与商用游戏引擎的支援才陆续获得游戏开发商的支持。
NVIDIA 发展软体有长远的历史,以 CUDA 之於 GPU 加速运算为起始,而在 AI 的世代, NVIDIA 更积极携手相关业者提供多项开发工具,以及提供大量的预训练模型,同时也持续进行软体更新持续提升效能与效率,在 GTC 2023 更宣布扩大与公共云服务业者合作提供基於云的开发环境等等,使 AI 成为不需要特殊专业亦可取用,是 NVIDIA 借助提供软体与开发相关资源的重要目标。
▲ Grace CPU 是 NVIDIA 试图减少不得不与同床异梦的 AMD 以及 Intel 配合的策略
若从产业发展的角度, NVIDIA 能够在 AI 发展的历程始终维持屹立不摇且广泛被采纳,可归功於 NVIDIA 透过一连串完善的软体开发环境提供犹如 CPU 一样的通用性,不像专用加速器仅针对特定领域最佳化,也不像 FPGA 有较高的开发门槛,即便是在车载电脑平台另起炉灶的 Tesla ,仍向 NVIDIA 采购超算系统作为包括产品开发、自驾模拟等应用;对目前发展仍未有定论的 AI 产业, NVIDIA 在对於各种前仆後继的新演算法的对应能力仍是相对有弹性,且别忘了 NVIDIA 在此领域的软体开发因应亦相对其它竞争对手更积极。
不过在当前 AI 的发展历程, NVIDIA 虽然在硬体供应具有领导地位,但 NVIDIA 仍不打算成为 AI 发展台面上的领导者,而是作为一家 AI 领域的军火商,持续供应 AI 产业利器促使产业进步与革命,如同在 GTC 2023 ,黄仁勳亦特别强调他当时亲手将硬体交给 OpenAI ,当时也没有人能预见现行由 OpenAI 推出的 ChatGPT 在一瞬间颠覆多项产业,然而在此同时, NVIDIA 也未单押与 ChatGPT 的合作,仍持续与各方合作并供应硬体。
▲除了面对 AMD 与 Intel , NVIDIA 也不敢轻忽亚马逊、 Google 的自研晶片发展
同时 NVIDIA 虽然在当前 AI 的技术发展看似握有显着的优势,但 NVIDIA 仍不敢轻忽整个产业可能的变化,毕竟相较握有 CPU 发展优势的 AMD 与 Intel , NVIDIA 基於 Arm 的 Grace CPU 还需要时间证明其优势, NVIDIA 也不敢直接中断与 AMD 以及 Intel 的合作,但 AMD 与 Intel 也与 NVIDIA 同床异梦,希冀藉由持有的资源发展专属的异构加速平台,同时 NVIDIA 虽与各云端服务商保持合作,但如 Google 、亚马逊也积极导入自研专用晶片降低对外厂的依赖,更使 NVIDIA 不敢轻忽瞬息万变的产业动态。
▲ NVIDIA 坚守 GPU 加速运算、软体开发与积极因应产业变化,奠定今日 NVIDIA 能够在 AI 取得先机的基础
若从笔者接触 NVIDIA 与参与 GTC 大会近 10 年,笔者认为 NVIDIA 能取得当前的技术领先并非单纯的幸运,而是 NVIDIA 在发展决策的坚持与灵活应变; NVIDIA 至今仍坚守以 GPU 加速为核心以及积极发展软体平台的模式,同时在积极探查 GPU 加速於各领域应用的同时也迅速做出决策、甚至放弃既有的布局(例如原本用於手机与平板的 Tigra 说停就停),但也能将资源转化到不同领域( Tigra 奠定当前在自驾车平台与工业自动化的基础),前瞻而灵活的策略是成就当今 NVIDIA 从谷底翻身的关键。终究看着别人的成功模式如法炮制成果绝对有限,天时、地利与人和是成功的关键,能够在正确的时机做出决策才能取得成功。