因为AI的崛起,ASIC在近年来也非常火热。
但这也让我们逐渐意识到,我们不能再仅仅关注如何提升单个IP模块的运行速度。尽管业界在过去至少二十年中一直在进行更广泛、更深入的思考,但如今的现实要求更高。每一位芯片架构师都必须考虑系统级的平衡、同步原语、缓存策略,甚至最终用户体验,尤其是延迟限制——即使是在通用芯片上,在定制芯片场景中更是如此。
AI存在许多瓶颈
智能体暴露更多瓶颈
Transformer 可以扩展到数百万个上下文标记,而代理编码系统试图在数千次操作中保持一致的状态,几十年来一直为我们服务的架构假设将无法让我们继续前进。
在最大的系统中,原本针对吞吐量进行优化的硬件可能会在等待驱逐、准入和缓存加载事件时处于空闲状态,而那些围绕冯·诺依曼架构设计的系统会浪费 60-80% 的内存容量。
未来属于那些将内存管理视为主要设计约束而非事后考虑的架构。
对于提供代理工作负载的服务而言,并不存在万能的硬件解决方案。NVIDIA 的竞争对手不具备其交钥匙式可定制解决方案所拥有的灵活性;他们妄想无需完成服务于不同解决方案领域的芯片设计,就能在机架规模上与之竞争。
除了 GPU、CPU 和智能网卡之外,还需要更多插槽式功能;NVIDIA 在这一领域已经拥有 15 年以上的经验,那么其他厂商如何才能赶上,并最终有机会引领行业呢?
内存利用率的变化很重要,因为人工智能部署的经济和物理原理正在发生根本性的变化。
一个服务于 32K 个上下文窗口的 70B 参数模型仅键值缓存就需要 51GB;这比大多数传统应用程序的全部内存占用还要多。
通过迭代摘要压缩上下文的智能编码系统面临一个上限:研究表明,当超过最佳上下文阈值时,性能会下降高达 63%,模型生成的摘要会丢失“关键信息”,从而严重影响解决方案的质量。
了解这些系统限制的硅架构师 将定义下一代人工智能加速器套件和机架级解决方案。
像 Cerebras 这样的专用推理加速器,通过将整个模型存储在芯片上,实现比 GPU 快 20 倍的速度,带宽高达 21 PB/s。 模拟内存计算有望通过完全消除数据传输,实现100 到 1000 倍的能效提升。与此同时,混合边缘云架构在保持实时性能的同时,实现了35% 的成本降低。
这些变化代表着一个根本性的机会,可以积极地重新构建系统化的、分布式和分解式的方法。
为什么解码(而不是预填充)
会占据系统级功耗的大部分?
Transformer推理的性能特征正逐渐成为行业机密,这通常使得竞争对手能够利用其“独门秘诀”来获取额外的利润空间。对于我们这些身处外部、负责规划未来的设计师来说,这种“秘诀”却是一个棘手的问题,尤其是在那些规模庞大、各自为政的跨国公司中。
尽管理论上解码比预填充更简单,但在典型的工作负载中,解码却消耗了 80% 以上的推理时间。解码受限于内存带宽,而非计算能力。你的 GPU 的 312 TFLOPS FP16 计算能力大部分时间都处于闲置状态,而内存子系统却在努力为其提供令牌。
考虑一下数学原理。
对于服务于 32K 上下文的 LLaMA-2-70B 来说,仅 KV 缓存就需要为每个生成的 token 加载数 GB 的数据。即使 NVIDIA H100 拥有令人印象深刻的 3.35 TB/s 内存带宽,用于移动数据的时间周期也远多于计算注意力所需的时间周期。这就是为什么性能分析显示,即使在最先进的硬件上,GPU 的带宽利用率也仅提升了 2-7%:虽然仍有巨大的提升空间,但这需要在芯片层面重新设计数据流。
内存层次结构成为关键的设计层面。传统方法由于碎片化和分配不当,浪费了 60-80% 的键值缓存容量。Runpod的分页注意力机制将注意力缓存视为虚拟内存,使用 16 个令牌的块,从而将浪费降低到 4% 以下。Medium 。仅此一项优化就使 LMSYS 能够在处理 2-3 倍请求量的同时,将其 GPU 集群缩减一半。
硬件设计人员应该吸取的教训是,内存管理需要服务于整个系统而非单个加速器的芯片级解决方案。正因如此,我们看到越来越多的定制芯片采用成熟的IP或芯片组解决方案,以在系统/服务层面平衡内存使用。
数字领域的硬件优化策略
硅架构界对此做出了回应,提出了大量方法,每种方法都针对推理流程中的不同瓶颈,但这些方法可能与事实脱节,因为该界过去引领着可能性的发展,但现在,他们甚至不知道需要什么。
专用推理加速器 采取最激进的方法:围绕工作负载重新设计一切。
Cerebras 的 WSE-3 将 44GB 的 SRAM 直接集成到晶圆级芯片上,带宽高达 21 PB/s,完全消除了片外内存访问。其结果是LLaMA 3.1 8B 的处理速度达到每秒 1800 个令牌,比超大规模 GPU 云快 7.4 倍。
。
Groq 的 LPU 通过针对批量大小为 1 的推理进行优化,实现了每秒 750-800 个令牌的处理速度和 80 TB/s 的片上带宽。
SambaNova 的可重构数据流单元表明,16 个芯片可以替代 320 个 GPU,用于处理 671B 参数模型,且每瓦性能更优。
这些架构本质上都截然不同。
传统GPU针对训练过程中计算密集型的矩阵乘法进行了优化。推理加速器则针对内存密集型的注意力机制操作以及流式数据流进行了优化,从而消除了计算和内存之间频繁的交互,提高了效率。
其他的解决方案
Jim Keller自主研发的Tenstorrent RISC-V CPU IP 为这种架构多样化增添了新的维度。其乱序执行、宽解码的 RISC-V 内核提供了一个灵活、开放且高性能的控制平面,可与加速器紧密集成。凭借强大的向量单元、可扩展的内核集群以及现代化的片上网络 (NoC) 驱动的内存子系统,这些 CPU 能够在提供强大的单线程性能的同时,保持对工作负载的完全可定制性。这使得它们成为异构推理系统的理想之选,使设计人员能够在通用计算、数据流引擎和以内存为中心的加速器之间灵活平衡,而无需依赖专有的 CPU 架构。
FPGA 具有其他 ASIC 无法比拟的适应性。Xilinx 的 LLaMA-2-7B 空间加速器在 VHK158 上实现了 320-333 个令牌/秒的运算速度,并采用双缓冲 KV 缓存管理以实现高效的数据流。
清华大学的GLITCHES 架构 展示了异构系统的强大功能:GPU 处理计算密集型的预填充任务,而 FPGA 则处理内存密集型的解码任务,两者之间通过 KV 缓存进行传输。
这种协作方式最大限度地利用了硬件,GPU 在解码期间不再闲置,FPGA 在预填充期间也不会不堪重负。
神经形态计算的目标是完全不同的优化点:
英特尔的Hala Point处理器,由1152个Loihi 2芯片组成,拥有11.5亿个神经元,每瓦特每秒可进行15万亿次运算,在特定任务上比传统处理器节能约1000倍。
IBM 的 NorthPole 处理器在处理 ResNet-50 和 YOLO-v4 模型时,速度比同等工艺节点的同类 GPU 快 22 倍,同时能耗降低 25 倍。
这些架构消除了时钟,并以事件驱动的方式运行,从根本上绕过了限制传统设计的电源墙。
即将到来的模拟革命
用物理原理而非比特进行计算
数字方法优化了数据传输,而模拟计算则有望通过使用物理定律在内存中进行计算来完全消除数据传输。
IBM的相变存储器应用展现了其潜力。他们的模拟人工智能芯片包含超过1300万个PCM突触单元,以电导值的形式存储神经网络权重。
英特尔自主研发的内存计算性能达到2900 TOPS/W,比谷歌 TPU 高出 700 倍。普林斯顿大学利用二进制模拟内存计算实现了 886 TOPS/W 的性能。
麻省理工学院的质子可编程电阻器 更进一步,其数据处理速度比人脑突触快100万倍,比电子器件快1000到10000倍。
忆阻器交叉阵列已达到生产相关的规模。研究人员展示了 128×64 阵列,其算力为119.7 TOPS/W,在 MNIST 数据集上,使用 1kb 无源交叉阵列实现了 100% 的分类准确率。
光子计算提供极致的速度和效率。麻省理工学院的全集成光子处理器可在0.5 纳秒内完成机器学习分类,准确率超过 92%,运行速度比电子器件快 1000 到 10000 倍。
模拟电路面临的挑战不在于性能,而在于精度和可编程性。大多数模拟系统的工作精度为 6-8 位,而数字电路的精度是任意的,并且由于器件差异、热噪声和编程稳定性等因素,需要复杂的算法。
IBM 的 Chopped-TTv2 和 AGAD 训练算法专门针对这些限制。剩余数系统将多个低精度运算组合成高精度运算,使用 6 位整数运算即可实现 ≥99% 的 FP32 精度。
*本文系转载自半导体行业观察,文章不代表本公众号观点,不构成投资建议。文中图片均来源于网络,版权归原作者所有,如有侵权,请告知删除。欢迎转发到朋友圈,转载请联系原作者。

