NPU,奈何看?
(原标题:NPU,奈何看?)
如果您但愿不错接续碰头,迎接标星储藏哦~
起首:内容编译自quadric,谢谢。
当今阛阓上有几十种 NPU 选项。每种选项在效果、可编程性和天真性方面齐有相互竞争和打破的说法。这些选项之间最赫然的互异之一是看似浮浅的问题:在 NPU 系统档次结构中,联系于计较,内存抛弃的“最好”采选是什么。
一些 NPU 架构作风严重依赖对系统 DRAM 的平直或独占造访,依赖于无数目商用 DRAM 联系于其他内存采选的相对每比特资本上风,但受制于跨多个芯片的分区问题。其他 NPU 采选严重或十足依赖片上 SRAM 以结束速率和浮浅性,但硅单方面积资本高且枯竭天真性。还有一些接管新式内存类型 (MRAM) 或新式模拟电路结构,这两种类型齐枯竭历程考据的、世俗使用的制造纪录。尽管 NPU 采选种类蕃昌,但它们频繁与三种内存局部性作风之一保抓一致。这三种作风与儿童故事《三只熊》有着惊东说念主的相似之处(双关语)!
儿童童话《金发密斯和三只熊》态状了 Goldi 的冒险资格,她试图在床上用品、椅子和粥碗的三个采选中作念出采选。一顿饭“太热”,另一顿“太冷”,临了一顿“刚刚好”。如果 Goldi 濒临在当代角落/诞生 SoC 中为 AI 处理作念出架构采选,那么她还将濒临三个采选,即计较工夫联系于用于存储激活和权重的土产货内存的抛弃。
在、在照旧接近?
内存计较 (CIM:compute-in-memory ) 和近内存计较 (CNM:compute-near-memory ) 这两个术语发源于数据中心系统策动中的架构斟酌。有巨额文件斟酌了各式架构的优点。通盘分析齐归结为试图最大戒指地减少在数据中心的处理元件和存储元件之间迁移使命数据集时花费的电量和产生的蔓延。
在有益为角落诞生优化的 AI 推理片上系统 (SoC) 规模中,相同的原则也适用,但需要接洽三个接近进度:内存计较、内存计较和近内存计较。让咱们快速查验一下每个级别。
内存计较:镜花水月
内存计较是指十多年来将计较融入 SoC 策动中使用的内存位单位或内存宏的各式尝试。真的通盘这些尝试齐在接洽中的 DRAM 或 SRAM(或更奇特的内存,如 MRAM)的位单位内接管某种模拟计较。表面上,这些要领通过在模拟域和世俗并行的容颜推论计较(止境是乘法)来加快计较并裁汰功耗。诚然这似乎是一个引东说念主注办法思法,但迄今为止齐失败了。
失败的原因是多方面的。当先,世俗使用的片上 SRAM 依然完善/优化了近 40 年,片外存储 DRAM 亦然如斯。与隧说念的起先比较,使用高度优化的要相识导致面积和功率效果低下。事实发挥,将这种新要领注入 SoC 公司使用的久经考试的设施单位策动要领中是行欠亨的。内存计较的另一个主要流弊是,这些模拟要领仅推论 AI 推理所需计较的相称有限的子集 - 即卷积运算中枢的矩阵乘法。然则,莫得任何内存计较粗略构建富有的天真性来涵盖通盘可能的卷积变化(大小、步幅、彭胀)和通盘可能的 MatMul 配置。内存模拟计较也无法结束 Pytorch 模子寰球中的其他 2300 个操作。因此,内存计较处理决策除了需要具备内存模拟增强功能以外,还需要具备纯属的 NPU 计较工夫——当以传统容颜使用该内存进行追随数字 NPU 上发生的通盘计较时,“增强功能”会对面积和功率变成职守。
最终分析清爽,角落诞生 SoC 的内存处理决策“太有限”,关于勇敢的芯片策动师 Goldi 来说绝不必处。
近内存计较:
近距离计较仍然十分远处
SoC 推理策动要领的另一端是尽量减少片上 SRAM 内存的使用,并尽量擢升批量出产的低资本大容量内存(主如若 DDR 芯片)的哄骗率。这一观念侧重于大范畴 DRAM 出产的资本上风,并假定在尽量减少 SoC 上 SRAM 和为低资本 DRAM 提供富有带宽的情况下,AI 推理子系统不错裁汰 SoC 资本,但依靠与外部内存的快速运动(频繁是仅供 AI 引擎料理的专用 DDR 接口)来保抓高性能。
诚然乍一看,近内存要领不错得手减少用于 AI 的 SoC 芯单方面积,从而稍稍裁汰系统资本,但它有两个主要弱势,会收缩系统性能。当先,这种系统的功耗不通俗。请接洽下表,该表清爽了将 32 位数据字移入或移出每个 AI NPU 中枢的乘法累加逻辑的相对能量资本:
每次从 SoC 到 DDR 的数据传输花费的能量(功率)是土产货相邻于 MAC 单位的传输的 225 到 600 倍。即使距离 MAC 单位相称“远”的片上 SRAM 也比片听说输节能 3 到 8 倍。由于大多数此类 SoC 的功耗受限于消费级诞生,主要依赖外部存储器的功率截至使得近内存策动点不切实质。此外,恒久依赖外部存储器的蔓延意味着,跟着更新、更复杂的模子的发展,这些模子可能具有比旧式 Resnet 更不轨则的数据造访形式,近内存处理决策将因蔓延而遭遇严重的性能下落。
功率过大和性能过低的双重打击意味着近内存要领关于咱们的芯片架构师 Goldi 来说“太热了”。
At-Memory:恰到刚正
正如孩子们的金发密斯寓言老是提供“恰到刚正”的替代决策一样,内存计较架构是角落和诞生 SoC 的恰到刚正的处理决策。再次参考上表的数据传输能量资本,内存位置的最好采选昭着是紧邻的片上 SRAM。将计较出的中间激活值保存到土产货 SRAM 中比将该值推送到片外花费的电量少 200 倍。但这并不料味着您只思使用片上 SRAM。这么作念会为每个结束中不错容纳的模子大小(权要紧小)设立硬性上限。
关于 SoC 策动东说念主员来说,最好的采选是既能哄骗微型土产货 SRAM(最好巨额散播在计较元件阵列中),又能智能地调遣这些 SRAM 和 DDR 存储器的片外存储之间的数据迁移,以最大戒指地裁汰系统功耗并最大戒指地减少数据造访蔓延。
半导体佳构公众号保举
专注半导体规模更多原创内容
关心民众半导体产业动向与趋势
*免责声明:本文由作家原创。著作内容系作家个东说念主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或辅助,如果有任何异议,迎接联系半导体行业不雅察。
今天是《半导体行业不雅察》为您共享的第3943内容,迎接关心。
『半导体第一垂直媒体』
及时 专科 原创 深度
公众号ID:icbank
心爱咱们的内容就点“在看”共享给小伙伴哦