机器学习可实现图像分类和语言建模等数据密集型任务,许多新应用由此诞生。
机器学习过程分为两个阶段。首先是训练阶段,通过将信息存储并标记到权重中来开发智能——这是一种通常在云端执行的计算密集型操作。在此阶段,机器学习算法将获得给定的数据集。权重会不断优化,直到神经网络能够以所需的准确度进行预测。
在第二阶段(称为推理)中,机器使用阶段存储的情报来处理以前未见过的数据。推理的主要操作是权重矩阵和输入向量的矩阵向量乘法。例如,当模型经过图像分类训练时,输入向量包含未知图像的像素。
权重矩阵包含用于识别图像的所有不同参数,在训练阶段以权重形式存储。对于大型复杂问题,此矩阵被组织成不同的层。输入数据通过神经网络“转发”以计算输出:预测图像中包含的内容 — 例如猫、人、汽车。
从技术方面来看,输入和权重通常存储在传统内存中,并被提取到处理单元以执行乘法。对于复杂的问题,因此需要移动大量数据,从而影响功率效率和速度,并留下大量碳足迹。
然而,如果(部分)计算工作可以在内存本身中完成,则可以避免大部分数据流量。当以节能的方式实施时,这种内存计算可以减少推理对云的依赖,从而大大改善延迟和能耗。
模拟内存计算的通用架构
与传统内存操作不同,内存计算并非以单个内存元素为单位进行。相反,它是对一组内存设备执行的累积操作,利用阵列级组织、外围电路和控制逻辑。常见步骤是乘法累加运算 (MAC),该运算计算两个数字的乘积并将该乘积添加到累加器中。
虽然内存计算可以以数字方式执行,但这项工作侧重于其模拟实现,使用实际电流或电荷值。模拟内存计算 (AiMC) 比数字内存计算具有多项优势。只要可以进行多级编程,每个单元就可以更轻松地表示几位信息(包括权重和输入),从而减少内存设备的数量。此外,根据基尔霍夫电路定律,使用电荷或电流几乎可以自然地进行 MAC 运算。
用于节能和节省面积的模拟内存计算的 DRAM
图 1 AiMC 的多向量乘法的一般概念已在 IMW 2023 上展示。来源:imec
在通用 AiMC 架构中,首先使用激活线上的数模转换器 (DAC) 将来自输入(或来自上一层)的激活信号转换为模拟信号(图 1)。然后将模拟激活 (act i ) 与权重 (w ij )相乘并存储在存储单元阵列中。每个单元将 w ij .act i作为电流或电荷贡献给求和线。在求和线上,输出是所有贡献的总和。然后将输出转换为数字值。经过后处理后,结果将传输到下一层或缓冲存储器。
寻找合适的存储技术
目前,大多数基于 AiMC 的机器学习系统都依赖于传统的静态随机存取存储器 (SRAM) 技术。但事实证明,基于 SRAM 的解决方案价格昂贵、耗电大,而且难以扩展到更大的计算密度。为了克服这些问题,人工智能社区正在研究替代的内存技术。
在 2019 年 ISSCC 和 IEDM 会议上,imec 介绍了针对节能推理应用的不同存储设备技术的基准研究。该分析将电路设计与技术选项和要求联系起来,预测能源效率为每秒每瓦 10,000 万亿次运算 (TOPS/W),这超出了的数字实现的效率。研究人员确定高单元电阻或低单元电流、低变化和小单元面积是关键参数。
这些规范限制了的单元类型的使用,包括自旋转矩转移磁性 RAM (STT-MRAM) 和电阻式 RAM (ReRAM)。电阻式存储器将权重存储为电导,并将激活编码为电压电平。电阻式存储器的问题之一是激活和求和线上都会发生 IR 或电压降,从而影响输出。
此外,为了优化阵列内的单元访问,需要一个选择器设备,这会增加单元面积并给电压分配带来挑战。相变存储器 (PCM 或 PCRAM) 也受到类似问题的限制。对于自旋轨道扭矩 MRAM (SOT-MRAM),切换设备所需的高电流和单元的低开/关比是一个优势,但不一定是关键。
在所有研究的内存技术中,imec 研究人员认为基于铟镓锌氧化物 (IGZO) 的 2 晶体管 1 电容器 (2T1C) 器件是 AiMC 有希望的候选者。2T1C 单元初是为 DRAM 应用提出的,与 SRAM 相比,对于 AiMC 应用来说,它有两个主要优势。
首先,它可以显著降低待机功耗。其次,IGZO 晶体管可以在芯片的后段 (BEOL) 中处理,在那里它们可以堆叠在位于前段 (FEOL) 的外围电路之上。这样,构建内存阵列就不需要 FEOL 占用空间了。此外,IGZO 技术还允许将多个单元堆叠在一起,从而实现更密集的阵列。
设计基于 IGZO 的 2T1C 设备
在2023年国际内存研讨会(IMW)上,imec的研究人员解决了剩余的挑战:优化增益单元的保留时间,探索多级编程的可能性,并在阵列配置中演示MAC操作。
权重矩阵中的每个存储单元由一个电容器和两个 IGZO 晶体管组成。一个晶体管用作写入晶体管,用于将权重编程为(存储节点)电容器上的电压,该电容器连接到第二个晶体管的栅极。第二个晶体管设计为读取晶体管,充当电流源元件,允许非破坏性读取。
流过读取晶体管的电流取决于激活输入和存储在存储节点电容器中的权重。因此,该电流自然代表乘法运算的输出 (w ij .act i )。由于读出电流与存储电荷流相比被放大,因此 2T1C 单元也称为“增益单元”。
用于节能和节省面积的模拟内存计算的 DRAM
图 2示意图显示了 2T1C DRAM 增益单元。来源:imec
为了适合节能的MAC操作,电池的三个关键组件需要满足一些目标规格:长保留时间、低关断电流和合适的导通电流。
增益单元的保留时间决定了单元可以保留编程权重的时间。保留时间越长,单元刷新频率就越低,有利于降低功耗。此外,多级操作需要较长的保留时间,以确保能够在存储节点电容器上存储不同的电压电平。
存储节点电容由外部电容、读取晶体管的栅极氧化物电容和寄生电容决定。编程权重会因漏电流而改变。这对外部电容和 IGZO 晶体管的漏电流提出了要求——后者需要低关断电流。
读取和写入晶体管的主要区别在于目标导通电流。读取晶体管需要较低的导通电流来限制 IR 压降,而写入晶体管的导通电流必须足够高,才能在合理的写入时间内对权重进行编程,> 1A/m。
用于节能和节省面积的模拟内存计算的 DRAM
图 3 IMW 2023 上展示了写入(左)和读取(右)晶体管的堆栈示意图。来源:imec
基于非晶 IGZO 的晶体管和电容器经过精心设计,可满足不同的标准,并已在 300 毫米晶圆上制造。所提出的解决方案兼容 CMOS 和 BEOL,制造存储器阵列无需 FEOL 占用空间。
写入晶体管的高导通电流和低关断电流是通过采用具有氧隧道模块和凸起源/漏极触点的栅极配置以及使用相对较厚的栅极电介质(15 纳米)来实现的。读取晶体管具有更薄的 IGZO 通道(5 纳米)和更薄的栅极电介质(5 纳米)。对于外部电容器,研究人员实施了 9 纳米厚的 Al 2 O 3基金属-绝缘体-金属 (MIM) 电容器。
实验演示
由于读写晶体管的设计不同,因此将它们集成在不同的层上,以利用 IGZO 晶体管的 3D 堆叠能力并实现更密集的阵列。然而,要获得 MAC 操作的概念验证,只需实现类似设计的读写晶体管(即写入晶体管的设计)就足够了。
首先,测量了单个2T1C电池的保留时间和关断电流。实验显示,保留时间高达130秒,中位关断电流低至1.5×10 -19 A/m——源于IGZO通道材料的低带隙。
用于节能和节省面积的模拟内存计算的 DRAM
图 4:多个设备的存储节点电压 (V SN ) 的变化用于估计保留时间和关断电流,如 IMW 2023 所示。来源:imec
为了演示多级操作,不同的设备被编程为不同的权重级别,并监测存储节点电压的变化。即使在 400 秒后,仍然可以观察到不同的电压水平,显示出单单元多级编程的能力。
接下来,2T1C 增益单元已在 2×2 阵列配置中实现,以验证 MAC 操作。研究人员观察到,当在同一激活线上激活两个单元时,求和线上的读取电流增加——电容器节点上存储的权重相等。该电流几乎等于单独激活每个单元后获得的电流之和。
结果已扩展到 4×2 阵列。在另一组实验中,当改变存储的权重或激活时,观察到求和线电流的变化。这些测量表明,带有 IGZO 的 2T1C 增益单元可成功用于机器学习应用中的矩阵向量乘法。
用于节能和节省面积的模拟内存计算的 DRAM
图 5在 IMW 2023 上展示了对具有不同权重的存储节点进行编程的 2×2 阵列进行多级 MAC 操作。来源:imec
从2T1C到2T0C
对于 2T1C 单元,通过分别优化晶体管和外部电容器以实现低关断电流和高电容,实现了高保留时间。但早期由 imec 在 (3D) DRAM 应用框架内开展的工作证明,在无电容器实现中(在 2T0C 增益单元中)也可以获得较长的保留时间。
由于 IGZO 晶体管的关断电流极低,即使仅使用读取晶体管的栅极堆栈作为存储电容器,也可以实现长时间的保留。省去外部电容器有一些显着的优势。它降低了成本,并且由于电容器占用了相当大的面积,因此占用空间更小。在 IEDM 2021 上,imec 展示了一款基于 IGZO 的 2T0C DRAM 单元,其保留时间 >10 3秒,这是 IGZO 晶体管的关断电流极低的结果。
近,imec 的研究人员进一步将基于 IGZO 的 2T0C 器件的保留时间提高到 4.5 小时以上,并实现了关断电流 < 3×10 -21 A/?m——这是有史以来报道的 2T0C 器件的值。这些结果的关键是使用不同的技术对 2T0C 器件的有源模块进行图案化。
研究人员使用反应离子蚀刻 (RIE) 代替离子束蚀刻 (IBE)。事实证明,RIE 可以消除 IBE 引起的金属再沉积,从而抑制外部泄漏路径并延长保留时间。RIE 技术的另一个优点是能够在非常小的尺寸(小于 100 纳米)上进行图案化,从而进一步减少面积消耗。研究结果在 VLSI 2023 会议上进行了展示。
由于保留率的提高,研究人员还展示了存储节点电压的出色稳定性,表明其模拟行为对机器学习应用有利。他们成功证明了单单元 2T0C 设备上的多级编程和 2×2 阵列中的 MAC 操作。
用于节能和节省面积的模拟内存计算的 DRAM
图 6上图显示的是用于 MAC 操作的 2×2 2T0C 阵列 (a),在示例中,单元 1 和 3 首先单独激活 (b)。当两者都被激活时,两个电流在 SUM 线上相加,如 VLSI 2023 所示。