在当今SoC设计中,内存资源的分配与利用一直是系统架构师面临的核心挑战。随着多媒体移动设备功能的日益复杂,一颗典型的SoC芯片可能集成数十个专用IP核,包括3D图形处理器、视频编解码器、AI加速器等。传统架构为每个IP核分配独立的本地SRAM存储器,这种设计虽然保证了访问速度和带宽,却造成了严重的内存资源浪费——因为在实际应用中,所有IP核同时活跃的情况极为罕见。
2009年NEC团队提出的芯片堆叠内存技术,通过三维封装将可配置内存芯片垂直堆叠在逻辑芯片上方。这种创新架构的核心在于:
实测数据显示,在移动电话SoC应用中,该技术可减少50%的片上SRAM占用,同时提供8GB/s的峰值内存带宽。这种架构特别适合当今的异构计算场景,如需要频繁调整内存分配的AI加速器和多媒体处理器。
技术亮点:相比传统微凸块(micro-bump)50μm的电极间距,本设计采用Au/Cu复合电极实现10μm间距,互连密度提升25倍,这是实现高带宽内存访问的物理基础。
芯片堆叠内存的核心是由内存元素(Memory Element, ME)组成的可配置矩阵。每个ME包含:
这些ME通过2D网状网络相互连接,形成灵活的内存资源池。当SoC中的某个IP核需要内存资源时,系统会动态分配一组相邻的ME形成专属内存区域。这种设计带来三大优势:
传统2D网状网络需要为每个ME配备完整的开关阵列,导致面积开销过大。本设计采用创新方案:
这种"时分复用"设计将水平互连线数量减少50%,同时通过精确的时钟同步保持完整的数据吞吐率。写操作则采用串行信号传输,在目标RAM端进行解串操作。
为减少垂直方向的布线资源,本设计采用位分割路由技术:
当IP核需要更大带宽时,可通过配置多个ME的并行工作来满足需求。这种设计在512KB内存区域中,将垂直互连逻辑面积减少46%,同时保持灵活的可扩展性。
传统2D网状网络需要复杂的路由控制逻辑,本设计创新性地采用AND逻辑开关阵列:
相比传统的仲裁器缓冲或交叉开关设计,AND逻辑方案将开关阵列面积减少58%,延迟降低43%。在16个ME组成的512KB内存区域中,实测读取延迟仅5.9ns(含83ps芯片间传输延迟)。
芯片堆叠内存的实现依赖于三项核心工艺:
原型芯片尺寸为1.9mm×2.2mm,包含4×8个ME阵列。每个ME实际面积为0.12mm²,其中SRAM单元仅占0.028mm²,互连逻辑占0.092mm²。这种设计使得内存芯片的面积效率达到传统SRAM宏的92%。
在125MHz工作频率下,系统展现出色性能:
图3.3.6所示的实测波形显示,系统能在运行中将一个32-ME的内存区域即时拆分为两个16-ME区域,且两个新区域可分别工作在100MHz和62.5MHz不同频率下,充分证明了架构的灵活性。
这项技术特别适合三类应用:
在NEC测试的移动电话芯片中,用堆叠内存替代32KB以上的SRAM模块,直接减少了50%的片上SRAM面积。
虽然该论文发表于2009年,但其设计理念对当今芯片设计仍有重要参考价值:
值得注意的是,随着TSV(Through-Silicon Via)技术的成熟,当代3D堆叠内存(如HBM)已实现更高密度集成,但本文提出的动态配置思想和高效互连方案仍具创新价值。
结合近年技术发展,可以考虑以下演进路径:
这项15年前的研究为当今的存算一体架构和3D集成技术提供了重要参考,其核心思想——通过硬件重构提高资源利用率——仍然是芯片设计领域永恒的追求。