ISSCC 2026：AI芯片、存算一体与Chiplet技术解析-嵌云网-嵌入式AI开发资源站

ISSCC 2026：AI芯片、存算一体与Chiplet技术解析

许风倾秋

1. ISSCC 2026技术趋势全景解读

国际固态电路会议（ISSCC）作为集成电路设计领域的"奥林匹克"，每年都汇聚全球顶尖芯片研究成果。2026年的会议呈现出三大显著特征：AI计算芯片的专用化程度持续加深，存算一体架构实现重大突破，以及Chiplet互连技术迈向成熟商用阶段。

从工艺节点来看，5nm及以下先进工艺已成为高性能AI芯片的主流选择，而边缘计算领域则更注重在成熟工艺（如28nm、14nm）上实现能效突破。这种分化反映出不同应用场景对芯片需求的差异——云端需要极致性能，而边缘端更关注成本与功耗平衡。

在AI计算领域，专用架构创新成为焦点。IBM的Spyre加速器通过推理专用数据流设计，实现了INT8精度下315TOPS的算力；AMD则采用3D堆叠技术，将CDNA4架构的MI350 GPU内存带宽提升至8TB/s。值得注意的是，清华大学团队在28nm工艺上实现的LLM处理器，通过投机解码技术将token延迟降低到105-685μs，证明了算法-架构协同优化的巨大潜力。

存储技术方面，存算一体架构正从实验室走向产业化。MIT团队研发的模拟SRAM存算电路能效比达到传统数字AI核的120倍；三星则推出了集成存内计算功能的8nm HBM3e内存子系统，带宽高达1.2TB/s。这些创新正在重塑传统计算架构，为解决"内存墙"问题提供了新思路。

Chiplet互连领域呈现爆发式增长。韩国Rebellions的四芯粒AI SoC采用UCIe-Advanced接口实现16Gbps互连速率；南京大学团队研发的单端PAM4收发器创造了47.0Tb/s/mm的边缘带宽密度世界纪录。这些突破为异构集成提供了关键技术支持，使得"大芯片"设计不再受限于单晶片面积。

2. AI计算芯片深度解析

2.1 企业级推理加速器架构演进

IBM Spyre加速器的设计体现了企业级AI推理的三大需求：多精度支持、高硬件利用率和可扩展性。其架构创新主要体现在：

精度自适应流水线：通过可重构计算单元支持FP16到INT4的精度切换，每个计算单元包含4组并行处理引擎，可根据精度需求动态重组。例如，在INT8模式下，4个引擎可并行处理4个独立算子；而在FP16模式下，4个引擎可协作处理单个复杂算子。
数据流优化技术：采用"预取-计算-写回"三级流水线设计，配合片上SRAM的bank交错访问策略，将内存访问延迟隐藏了72%。实测显示，在ResNet50推理任务中，硬件利用率达到89%，远超行业平均的65%。
扩展性设计：通过PCIe 5.0的CXL协议实现多芯片缓存一致性，8芯片协同时可保持线性加速比。其采用的分布式权重缓存技术，使得模型参数在多芯片间自动分区，无需主机CPU介入调度。

实际部署中，Spyre在金融反欺诈场景表现出色。某银行部署4芯片系统后，交易风控延迟从23ms降至4ms，同时功耗降低60%。这得益于其特有的稀疏计算单元，在处理规则引擎输出的稀疏特征时能效提升3倍。

2.2 GPU架构创新与3D集成

AMD MI350系列GPU代表了3D堆叠技术的新高度。其架构特点包括：

计算Die（XCD）设计：采用台积电3nm工艺，每个XCD集成128个计算单元，通过硅通孔（TSV）实现与HBM3e的垂直互连。与传统2.5D封装相比，信号传输距离缩短85%，功耗降低40%。
混合精度引擎：创新性引入MXFP6/4格式，在Llama2-70B训练中，与FP16相比保持相同模型精度同时减少35%内存占用。其自适应精度调度器可根据层类型自动选择最优格式。
热管理突破：采用微流体冷却通道与热电材料结合的散热方案，即使在全负载下，结温也能控制在85°C以下。这使得计算Die可工作在1.2V的高电压下，获得更高频率提升空间。

在生成式AI场景的实测中，8卡MI350系统训练Stable Diffusion v3的吞吐量达到142 samples/sec，较前代提升1.7倍。其关键突破在于注意力计算优化——将KV缓存分布在HBM3e中，通过硬件预取减少80%的内存访问冲突。

2.3 芯粒架构与大模型推理

Rebellions的四芯粒AI SoC展现了Chiplet技术在AI领域的成熟应用。其关键技术包括：

UCIe-Advanced接口优化：
- 采用自适应均衡技术，在16Gbps速率下实现BER<10^-15
- 集成时钟数据恢复（CDR）电路，抖动控制在0.15UI以内
- 通过双向训练（training）机制自动校准最佳发送参数
Mesh互连网络：
- 每个路由节点支持8个方向的全双工通信
- 采用信用（credit）为基础的流控机制
- 最坏情况下延迟为3跳，带宽利用率达92%
内存协同设计：
- 每个NPU芯粒直连4颗HBM3e
- 通过地址转换层实现全局统一内存空间
- 支持原子操作和缓存一致性协议

在175B参数GPT模型推理测试中，该芯片保持1.2ms/token的延迟，功耗仅78W。其成功关键在于创新的动态批处理调度器，可自动合并来自不同用户的请求，将计算利用率提升至81%。

3. 存算一体技术突破

3.1 模拟存内计算电路设计

MIT团队的模拟SRAM存内计算方案解决了三个关键挑战：

精度问题：采用电荷域计算代替传统的电压域计算，将非线性误差降低到0.3%。通过引入参考单元阵列（reference cells）进行实时校准，保证8-bit计算精度。
噪声抑制：设计差分计算单元（Differential Computing Cell）抵消共模噪声；采用时序交错采样技术将热噪声降低12dB。
数据转换：开发逐次逼近型模数转换器（SAR ADC）与计算阵列直接集成，转换能耗仅0.05pJ/conversion。

在语音识别任务中，该芯片实现0.18pJ/MAC的能效，识别率与数字ASIC相当。其独特之处在于支持原位学习——权重更新通过脉冲宽度调制（PWM）直接写入SRAM单元，无需额外的DAC转换。

3.2 推荐系统专用加速器

清华-华为-字节的HYDAR芯片为推荐系统带来革命性改进：

混合计算架构：
- 稠密计算采用数字PE阵列（INT8）
- 稀疏部分使用模拟RRAM阵列（4-bit）
- 通过动态负载均衡器自动分配计算任务
检索优化：
- 粗粒度阶段：RRAM阵列并行计算1000个候选的相似度
- 细粒度阶段：数字PE精算Top-100结果
- 采用近似计算跳过相似度低于阈值的候选
数据流创新：
- 用户特征向量预存在RRAM中（非易失）
- 物品向量通过片上网络广播
- 支持流式更新——新物品入库无需中断服务

实际部署显示，在字节跳动视频推荐场景，相比传统CPU方案，HYDAR将吞吐量提升340倍，同时能耗降低98%。其成功关键在于充分挖掘推荐系统工作负载的特性——高并行、可近似、数据复用率高。

4. 高速互连技术进展

4.1 短距离接口技术突破

南京大学创纪录的PAM4收发器包含多项创新：

串扰消除：
- 采用混合型均衡器：前馈均衡（FFE）+判决反馈均衡（DFE）
- 实时监测4个相邻信道的信号模式
- 通过模拟计算生成抵消信号，串扰抑制达28dB
电源噪声抑制：
- 集成片上LDO与片外大电容组成两级滤波
- 采用时钟抖散（clock spreading）技术降低同步开关噪声
- 电源抑制比（PSRR）在1GHz达到45dB
眼图优化：
- 发送端预加重（pre-emphasis）可编程调节
- 接收端采用数据相关抖动消除技术
- 实现160mUI×40mV的眼图张开度

该技术已应用于平头哥的AI训练芯片，在HBM3E接口中实现4.8Tb/s的总带宽，误码率长期保持在10^-15以下。其价值在于证明成熟工艺也能实现极高带宽密度，为成本敏感型AI芯片提供选择。

4.2 低功耗边缘互连方案

电子科技大学的640Gbps收发器具有以下特点：

电源门控策略：
- 将收发器划分为16个独立供电域
- 基于流量预测提前50ns唤醒休眠模块
- 采用保留寄存器（retention register）保存关键状态
通道监测系统：
- 每符号（symbol）采样4次进行眼图监测
- 实时跟踪信号高频损耗与低频衰减
- 通过机器学习预测信道变化趋势
自适应均衡：
- 3-tap FFE + 3-tap DFE组合结构
- 系数更新周期可配置（10-100ns）
- 支持突发模式下的快速收敛（<20ns）

在小米智能眼镜中应用表明，该技术使芯粒间通信功耗降低62%，续航延长3小时。其创新点在于将传统用于长距离通信的自适应技术，优化适配边缘设备的短距离、突发性传输特征。

5. 技术挑战与未来展望

尽管2026年ISSCC展示了诸多突破，行业仍面临三大挑战：

3D集成的热管理：当堆叠层数超过8层时，热阻问题凸显。需要开发新型界面材料（如石墨烯导热层）和微流体冷却技术。
存算一体的大规模部署：模拟计算在精度与可编程性上的局限，使得其应用场景仍受限。数字-模拟混合架构可能是过渡方案。
Chiplet生态系统构建：接口标准、测试方法和可靠性验证仍需完善，特别是针对汽车等严苛环境的应用验证。

未来趋势将呈现以下特点：

领域专用架构深化：如IBM Spyre所示，针对特定负载（如推荐、生成式AI）的定制化加速器将成主流。
异构集成常态化：通过Chiplet技术组合不同工艺、架构的芯粒，如AMD将3nm计算Die与6nm I/O Die集成。
能效优先设计：边缘AI芯片将更注重每瓦性能，如电子科大的收发器通过精细功耗管理实现1.1pJ/bit。