1. 模拟内容寻址存储器的革命性突破
在传统计算架构中,数据存储和数据处理是两个分离的环节。当我们进行搜索操作时,处理器需要将存储单元中的数据逐行读取到寄存器中进行比对,这个过程不仅消耗大量时间,还会产生显著的能耗。香港大学李灿教授团队研发的模拟内容寻址存储器(Analog Content-Addressable Memory,简称ACAM)从根本上改变了这一范式。
这项技术的核心创新在于实现了"存算一体"的架构设计。通过在存储单元中直接集成计算功能,使得数据在存储位置就能完成搜索比对,完全避免了数据搬运带来的延迟和能耗。实测数据显示,其搜索速度达到惊人的36皮秒(1皮秒=10^-12秒),比传统方案快约一亿倍;能耗方面更是突破性地降至0.1飞焦(1飞焦=10^-15焦耳)每单元搜索。
技术亮点:传统SRAM型内容寻址存储器的能耗通常在毫焦级别,而ACAM的能效提升达到10^12量级,这种跨越式的进步主要得益于材料创新和架构设计的双重突破。
2. 核心技术解析:二维材料与接触优化
2.1 二硫化钼材料特性
研究团队选择二硫化钼(MoS2)作为基础材料并非偶然。这种二维材料具有以下独特优势:
- 原子级厚度(约0.7nm),可实现极高的集成密度
- 优异的半导体特性,带隙约1.8eV(体材料)至1.2eV(单层)
- 高载流子迁移率(室温下可达200cm²/V·s)
- 极低的关态电流(<1pA/μm)
在实际器件制造中,团队采用了化学气相沉积(CVD)法生长大面积均匀的二硫化钼薄膜,通过光刻工艺将其加工成宽度仅50nm的沟道,单个存储单元面积控制在0.1μm²以内。
2.2 锑电极的接触工程突破
传统金属-半导体接触中的肖特基势垒是限制器件性能的主要瓶颈。团队创新性地采用锑(Sb)作为接触金属,实现了三大突破:
-
费米能级去钉扎效应:锑的电子态密度接近零,有效抑制了金属诱导的能隙态(MIGS),使肖特基势垒高度降低至0.1eV以下。
-
超低接触电阻:实测接触电阻仅400-700Ω·μm,接近量子极限。对比传统钛/金电极(通常>5kΩ·μm),提升了一个数量级。
-
优异界面稳定性:在85℃/85%RH老化测试1000小时后,接触特性衰减<5%,满足工业级可靠性要求。
这种接触优化使得器件开态电流达到60μA/μm,开关比超过10^9,为后续阵列集成奠定了坚实基础。
3. 阵列架构与搜索机制
3.1 8×16单元阵列设计
研究团队构建的存储阵列包含256个(8行×16列)独立可编程单元,每个单元的核心参数:
- 编程电压范围:0-5V(步进10mV)
- 阈值电压调节精度:±20mV
- 数据保持时间:>10年(85℃下)
- 耐久性:>10^6次编程/擦除循环
阵列采用分级字线/位线结构,通过外围的模拟-数字转换器(ADC)和数字-模拟转换器(DAC)实现精确的电压控制。实测成品率达到89.45%,对于研究阶段的二维材料器件已属较高水平。
3.2 并行搜索工作原理
当输入查询电压V_query时,所有256个单元同时进行以下比对操作:
- 每个单元将存储的阈值电压V_th与V_query比较
- 匹配判定条件:|V_query - V_th| < V_window(可编程窗口电压,默认50mV)
- 匹配单元保持位线高电平(~1V),不匹配单元拉低位线(<0.1V)
这种并行处理机制使得无论阵列规模如何扩大,搜索时间都保持恒定36ps。相比之下,传统串行搜索的延迟随数据量线性增长,当处理256位数据时,时延通常超过10ns。
4. 实际应用验证:k近邻分类
为验证ACAM的实际应用价值,团队在四个经典数据集上进行了k近邻(k-NN)分类测试:
| 数据集 | 特征维度 | 准确率 | 能耗(fJ/query) | 延迟(ps) |
|---|---|---|---|---|
| MNIST手写数字 | 64 | 98.89% | 25.6 | 36 |
| 鸢尾花 | 4 | 93.33% | 1.6 | 36 |
| 威斯康星乳腺癌 | 30 | 97.37% | 12.0 | 36 |
| 葡萄酒 | 13 | 100% | 5.2 | 36 |
实现流程:
- 特征归一化:将各特征值线性映射到0-5V范围
- 编程存储:将训练样本阈值电压写入ACAM阵列
- 查询阶段:输入测试样本电压,读取匹配结果
- 投票决策:取汉明距离最小的k个邻居确定分类
实操提示:在实际部署时,建议采用动态电压窗口调节技术。对于噪声较大的数据(如医疗信号),可适当增大V_window提高容错性;对高精度需求场景,则减小V_window提升区分度。
5. 进阶技术路线
5.1 双栅结构优化
团队进一步开发了双栅结构闪存单元,关键技术参数对比:
| 参数 | 单栅结构 | 双栅结构 | 提升幅度 |
|---|---|---|---|
| 开关比 | 10^9 | 10^10 | 10倍 |
| 开态电流(μA/μm) | 60 | 85 | 42% |
| 亚阈值摆幅(mV/dec) | 65 | 58 | 11% |
双栅设计通过在沟道上下方各设置一个独立栅极(顶栅:Al2O3/HfO2叠层;底栅:300nm SiO2),实现了更强的沟道控制能力。特别是在低电压(<1V)工作时,双栅结构展现出更优异的稳定性。
5.2 三维互补闪存集成
为突破二维平面集成的限制,团队创新性地将n型MoS2与p型WS2垂直堆叠,形成互补型存储单元:
- 面积效率:相比平面布局节省50%面积
- 性能优势:互连长度缩短30%,RC延迟降低45%
- 功能扩展:支持AND/OR/NOT等布尔运算
- 制备关键:采用范德华力辅助转印技术,界面态密度<10^11 cm^-2
这种三维集成方案为未来实现多层存储计算一体化芯片提供了可行路径。
6. 应用前景与挑战
6.1 潜在应用场景
-
边缘智能设备:
- 人脸识别:本地化特征比对,保护隐私
- 语音唤醒词检测:超低功耗常开监听
- 传感器数据分析:实时模式识别
-
网络基础设施:
- 路由表查找:单周期匹配
- 入侵检测:并行规则匹配
- 流量分类:实时QoS决策
-
医疗电子:
- 心电图异常检测:植入式设备应用
- 血糖趋势预测:连续监测分析
- 医学影像检索:类似病例匹配
6.2 商业化挑战
虽然实验室成果显著,但要实现大规模商用还需解决:
-
制造工艺:
- 晶圆级二维材料均匀生长
- 高精度图案化刻蚀(CD<20nm)
- 后端互连可靠性(热预算<400℃)
-
系统集成:
- 模拟/数字接口标准化
- 错误校正机制(ECC)
- 温度补偿电路设计
-
应用生态:
- 专用编程工具链开发
- 算法映射优化框架
- 与传统计算架构的协同设计
李灿教授表示,团队正与工业界合作开发基于300mm晶圆的制造工艺,目标在3-5年内实现>1Mb阵列的工程样片。同时探索在Transformer注意力机制中的应用,可能为AI硬件带来革命性突破。