1. 自动驾驶软硬协同设计的行业背景
2016年特斯拉与Mobileye的分道扬镳,成为了自动驾驶行业发展的重要转折点。当时特斯拉坚持要掌握完整的自动驾驶技术栈,包括数据收集、算法开发和硬件设计,而Mobileye则不愿完全开放其黑盒系统。这场"离婚"促使特斯拉走上了自研芯片的道路,也为整个行业揭示了一个关键趋势:要实现真正领先的自动驾驶能力,必须实现软硬件的高度协同。
如今,中国自动驾驶企业正面临类似的抉择。蔚来、小鹏、理想等造车新势力纷纷投入巨资研发自研芯片,这背后反映的是行业对技术自主权的迫切需求。但自研芯片的道路并非坦途,企业普遍面临两大挑战:
-
高昂的开发成本:一颗车规级芯片从设计到量产需要投入数十亿元,流片失败的风险始终存在。更棘手的是,即使芯片设计成功,还需要投入大量资源进行算法适配和性能调优。
-
软硬件适配难题:算法团队和芯片团队往往各自为战,导致"芯片算力拉满但实际效能打折"的尴尬局面。这种割裂的开发模式造成了巨大的资源浪费。
提示:在自动驾驶领域,TOPS(Tera Operations Per Second)虽然是重要的性能指标,但实际系统效能往往只有理论值的30-50%。这种差距主要来自软硬件协同不足导致的资源利用率低下。
2. 理想汽车的软硬协同设计定律解析
2.1 从算力竞赛到效能优先的范式转变
过去几年,自动驾驶行业陷入了一场"算力军备竞赛"。车企宣传的芯片算力从几十TOPS迅速攀升到上千TOPS,仿佛更高的数字就意味着更强的自动驾驶能力。但这种粗放的比较方式忽略了一个关键事实:峰值算力≠有效算力。
理想汽车的研究揭示了问题的本质:当行业进入VLA(视觉-语言-行动)模型时代后,单纯堆砌算力已经无法满足需求。VLA模型需要像人类司机一样具备场景理解、意图推理和实时决策的能力,这对计算平台提出了全新的要求:
- 认知智能:需要处理复杂的语义理解和逻辑推理
- 实时性:必须在100ms内完成感知-决策-控制的全流程
- 能效比:车载环境对功耗和散热有严格限制
- 安全冗余:必须保证系统在极端情况下的可靠性
这些需求使得通用计算平台(如英伟达Orin)的局限性日益凸显,也促使理想提出了"端侧大语言模型的软硬协同设计定律"。
2.2 协同设计的数学框架
理想的研究建立了两大核心数学工具:
1. 损失函数扩展法则的车载化应用
这项技术源自大模型研发的常见实践,其核心思想是通过小规模实验预测大模型的性能上限。具体而言,模型错误率随规模变化的曲线具有可预测性,因此只需对小模型进行有限次训练,就能推算出:
- 给定硬件条件下能达到的最佳模型精度
- 达到目标精度所需的最小模型规模
- 不同规模模型的实际效能边界
这种方法可以节省90%以上的训练成本,使算法团队能在芯片流片前就准确评估其适用性。
2. 改进的Roofline性能建模
传统Roofline模型用于分析计算密集型应用的性能瓶颈,主要考虑计算能力与内存带宽的平衡。理想对其进行了三项关键改进:
- 增加了KV缓存需求分析
- 引入了MoE路由开销评估
- 整合了注意力机制的资源消耗模型
改进后的模型可以精确量化不同硬件配置对VLA模型性能的影响,为芯片设计提供数据支撑。
通过结合这两个工具,理想构建了PLAS(帕累托最优LLM架构搜索)框架。该框架能够在给定硬件约束下(算力、带宽、延迟、功耗等),自动寻找模型精度和推理速度的最优平衡点。
3. 协同设计的六大核心发现
基于大量实验验证,理想的研究得出了六个颠覆性结论,这些发现不仅指导了其自研芯片设计,也为行业提供了重要参考:
3.1 稀疏计算将成为标配
研究发现,在典型的车载批处理场景(batch size=1)下,MoE稀疏架构始终占据效率前沿。这意味着:
- 传统密集矩阵乘法单元将造成大量资源浪费
- 芯片需要原生支持动态路由和稀疏激活
- 计算单元应当具备灵活的拓扑重构能力
3.2 内存子系统比峰值算力更重要
测试数据显示,在VLA模型推理过程中,系统性能更多受限于内存带宽而非计算单元。这导致两个关键设计启示:
- "宽而浅"的架构更优:增加并行度比加深计算流水线更有效
- 专用缓存设计:需要为KV缓存和注意力机制分配独立的高速存储区域
3.3 阶段感知的微架构优化
VLA模型的推理过程可分为两个差异显著的阶段:
| 阶段 | 计算特征 | 资源需求 |
|---|---|---|
| Prefill | 高度并行 | 大量计算单元 |
| Decode | 序列依赖 | 大内存带宽 |
理想的解决方案是设计可动态重配的计算架构,在不同阶段自动调整资源分配策略。
3.4 突破传统Transformer架构限制
车载环境对传统神经网络架构提出了特殊挑战:
- 标准4倍FFN扩展比在车载场景下效率低下
- 激活函数成为新的性能瓶颈
- 混合精度运算能显著提升能效比
这要求芯片提供更灵活的矩阵乘单元和激活函数单元配比。
3.5 量化加速需要硬件原生支持
研究发现,在通用平台上,FP16到INT8的量化加速效果仅为理论值的65-80%。性能损失主要来自:
- 非线性算子的精度转换开销
- 缺乏专用的混合精度计算单元
- 算子融合支持不足
3.6 场景专用芯片的时代来临
综合所有发现可以得出一个根本结论:通用计算平台无法满足自动驾驶的多样化需求。未来的发展方向是:
- 为不同功能模块(感知、预测、规划)设计专用加速器
- 建立统一的片上互联架构
- 实现动态资源分配和功耗管理
4. 马赫100芯片的设计实践
基于协同设计理论,理想开发了首款自研芯片——马赫100,其设计充分体现了前述研究成果:
4.1 架构创新
马赫100采用了革命性的"三明治"架构:
- 顶层:可重构计算阵列(RCA),支持稀疏计算和动态路由
- 中间层:智能内存子系统,专为KV缓存优化
- 底层:基础计算引擎,提供确定性的低延迟响应
这种架构在英伟达Orin上的对比测试显示,在相同延迟下可实现19.42%的精度提升。
4.2 关键技术创新
- 动态微架构重构:根据Prefill/Decode阶段自动调整计算资源配置
- 混合精度加速引擎:原生支持从FP16到INT4的多种精度
- 确定性执行框架:保证最坏情况下的响应时间
- 能效优化:通过精细的时钟门控和电压调节实现15TOPS/W的能效比
4.3 实际部署效果
在全新理想L9上的实测数据显示:
- 端到端延迟降低40%
- 极端场景下的决策成功率提升35%
- 芯片功耗降低25%
- 系统成本减少30%
这些数据验证了协同设计理论的实用价值。
5. 对自动驾驶行业的启示
理想的这项研究为行业提供了三个关键启示:
5.1 技术层面
- 算法和芯片团队必须从项目初期就深度协作
- 建立量化的协同设计方法论
- 开发专用的性能评估工具链
5.2 组织层面
- 打破传统的部门壁垒
- 建立跨功能的敏捷团队
- 采用持续集成的开发流程
5.3 商业层面
- 重新评估自研芯片的ROI
- 构建差异化的技术护城河
- 优化供应链和成本结构
6. 未来展望
随着VLA模型在自动驾驶领域的广泛应用,软硬协同设计将成为行业标配。未来的发展方向可能包括:
- 3D堆叠芯片:通过垂直集成进一步提升能效比
- 光计算技术:突破传统硅基芯片的物理限制
- 类脑计算架构:更接近人类认知方式的硬件设计
- 联邦学习芯片:支持车端持续学习的安全硬件
理想的这项研究开启了一个新时代,证明了中国企业在自动驾驶核心技术上的创新能力。随着更多厂商采用协同设计方法,我们有望看到更智能、更安全、更经济的自动驾驶解决方案加速落地。