Arm Corstone架构NPU与CPU协同设计及优化实践

规则哥讲规则

1. Arm Corstone架构中的NPU与CPU协同设计解析

在边缘计算和物联网设备快速发展的今天，AI工作负载的处理需求呈现爆炸式增长。Arm Corstone参考架构应运而生，通过神经网络处理器(NPU)与通用处理器(CPU)的协同设计，为嵌入式设备提供了高效的AI加速解决方案。这套架构特别适合需要实时响应、低功耗运行且对安全性有严格要求的应用场景，如智能家居、工业自动化、可穿戴设备等。

Corstone架构的核心创新在于其模块化设计理念。NPU作为专用加速器，专注于机器学习推理任务；而Cortex-M系列CPU则处理通用计算和系统控制。两者通过高效的总线互联和内存共享机制协同工作，既发挥了专用硬件的高效能，又保持了系统编程的灵活性。这种异构计算模式使得设备能够在有限的功耗预算下，实现复杂的AI功能。

2. Ethos-U系列NPU的架构特性

2.1 可配置的NPU阵列

Corstone Ma2架构支持配置1到4个Ethos-U55、Ethos-U65或Ethos-U85 NPU处理器。这种多核设计允许系统根据性能需求和功耗预算灵活调整计算资源。每个NPU可以独立配置，但有一个关键限制：如果某个NPU支持CUSTOM_DMA_PRESENT配置，那么所有NPU都必须遵循这一配置。

实际部署时，建议根据工作负载特性选择NPU型号。Ethos-U55和U65适合中等算力需求，而U85则针对高性能场景，支持更先进的数据分片技术。

NPU的调试能力因型号而异：

Ethos-U55/U65：不支持硬件调试暂停控制，调试时需通过软件触发特定例程
Ethos-U85：当HASCSS=1时支持基于CTI的调试暂停控制

2.2 内存访问与保护机制

所有NPU都能访问系统内存映射的大部分区域，除了CPU的指令TCM和数据TCM区域。内存保护通过以下组件实现：

管理器安全控制器(MSC)
实现定义属性单元(IDAU)
内存保护控制器(MPC)：用于安全世界与非安全世界的内存隔离
外设保护控制器(PPC)：用于外设的特权级和安全域隔离

值得注意的是，架构没有为特权或非特权内存访问提供保护。如果非特权软件访问特权内存的风险可接受，建议将NPU开放给非特权软件使用。

2.3 Ethos-U85的数据分片技术

Ethos-U85支持创新的数据分片(Striping)技术，当配置有2或4个SRAM接口时，这项技术能显著提升系统带宽利用率。要实现最佳性能，需满足以下条件：

启用VM bank分片，且分片内存的路数与NPU的SRAM接口数量匹配
VMCFGHASH0和VMCFGHASH1配置也用于定义Ethos-U85的CFGSRAMHASH0和CFGSRAMHASH1
对于有2个DRAM接口的配置，建议使用Ethos-U85的CFGEXTHASH0配置实现DRAM分片

分片技术通过将数据分散到多个内存通道并行访问，有效缓解了带宽瓶颈，特别适合卷积神经网络等数据密集型运算。

3. Cortex-M系列CPU的关键配置

3.1 处理器核心配置选项

Corstone Ma2支持1到4个ARMv8-M MVE处理器核心，每个核心有以下强制配置要求：

配置项	要求值	说明
SECEXT	1	必须包含Armv8-M安全扩展
MPU_NS	>0	非安全MPU区域数量
MPU_S	>0	安全MPU区域数量
SAU	>0	SAU区域数量
NUMIRQ	CPUEXPNUMIRQ+32	每个处理器的外部中断数量
IWIC	HASCPUIWIC	是否包含内部唤醒中断控制器(IWIC)
CTI	DEBUGLEVEL≠0时1	是否包含交叉触发接口单元

3.2 内存子系统配置

处理器内存相关配置对系统性能有重大影响：

TCM配置：
- ITCM和DTCM大小不能设置为0
- 大小编码为2^(CFGITCMSZ-1)KB和2^(CFGDTCMSZ-1)KB
- 建议ITGUBLKSZ和DTGUBLKSZ与VMMPCBLKSIZE保持一致
PAHB端口：
- 存在时必须配置为128MB(0b010)
- 支持64MB到512MB多种容量选项
数据端序：
- 默认配置为小端模式(CFGBIGEND=0)
- 也可选择字节不变的大端模式(BE8)

3.3 中断系统设计

Corstone架构提供了丰富的中断源，包括：

PPU中断
消息处理单元(MHU)
安全相关中断
定时器和看门狗
交叉触发中断
NPU中断
DMA中断

每个CPU的中断映射具有一致性，前32个中断中：

IRQ[0-1]：非安全看门狗相关
IRQ[2-5]：定时器中断
IRQ[6-7]：专属于每个CPU的MHU中断
IRQ[16-19]：对应NPU0-3的中断

中断唤醒功能通过外部唤醒中断控制器(EWIC)和可选的IWIC实现，支持处理器在低功耗状态下仍能响应关键事件。

4. 系统互连与内存架构

4.1 三级互连结构

Corstone Ma2定义了三种关键互连：

主互连：
- 提供最高总线吞吐量
- 主要用于代码/数据访问内存或高速接口
- 推荐匹配处理器的吞吐能力
外设互连：
- 面向低性能外设访问
- 建议采用比主互连低的性能配置
- 必须支持安全属性、特权级别等关键访问属性的传递
TCM互连：
- 提供对CPU内部紧耦合内存(TCM)的访问
- 来自TCM从接口、主互连和DMA
- 遵循TCM从接口的映射和属性

虽然架构定义了三种独立互连，实际实现中可以合并，只要不改变软件的视角。

4.2 内存保护与分片

Corstone支持0到4个可变内存(VM)bank，每个bank：

大小必须为2的幂次方
通过VMADDRWIDTH配置(2^VMADDRWIDTH字节)
总内存容量不超过16MB
映射到0x2100_0000起始地址(别名为0x3100_0000)

内存保护关键点：

每个VM都有关联的内存保护控制器(MPC)
复位时所有内存区域默认映射到安全世界(cfg_init_value=0b0)
必须使用相同的MPC块大小(VMMPCBLKSIZE)

内存分片模式：

无分片
VM0和VM1分片
VM2和VM3分片
所有四个VM分片

分片大小由VMSTRIPEBIT定义，模式由VMSTRIPEMODE决定，哈希算法由VMCFGHASH0/1配置。

5. 安全隔离与系统控制

5.1 NPU安全状态转换

NPU支持不同安全模式运行，转换安全状态需要复位。关键寄存器包括：

NPUSPPORSL.SP_NPUPORSL：决定默认安全级别
NPUSPPORPL.SP_NPUPORPL/NPUNSPORPL.NS_NPUPORPL：决定默认特权级别

安全级别转换必须遵循特定序列，例如从安全(S)到非安全(NS)的步骤包括：

读取当前安全状态
保留目标安全状态的特权级别
通过CMD.power_q_enable防止NPU掉电
设置RESET.pending_CSL为新安全级别
轮询STATUS寄存器直到复位完成
更新NPUSPPORSL寄存器
允许NPU掉电

5.2 系统控制基础设施

Corstone提供四类寄存器块进行系统管理：

安全访问配置寄存器：
- 配置PPC和MSC
- 仅限安全访问
非安全访问配置寄存器：
- 配置PPC
- 仅限非安全访问
系统信息寄存器：
- 提供系统配置和标识信息
系统控制寄存器：
- 管理电源、时钟、复位等系统功能

ACC_WAIT控制机制允许在以下情况下阻止系统访问：

系统退出休眠状态
系统复位
首次上电
安全设置重配置

软件可通过BUSWAIT.ACC_WAITN寄存器释放访问门控，确保安全基础设施正确初始化。

6. 实际部署建议与经验分享

6.1 NPU配置选择

根据项目需求选择合适的Ethos-U型号：

Ethos-U55：适合入门级AI应用，功耗预算<1mW
Ethos-U65：平衡性能与功耗，支持更复杂模型
Ethos-U85：高性能场景，支持数据分片，适合计算机视觉等带宽敏感型任务

实测数据显示，U85在图像分类任务中可比U55提升3倍能效比，但静态功耗高出约30%。建议在电池供电设备中谨慎选择。

6.2 内存布局优化

通过合理配置TCM和分片内存可显著提升性能：

将频繁访问的权重数据放在TCM中
激活数据使用分片内存提升吞吐量
静态配置数据可放在普通VM区域
确保关键数据结构的地址对齐到缓存行大小

一个典型的内存分配示例如下：

c复制// ITCM存放关键中断处理代码
__attribute__((section(".itcm"))) void critical_isr() {...}

// DTCM存放高频访问的中间数据
__attribute__((section(".dtcm"))) float feature_buffer[1024];

// 分片内存存放大型张量
__attribute__((section(".striped_ram"))) int32_t input_tensor[224][224];

6.3 安全配置实践

在安全敏感应用中，建议采用以下配置策略：

默认所有NPU运行在安全世界
仅开放必要的非安全访问通道
为每个安全域分配独立的DMA通道
定期检查MPC配置是否被篡改
使用SAU定义非安全世界可访问的严格内存区域

常见错误包括：

忘记配置PPC导致非特权访问越界
安全与非安全世界共享DMA通道造成数据泄漏
未正确初始化MPC使得敏感数据暴露

6.4 调试技巧

针对Corstone架构的特殊调试需求：

对于U55/U65，提前准备软件调试桩程序
使用CTI接口实现多核同步调试
在MPC配置错误时，检查BUSWAIT状态寄存器
利用系统信息寄存器验证实际硬件配置
在低功耗调试时，确保EWIC时钟正常

一个实用的调试流程是：

通过SYSINFO确认NPU数量和型号
检查各电源域供电状态
验证MPC/PPC配置是否符合预期
使用性能计数器定位瓶颈
逐步放开ACC_WAIT检查各阶段状态

7. 性能优化关键点

7.1 数据流设计

高效的数据流对NPU性能至关重要：

利用Ethos-U85的多接口并行传输
将计算与数据传输重叠(pipelining)
使用双缓冲技术隐藏内存延迟
对齐数据访问模式到NPU的优选模式

7.2 电源管理

Corstone提供了精细的电源控制：

独立控制每个NPU和CPU的电源域
根据负载动态调整电压频率
利用EWIC实现超低功耗待机
合理设置电源门控策略平衡唤醒延迟与静态功耗

实测案例显示，通过动态电压频率调整(DVFS)可节省多达40%的AI推理能耗。

7.3 中断延迟优化

对于实时性要求高的应用：

将关键中断分配给专用CPU核心
相关ISR放在ITCM中执行
为时间敏感任务保留最高优先级中断
避免在中断上下文中进行复杂内存操作

一个优化后的中断处理示例：

c复制// 在ITCM中定义低延迟ISR
__attribute__((section(".itcm"))) void low_latency_isr(void) {
    // 仅处理最紧急的任务
    *((volatile uint32_t*)0x40000000) = 1; // 触发硬件响应
    
    // 通过事件信号唤醒主处理线程
    __SEV();
}