ARM Revere-AMU架构：缓存预取与事务管理技术解析

邹晓航0号

1. ARM Revere-AMU架构概述

Revere-AMU是ARM公司设计的一种高性能计算架构，主要面向需要低延迟、高吞吐量的硬件加速场景。这个架构的核心创新点在于其独特的缓存管理和事务处理机制，能够显著提升系统整体性能。

在现代计算系统中，缓存和事务管理是两大关键性能瓶颈。传统架构中，数据需要在不同层级的缓存之间来回移动，造成不必要的延迟。而Revere-AMU通过创新的缓存预取技术，允许数据直接"存放"在靠近使用者的缓存中，大幅减少了数据移动的开销。

提示：Revere-AMU特别适合需要频繁进行设备间通信的场景，如网络数据包处理、存储加速、AI推理等应用。

2. 缓存预取机制详解

2.1 缓存预取的基本原理

缓存预取(Cache Stashing)是Revere-AMU的核心优化技术之一。它允许主设备(如CPU或硬件加速器)指示特定数据范围应该预加载到系统中靠近接收端的缓存中，而不是传统的从内存中读取数据的方式。

这种机制的工作原理是：

发送方在发送消息时，附带缓存预取控制信息
接收方的缓存控制器解析这些信息
数据被直接预取到接收方附近的缓存层级
接收方处理数据时，可以直接从本地缓存获取，无需等待内存访问

2.2 缓存预取的控制参数

Revere-AMU提供了精细的缓存预取控制，主要参数包括：

参数名称	作用范围	描述
STASH_ENABLE	会话级	启用/禁用整个会话的缓存预取功能
STASH_DEST	会话级	指定预取目标缓存的位置标识
STASH_CTL	会话/消息级	控制预取的具体区域和行为

缓存预取可以应用于三种数据：

Revere消息本身
带外缓冲表(Out-of-band buffer table)
带外缓冲区(Out-of-band buffers)

2.3 预取目标指定

STASH_DEST字段用于指定数据应该预取到哪个缓存节点。这个32位字段的具体含义取决于系统采用的互连协议：

2.3.1 AMBA 5 AXI系统中的预取目标

在AXI系统中，STASH_DEST字段映射到AWSTASH信号族：

位域	信号	描述
[17]	AWSTASHLPIDEN	逻辑处理器ID是否有效
[16:12]	AWSTASHLPID[4:0]	逻辑处理器标识符
[11]	AWSTASHNIDEN	节点标识符是否有效
[10:0]	AWSTASHNID[10:0]	节点标识符

2.3.2 AMBA 5 CHI系统中的预取目标

在CHI系统中，映射关系略有不同：

位域	字段	描述
[17]	StashLPIDValid	逻辑处理器ID是否有效
[16:12]	StashLPID	逻辑处理器ID
[11]	StashNIDValid	节点ID是否有效
[10:0]	StashNID	节点ID

值得注意的是，在CHI协议中，将StashLPIDValid和StashNIDValid都设置为0是有效的，这表示允许Home节点将数据预取到当前缓存数据的RN节点上。

2.4 预取区域控制

STASH_CTL字段用于精确控制哪些数据区域需要被预取。它支持定义两个独立的预取区域，这在处理类似网络数据包(需要同时预取包头和包尾)的场景中特别有用。

STASH_CTL的结构如下：

偏移量	位域	名称	描述
+0x00	[31:19]	STASH_LEN1	第一个预取区域的字节数
+0x00	[18:6]	STASH_OFFSET1	第一个预取区域相对于起始地址的偏移量
+0x00	[5:3]	STASH_TYPE	预取请求类型(实现定义)
+0x04	[24:12]	STASH_LEN2	第二个预取区域的字节数
+0x04	[11:0]	STASH_OFFSET2	第二个预取区域相对于起始地址的偏移量

3. 事务管理机制

3.1 全局观测保证

Revere-AMU的事务管理接口确保所有操作都能被全局观测(Globally Observed)，这是保证系统一致性的关键。当AMI(加速器消息接口)被静默(quiesced)时，AMU不会发送响应消息，直到满足以下条件：

AMU不会发出与范围内任何socket(AMS)相关的进一步事务
所有已发出的事务都已被全局观测

实现全局观测的具体机制由实现定义。例如，如果AMU是PCIe端点的一部分，可能需要执行零长度读取来确认已发布的事务已被全局观测。

3.2 功能级重置(FLR)

Revere-AMU支持完整的功能级重置机制，包括PF(物理功能)和VF(虚拟功能)的FLR。

3.2.1 PF功能级重置

PF FLR可由以下事件触发：

基础重置(Fundamental reset)
PF的功能级重置

PF重置会：

重置PCIe规范要求的所有状态
禁用所有VF(根据PCIe规范要求)
重置所有VF(但不生成VF重置通知消息)
将PF中的管理寄存器重置为默认值

3.2.2 VF功能级重置

VF FLR可由以下事件触发：

基础重置
PF的功能级重置
VF自身的功能级重置

VF重置会：

重置PCIe规范要求的所有状态
重置该VF配置的所有AMI_SW及相关AMS
重置该VF拥有的所有AMI_HW及相关AMS
将VF中的管理寄存器重置为默认值
向PF发送VF重置通知消息

VF重置通知消息允许PF软件驱动程序清除可能与当前VF用户关联的任何状态。由于重置时所有AMI_SW都被禁用，因此可以防止新用户在PF清除先前状态之前发送/接收消息的竞争条件。

3.3 AMI状态机

Revere-AMU定义了精细的AMI状态机，管理AMI的生命周期状态转换。主要状态包括：

AMI未映射(AMI unmapped)：没有所属功能，AMI未映射
AMI非活动(AMI inactive)：所属功能被禁用，AMI已映射但未启用
AMI静默(AMI quiesced)：所属功能已启用，AMI已映射且处于静默状态
AMI活动(AMI active)：所属功能已启用，AMI已映射且已启用

状态转换由各种管理消息触发，如PF-AMI-xW-MAP(映射)、PF-F-ENABLE(启用)、F-AMI-xW-DISABLE(禁用)等。

4. 软件消息接口实现

4.1 环形缓冲区设计

Revere-AMU使用环形缓冲区(ring buffer)实现软件间的消息传递。每个socket(AMS)关联一个环形缓冲区，具有以下特点：

单生产者单消费者模型
缓冲区大小必须是2的幂次方
槽位(slot)大小可配置(以双字为单位)，也必须是2的幂次方
支持两种接收模式：背压(back-pressure)和覆盖(overwriting)

环形缓冲区的主要参数包括：

RING_BASE_PTR：指向槽位数组起始的虚拟地址
RX_MODE：接收操作模式(0=背压，1=覆盖)
THRESHOLD：用于设置和清除摘要位的阈值
LOG2_SIZE：环形缓冲区大小的对数表示

4.2 接收操作模式

4.2.1 背压模式

在背压模式下，生产者(对于RX AMS是AMU)必须检查是否有可用空槽位。如果有，则将消息写入WRITE_INDEX指示的槽位并递增该索引；如果没有，则返回重试。

伪代码示例：

code复制if ((WRITE_INDEX - READ_INDEX) == (1 << LOG2_SIZE))
    return RETRY_LATER;
RING_BASE_PTR[(WRITE_INDEX & MASK) << (LOG2_MSG_LENGTH + 3)] = Message;
WRITE_INDEX++;

4.2.2 覆盖模式

在覆盖模式下，当环形缓冲区满时，生产者会尝试递增READ_INDEX，然后写入消息。这需要原子性的比较交换操作来避免竞争条件。

伪代码示例：

code复制if ((WRITE_INDEX - READ_INDEX) == (1 << LOG2_SIZE))
    COMPARE_AND_SWAP(&READ_INDEX, READ_INDEX, READ_INDEX + 1);
RING_BASE_PTR[(WRITE_INDEX & MASK) << (LOG2_MSG_LENGTH + 3)] = Message;
WRITE_INDEX++;

4.3 摘要机制

AMU维护状态位来指示RX socket上的新消息可用性和TX socket上的空间可用性。这些状态位被分组为：

TX_DIGEST：一个AMI-SW的所有TX状态位
RX_DIGEST：一个AMI-SW的所有RX状态位

摘要位的更新基于环形缓冲区的读写索引，但不需要实时反映socket状态。它们通过THRESHOLD参数控制，该参数可以表示为固定值或相对值(环形缓冲区大小的分数)。

THRESHOLD的编码方式如下表所示：

THRESHOLD值	对应的阈值
0	1个槽位
1	1/16槽位
2	1/8槽位
...	...
14	7/8槽位
15	全部槽位

4.4 AMI-SW类型

Revere-AMU支持不同类型的AMI-SW实现，主要区别在于AMS数据结构的存储位置和一致性保证：

类型A1：
- 部分AMS数据结构位于AMU内部的内存映射寄存器中
- 寄存器视图在系统中不一致(可能每个PE或集群有本地副本)
- 通常需要固定软件线程
类型A2：
- 部分AMS数据结构位于AMU内部的内存映射寄存器中
- 寄存器视图在系统中一致
- 可通过单一物理外设或多外设加一致性机制实现
类型B：
- 整个AMS数据结构位于普通内存中

类型A1和A2的寄存器布局包括：

每个TX AMS的READ_INDEX和WRITE_INDEX
每个RX AMS的READ_INDEX和WRITE_INDEX
TX_DIGEST和RX_DIGEST(只读)
TX_DIGEST_MASK和RX_DIGEST_MASK(读写)

5. 实际应用中的注意事项

5.1 缓存预取的优化策略

在实际部署缓存预取功能时，有几个关键考虑因素：

预取目标选择：
- 对于CPU密集型工作负载，应将数据预取到靠近CPU的缓存
- 对于加速器密集型工作负载，应预取到靠近加速器的缓存
- 在CHI系统中，可以依赖"跟随数据"的智能预取
预取区域选择：
- 典型场景是预取消息头尾(如网络数据包的包头和CRC)
- 避免过度预取导致缓存污染
- 根据实际访问模式调整STASH_LEN和STASH_OFFSET
预取类型选择：
- 不同的STASH_TYPE可以实现不同的预取行为(如预取但不保留、预取并保留等)
- 需要根据具体硬件实现进行调优