ARM CHI协议解析：多核缓存一致性与高效原子操作

溪水边小屋

1. ARM CHI协议概述与缓存一致性基础

在现代多核处理器架构中，缓存一致性协议是确保系统正确运行的关键技术。ARM公司开发的CHI（Coherent Hub Interface）协议作为AMBA 5规范的一部分，为多核SoC设计提供了高效的缓存一致性解决方案。CHI协议通过定义精细的请求类型和状态转换规则，实现了处理器集群中各级缓存之间的数据同步。

1.1 CHI协议的核心组件

CHI协议架构主要包含三类节点：

请求节点(Request Node - RN)：产生一致性请求的代理，如CPU核、GPU或DMA控制器
归属节点(Home Node - HN)：管理特定内存地址域的一致性状态，负责请求的协调与响应
从属节点(Subordinate Node - SN)：作为内存控制器或外设接口，处理最终的数据读写

协议通过事务包(Transaction Packet)在这些节点间传递消息，每个事务包含：

地址域(Address Channel)
数据域(Data Channel)
响应域(Response Channel)

1.2 缓存状态模型

CHI协议定义了7种基本缓存状态，用两个字母缩写表示：

状态	全称	描述
UD	Unique Dirty	唯一且被修改的副本
UC	Unique Clean	唯一且干净的副本
SD	Shared Dirty	共享且被修改的副本
SC	Shared Clean	共享且干净的副本
I	Invalid	无效状态
UDP	Unique Dirty Pending	等待确认的唯一脏状态
UCE	Unique Clean Exclusive	独占的干净副本

状态转换遵循MESI协议的扩展规则，但增加了对持久化内存和原子操作的特殊支持。例如，CleanSharedPersist状态表示数据已持久化到非易失性存储，而MakeInvalid操作强制使缓存行无效。

2. CHI请求类型详解

2.1 Dataless请求

Dataless请求是不携带数据的控制类操作，主要用于缓存状态管理。表B4.9和B4.10展示了HN-F到SN-F以及HN-I到SN-I的Dataless请求属性：

markdown复制| 属性字段 | 说明 |
|----------|------|
| Size     | 固定64字节 |
| Excl     | 独占访问标志 |
| SnpAttr  | 监听属性 |
| MemAttr  | 内存类型属性 |
| Order    | 排序要求 |
| LikelyShared | 共享可能性提示 |
| ExpCompAck | 需要显式完成确认 |

典型Dataless请求包括：

CleanShared：将数据降级为共享状态
MakeInvalid：使缓存行无效
CleanInvalid：清理并无效缓存行

注意：Dataless请求的初始缓存状态必须符合表B4.11的规定。例如CleanUnique请求允许从UD/UC/SD/SC/I状态发起，但不能从UDP/UCE状态发起。

2.2 写请求(Write Transactions)

2.2.1 立即写(Immediate Write)

立即写事务直接将数据从请求节点传输到归属节点，无需先获取数据的所有权。主要子类型包括：

WriteNoSnp系列：
- WriteNoSnpFull：全缓存行写入非监听区域
- WriteNoSnpPtl：部分写入非监听区域
- WriteNoSnpZero：零值写入（不传输数据）
WriteUnique系列：
- WriteUniqueFull：全行写入监听区域
- WriteUniquePtl：部分写入监听区域
- *Stash变体：同时请求Stash目标节点获取缓存行

c复制// 示例：WriteUniqueFull的典型使用场景
void atomic_write(uint64_t *addr, uint64_t val) {
    // 1. 确保缓存行处于Invalid状态
    clean_invalidate_cache_line(addr); 
    // 2. 执行WriteUniqueFull
    *addr = val;  // 生成WriteUniqueFull事务
}

2.2.2 回写(CopyBack Write)

回写事务将一致性数据从缓存移动到下一级缓存或内存，不需要监听其他节点：

类型	数据状态	保留副本	适用场景
WriteBackFull	Dirty	否	常规回写
WriteCleanFull	Dirty	是	写回但保留干净副本
WriteEvictFull	Clean	否	缓存行逐出

关键区别：WriteBack会放弃数据所有权，而WriteClean在写回后仍保留可用的干净副本。

2.3 原子事务(Atomic Transactions)

原子事务将操作而非数据移动到数据所在位置，显著提升原子操作的性能。CHI支持四种原子事务：

AtomicStore：执行操作并更新内存，不返回旧值
- 支持8种算术/位操作（STADD, STCLR等）
AtomicLoad：执行操作并返回旧值
- 支持与AtomicStore相同的8种操作
AtomicSwap：交换内存和寄存器值
- 相当于x86的XCHG指令
AtomicCompare：比较并交换(CAS)
- 实现标准CAS操作：if(*ptr == old) *ptr = new

assembly复制; ARMv8 CAS操作与CHI AtomicCompare的对应关系
CAS Xd, Xn, [Xa]    ; 架构指令
=> AtomicCompare Xa, Xn(old), Xd(new)  ; CHI事务

原子事务的属性控制特别重要：

SnoopMe：当请求者不确定缓存状态时必须置1
Size：AtomicCompare的输入大小是输出的两倍（包含compare和swap值）
数据响应：除AtomicStore外都返回内存原始值

3. 高级特性与优化技术

3.1 组合写请求(Combined Write)

CHI允许将写请求与缓存维护操作(CMO)组合，减少事务数量。表B4.19展示了合法组合：

写类型	CleanShared	CleanInvalid	MakeInvalid
WriteNoSnpFull	✓	✓	✓
WriteUniqueFull	✓	✗	✓
WriteBackFull	✓	✓	✗

典型应用场景：

WriteBackFull + CleanShared：写回数据后立即降级为共享状态
WriteNoSnpFull + CleanInvalid：写入非一致性区域并清理缓存

3.2 内存属性控制

MemAttr字段控制事务的内存类型行为：

编码	内存类型	特性
0000	Device-nGnRnE	严格设备内存
0101	Normal Non-cacheable	普通非缓存
1101	Normal Write-Back	普通回写缓存

SnpAttr字段控制监听行为：

0：非监听（Non-snoopable）
1：监听（Snoopable）

3.3 持久化内存支持

CHI为持久化内存设计了特殊操作：

CleanSharedPersist：将数据持久化到非易失存储
CleanInvalidPoPA：持久化后使缓存无效
需要单独的Persist响应确认数据已持久化

4. 实现考量与性能优化

4.1 状态转换约束

表B4.12和B4.13严格规定了请求完成时的缓存状态：

写事务通常使请求者缓存状态转为Invalid
Dataless事务可能保持共享状态（如CleanShared）
原子事务必须使所有peer缓存转为Invalid

4.2 性能优化技巧

LikelyShared提示：帮助归属节点预测共享状态，减少监听过滤查询
- 0：可能独占
- 1：可能共享
DWT(Data-Write Transfer)：允许数据直接从请求节点传输到从属节点
- 需要OWO(Ordered Write Observation)支持
PrefetchTgt：预取目标事务
- 无响应机制
- 固定64字节大小
- 可用于隐藏内存延迟

4.3 常见问题排查

协议违反错误：
- 检查初始/最终状态是否符合表B4.11/B4.12
- 验证MemAttr/SnpAttr组合是否合法
性能瓶颈：
- 监控Atomic事务的SnoopMe使用率
- 分析WriteNoSnpDef的队列深度
持久化问题：
- 确保CleanSharedPersist收到Persist响应
- 检查PoPA(Persistence Point of Atomicity)配置

5. 实际应用案例

5.1 多核同步原语实现

使用CHI原子事务实现自旋锁：

c复制void spin_lock(uint32_t *lock) {
    while(AtomicSwap(lock, 1) == 1) 
        ; // 忙等待
}

void spin_unlock(uint32_t *lock) {
    AtomicStore(lock, 0); // 使用STCLR操作
}

5.2 持久化内存编程

CHI持久化操作在数据库日志中的应用：

c复制void write_transaction_log(LogEntry *entry) {
    // 1. 写入日志数据
    WriteNoSnpFull(entry); 
    
    // 2. 持久化操作
    CleanSharedPersist(&entry->header);
    
    // 3. 等待持久化确认
    wait_for_persist_ack();
}