Arm AArch64 RAS架构：硬件错误处理机制详解

小黄人95

1. Arm AArch64 RAS架构概述

在服务器和嵌入式系统中，硬件错误处理能力直接关系到系统的可靠性。Arm AArch64架构中的RAS（Reliability, Availability, and Serviceability）扩展提供了一套完整的硬件错误检测、记录和处理机制。这套机制通过专门的系统寄存器实现，能够有效应对内存错误、总线传输错误等各类硬件异常情况。

RAS的核心思想是将错误分为三类：可纠正错误（Corrected Error）、可延迟错误（Deferred Error）和不可纠正错误（Uncorrected Error）。每种错误类型都有对应的处理策略，系统可以根据错误的严重程度采取不同的恢复措施。这种分级处理机制使得系统在遇到非致命错误时能够继续运行，同时为致命错误提供详细的诊断信息。

提示：在Armv8.2及更高版本中，RAS扩展成为可选功能，但在实际应用中，特别是服务器和数据中心场景，建议选择支持完整RAS功能的处理器。

2. RAS寄存器组详解

2.1 ERXSTATUS_EL1寄存器

ERXSTATUS_EL1（Error Record Status Register）是RAS机制中最重要的状态寄存器之一，它记录了当前选定错误记录（通过ERRSELR_EL1选择）的主要状态信息。这个寄存器采用位字段设计，每个位或位组都有特定的含义：

V位（bit 30）：指示当前错误记录是否有效。当硬件检测到新错误时，会自动将此位置1。
UE位（bit 29）：表示是否检测到不可纠正错误。这类错误通常需要系统级处理，如隔离故障组件。
CE位（bits 25:24）：记录可纠正错误状态。值0b10表示至少检测到一个可纠正错误，这类错误通常由硬件自动修复。
DE位（bit 23）：标记可延迟错误。这类错误不会立即导致系统故障，但需要软件在适当时机处理。

寄存器中还包含错误类型细分字段（UET），可以区分不可纠正错误的具体类型，如不可恢复错误（UEU）、可恢复错误（UER）等。这种细粒度的错误分类为系统恢复策略提供了重要依据。

2.2 ERXPFGCTL_EL1寄存器

ERXPFGCTL_EL1（Error Record Pseudo-Fault Generation Control Register）用于控制伪错误生成功能，这在系统测试和验证阶段非常有用。主要功能位包括：

CDNEN（bit 31）：错误生成计数器使能位。当置1时，会将ERXPFGCDN_EL1中的值加载到错误生成计数器。
CE（bit 6）：控制是否生成可纠正错误类型的伪错误。
DE（bit 5）：控制是否生成可延迟错误类型的伪错误。
UC（bit 1）：控制是否生成不可控制错误类型的伪错误。

这个寄存器通常用于系统可靠性测试，通过人为注入错误来验证错误处理流程的正确性。在正式生产环境中，一般会禁用这些功能。

2.3 ERXPFGF_EL1寄存器

ERXPFGF_EL1（Error Record Pseudo-Fault Generation Feature Register）描述了硬件支持的伪错误生成功能特性。这是一个只读寄存器，软件开发人员可以通过它查询处理器支持的伪错误类型和能力。关键字段包括：

R（bit 30）：指示是否支持错误生成计数器重启模式。
SYN（bit 29）：指示是否支持错误综合征注入。
CE（bit 6）：指示是否支持生成可纠正错误。
DE（bit 5）：指示是否支持生成可延迟错误。

3. RAS错误处理流程

3.1 错误检测与记录

当硬件检测到错误时，RAS机制会按照以下流程处理：

根据错误严重性分类：可纠正错误、可延迟错误或不可纠正错误。
选择可用的错误记录（error record）存储错误信息。每个处理器核心通常有多个错误记录。
更新ERXSTATUS_EL1寄存器，设置相应的状态位（V、UE、CE、DE等）。
如果错误与内存访问相关，会将错误地址写入ERXADDR_EL1寄存器。
对于需要详细诊断信息的错误，会将附加信息写入ERXMISCn_EL1寄存器组。

3.2 错误处理与恢复

系统软件（通常是操作系统内核或hypervisor）通过以下方式处理记录的错误：

定期轮询或通过中断检查ERXSTATUS_EL1寄存器的V位。
当发现有效错误记录时，读取ERXSTATUS_EL1确定错误类型和严重程度。
根据错误类型采取相应措施：
- 对于可纠正错误：记录日志后清除状态位。
- 对于可延迟错误：在适当的时候进行恢复操作。
- 对于不可纠正错误：根据UET字段决定是尝试恢复还是触发系统panic。
通过写1清除（W1C）方式清除已处理的错误状态位。

注意：处理错误记录时要注意顺序，通常应该先读取所有相关信息（状态、地址、附加信息），然后再清除状态位，避免信息丢失。

4. RAS编程实践

4.1 寄存器访问控制

RAS寄存器通常只能在EL1及以上特权级访问，EL0（用户态）访问会导致未定义指令异常。访问控制还受到其他系统寄存器的影响：

SCR_EL3.FIEN：控制EL3下的错误注入功能访问
HCR_EL2.FIEN：控制EL2下的错误注入功能访问
EDSCR.SDD：调试状态下的访问权限

典型的寄存器访问代码示例：

assembly复制// 选择错误记录0
MOV x0, #0
MSR ERRSELR_EL1, x0

// 读取错误状态
MRS x1, ERXSTATUS_EL1

// 检查是否有效错误记录
TBNZ x1, #30, handle_error

4.2 错误注入测试

在开发阶段，可以使用伪错误注入功能测试系统的错误处理能力：

通过ERRSELR_EL1选择要使用的错误记录
在ERXPFGCDN_EL1中设置错误生成计数器初始值
配置ERXPFGCTL_EL1启用特定类型的伪错误生成
等待错误被触发并验证处理流程

assembly复制// 设置伪错误注入
MOV x0, #0          // 选择记录0
MSR ERRSELR_EL1, x0

MOV x0, #100        // 计数器初始值
MSR ERXPFGCDN_EL1, x0

MOV x0, #(1<<31 | 1<<6)  // 启用计数器并设置生成CE错误
MSR ERXPFGCTL_EL1, x0