ARM与Thumb过程调用标准解析与应用

泠川

1. ARM与Thumb过程调用标准深度解析

在嵌入式系统开发中，函数调用约定是确保不同编译单元之间正确交互的基础协议。ARM架构下的过程调用标准（Procedure Call Standard，简称PCS）定义了函数调用时寄存器使用规则、参数传递方式和栈帧管理机制，是编译器与汇编程序间的重要契约。本文将深入剖析ARM模式下的APCS（ARM Procedure Call Standard）和Thumb模式下的TPCS（Thumb Procedure Call Standard），揭示其设计原理和实际应用中的关键细节。

提示：过程调用标准不仅是编译器开发者的关注点，对于需要进行底层调试、性能优化或混合语言开发的工程师同样至关重要。理解这些规范能帮助开发者分析栈溢出问题、优化函数调用开销，以及处理跨模块的二进制接口问题。

1.1 寄存器角色定义与使用规范

1.1.1 ARM模式寄存器分工

在APCS标准中，ARM处理器的16个寄存器被赋予特定的角色：

寄存器	APCS名称	核心用途	调用保存要求
R0	a1	第一个参数/返回值	调用者保存
R1	a2	第二个参数/辅助返回值	调用者保存
R2	a3	第三个参数	调用者保存
R3	a4	第四个参数	调用者保存
R4-R7	v1-v4	局部变量寄存器	被调用者保存
R8	v5	附加局部变量寄存器	被调用者保存
R9	v6/sb	静态基址寄存器或附加变量寄存器	视情况而定
R10	v7/sl	栈限制寄存器	被调用者保存
R11	fp	帧指针	被调用者保存
R12	ip	临时工作寄存器	调用者保存
R13	sp	栈指针	必须保持对齐
R14	lr	链接寄存器（返回地址）	调用者保存
R15	pc	程序计数器	由分支指令自动维护

在函数调用边界，寄存器保存遵循"被调用者保存"（callee-saved）和"调用者保存"（caller-saved）的混合策略。具体来说：

参数寄存器a1-a4和临时寄存器ip由调用者负责保存
变量寄存器v1-v7、帧指针fp和栈限制寄存器sl由被调用函数负责保存
链接寄存器lr在非叶函数中必须由被调用者保存

1.1.2 Thumb模式的特殊约定

Thumb指令集作为ARM的16位压缩指令集，其TPCS标准在寄存器使用上有显著差异：

寄存器可见性：Thumb状态下只能直接访问r0-r7（低寄存器），高寄存器需要通过特殊指令访问
简化角色分配：
- r7承担双重角色：既作为变量寄存器v4，又在函数入口/出口时作为工作寄存器wr
- fp(r11)在Thumb模式下通常不使用，减少了栈帧管理的开销
- 静态基址寄存器sb在TPCS中完全取消，简化了重入函数的设计
参数传递：与ARM模式相同使用a1-a4传递前四个参数，但无法使用浮点寄存器传递浮点参数

assembly复制; Thumb函数典型入口序列
push    {r4-r7, lr}      ; 保存需要保留的寄存器
mov     r7, r8           ; 通过r7保存高寄存器值
push    {r7}
...

1.2 栈帧管理与回溯结构

1.2.1 栈的生长与限制

ARM架构采用满递减栈（Full Descending Stack）模型，具有以下特点：

栈指针sp指向最后压入的有效数据
入栈操作先递减sp再存储数据
栈空间向低地址方向生长

APCS定义了两种栈限制检查方式：

隐式检查：依赖MMU的内存保护机制，访问非法地址触发异常
显式检查：通过比较sp与sl（栈限制寄存器）的值主动检测

对于显式检查，标准要求sp必须始终保持在sl之上至少256字节的位置，这为小型函数的栈操作提供了安全缓冲区。典型的栈检查指令序列如下：

assembly复制; 小帧栈检查（≤256字节）
cmp     sp, sl
blo     __rt_stkovf_split_small
sub     sp, sp, #frame_size

; 大帧栈检查（>256字节）
sub     ip, sp, #max_frame_size
cmp     ip, sl
blo     __rt_stkovf_split_big

1.2.2 栈回溯数据结构

在需要调试支持的APCS变体中，函数调用会创建栈回溯结构（Stack Backtrace Structure），包含以下关键信息：

返回地址（保存的lr值）
前一帧指针（fp链）
保存的寄存器上下文
参数区域（可选）

典型的ARM模式栈帧布局如下：

code复制高地址
+-------------------+
| 参数5+            | ← 调用者的sp
+-------------------+
| 返回lr            |
+-------------------+
| 前一帧fp          | ← 当前fp指向这里
+-------------------+
| 保存的r4          |
+-------------------+
| 保存的r5          |
+-------------------+
| 局部变量          | ← 当前sp
低地址

创建栈回溯结构的标准指令序列：

assembly复制mov     ip, sp          ; 保存当前sp
stmfd   sp!, {a1-a4}    ; 保存参数寄存器（可选）
stmfd   sp!, {v1-v5, fp, ip, lr, pc}  ; 保存寄存器上下文
sub     fp, ip, #4      ; 建立帧指针

注意事项：在Thumb模式下，由于指令集限制和性能考虑，通常不构建完整的栈回溯结构。调试Thumb代码时可能需要依赖额外的调试信息或ARM模式下的栈展开。

1.3 参数传递与返回值规则

1.3.1 基本参数传递机制

APCS定义了严格的参数传递规则：

前四个整型参数：通过a1-a4寄存器传递
剩余参数：通过栈传递，按反向顺序压栈（使第一个栈参数位于固定偏移处）
浮点参数：
- 硬浮点变体（hardfp）：使用f0-f3传递前四个浮点参数
- 软浮点变体（softfp）：转换为整型通过a1-a4传递

c复制// 参数传递示例
void func(int a, double b, char* c, float d, int e);
/*
a → a1
b → f0（hardfp）或a2+a3（softfp）
c → a3（hardfp）或a4（softfp）
d → f1（hardfp）或栈第一个字（softfp）
e → 栈第二个字
*/

1.3.2 特殊值处理

64位整型（long long）：占用两个连续的寄存器（a1+a2）或栈空间
结构体：
- 小结构体（≤4字节）可能通过寄存器传递
- 大结构体通过引用传递（隐式添加隐藏参数）
位域：按照整数类似规则处理，但对齐要求更复杂

对于返回值的处理：

简单类型（≤4字节）通过a1返回
浮点类型在hardfp下通过f0返回
复杂类型通过隐藏的首参数（返回缓冲区指针）传递

c复制// 返回结构体的实际调用方式
struct Big { ... };
struct Big foo();

// 实际转换为：
void foo(struct Big* hidden_result);

1.3.3 Thumb模式的特殊限制

TPCS在参数传递上有以下简化：

无浮点寄存器支持：所有浮点参数都通过整型寄存器或栈传递
高寄存器不可用：无法使用r8-r11传递参数
尾调用优化受限：由于Thumb分支指令的跳转范围有限（±2048字节），尾调用优化更难实现

2. 函数入口与出口的完整处理流程

2.1 ARM模式函数入口序列

一个完整的ARM函数入口处理包含多个阶段，每个阶段都有特定的考虑因素。

2.1.1 标准入口序列

典型的非叶函数入口指令序列：

assembly复制func_name:
    mov     ip, sp                  ; 保存原始sp到ip
    stmfd   sp!, {a1-a4}            ; 保存可能被覆盖的参数寄存器
    stmfd   sp!, {v1-v5, sb, fp, ip, lr, pc}  ; 保存寄存器上下文
    sub     fp, ip, #4              ; 建立帧指针
    sub     sp, sp, #local_size     ; 分配局部变量空间
    ; 栈限制检查（如果需要）
    cmp     sp, sl
    blo     stack_overflow_handler

关键步骤解析：

寄存器保存：通过stmfd（Store Multiple Full Descending）批量保存寄存器，指令后缀"fd"表明使用满递减栈
帧指针建立：fp指向栈回溯结构中的"前一帧指针"位置，形成调用链
局部空间分配：通常在入口处一次性分配所有局部变量所需空间
栈检查：对于显式栈检查的变体，需验证sp是否仍在有效范围内

2.1.2 特殊函数处理

叶函数优化：
- 不调用其他函数的叶函数可以省略部分保存操作
- 不使用栈空间的纯叶函数可能完全不需要栈帧

assembly复制leaf_func:
    ; 不使用栈的纯叶函数
    add     a1, a1, a2
    bx      lr

    ; 使用栈的叶函数
    stmfd   sp!, {v1, lr}  ; 只需保存使用的寄存器
    ...
    ldmfd   sp!, {v1, pc}

可重入函数：
- 需要处理静态基址寄存器sb的切换
- 提供两个入口点（同一链接单元内调用和跨链接单元调用）

assembly复制reentrant_func:
    ; 同一链接单元入口
    mov     ip, sb          ; 保存当前静态基址
    ; 跨链接单元入口
    stmfd   sp!, {a1-a4, v1-v5, ip, fp, lr}
    mov     sb, ip          ; 建立新静态基址
    ...

可变参数函数：
- 必须将所有参数放入连续栈空间
- 浮点参数需转换为整型传递

assembly复制varargs_func:
    stmfd   sp!, {a1-a4}    ; 将所有参数压栈
    ; 建立连续参数区域
    add     a1, sp, #16     ; 指向第一个栈参数
    ...

2.2 函数出口处理

函数出口需要对称地恢复入口时保存的状态，同时处理返回值。

2.2.1 标准出口序列

assembly复制    ; 返回值处理
    mov     a1, #result_value
    ; 恢复寄存器
    ldmea   fp, {v1-v5, sb, fp, sp, pc}

关键点说明：

返回值放置：根据类型放入a1（整型）或f0（浮点）
寄存器恢复：使用ldmea（Load Multiple Empty Ascending）从帧指针位置恢复
指令选择：通过恢复pc直接实现返回，避免单独bx lr指令

2.2.2 浮点寄存器处理

使用浮点寄存器的函数需要额外保存/恢复浮点状态：

assembly复制    ; 入口保存
    sfmfd   f4, 4, [sp]!    ; 保存f4-f7
    ; 出口恢复
    lfmea   f4, 4, [fp, #-16] ; 从保存区域恢复

2.3 Thumb模式的特殊处理

Thumb模式的函数入口/出口由于指令集限制，通常更简单但也更受限。

2.3.1 典型Thumb入口

assembly复制thumb_func:
    push    {r4-r7, lr}     ; 保存低寄存器
    mov     r7, r8
    push    {r7}            ; 保存高寄存器通过r7
    sub     sp, #local_size
    ...

2.3.2 Thumb出口挑战

由于Thumb的pop指令不能直接修改pc，需要特殊处理返回：

assembly复制    add     sp, #local_size
    pop     {r4-r7}
    mov     r8, r7          ; 恢复高寄存器
    pop     {r3}            ; 将返回地址弹出到r3
    bx      r3              ; 使用bx实现返回

实际经验：现代Thumb-2指令集扩展了Thumb模式的能力，允许更灵活的栈操作和直接pop pc指令，显著改善了Thumb代码的密度和性能平衡。

3. 过程调用标准的高级主题与应用

3.1 混合ARM/Thumb交互

在支持指令集状态切换的ARM架构中，需要特别注意跨状态调用的约定：

状态切换标志：
- 函数指针的LSB=1表示Thumb模式
- LSB=0表示ARM模式
- bx/blx指令自动处理状态切换
交互规则：
- 通过寄存器传递的参数不受状态切换影响
- 栈对齐必须保持一致（通常8字节对齐）
- 避免在参数中传递函数指针，应使用显式状态切换

c复制// 在ARM代码中调用Thumb函数
void (*thumb_func)(int) = (void*)((char*)thumb_func_addr + 1);
thumb_func(42);  // 编译器自动生成正确的调用序列

3.2 异常与中断处理

过程调用标准在异常上下文中需要扩展：

异常寄存器保存：
- 异常模式通常使用专用栈
- 必须保存所有可能被破坏的调用者保存寄存器
- 需要明确保存返回地址和状态寄存器
中断服务例程：
- 通常使用特殊的调用约定
- 可能需要保存额外的浮点/NEON状态
- 退出时使用特殊指令（如Cortex-M的bx lr）

assembly复制irq_handler:
    sub     lr, lr, #4      ; 调整返回地址
    srsfd   sp!, #IRQ_MODE  ; 保存状态到IRQ栈
    cpsid   i, #SVC_MODE    ; 切换到特权模式
    push    {r0-r12, lr}    ; 保存所有通用寄存器
    bl      real_handler
    pop     {r0-r12, lr}
    rfefd   sp!             ; 从IRQ栈恢复并返回

3.3 性能优化技巧

基于过程调用标准的优化可以显著提升系统性能：

寄存器分配策略：
- 将频繁访问的变量分配到变量寄存器v1-v7
- 临时变量优先使用调用者保存寄存器a1-a4/ip
- 避免在循环中保存/恢复不必要寄存器
参数传递优化：
- 关键函数限制参数不超过4个，避免栈访问
- 大结构体改为引用传递
- 热路径函数使用static inline减少调用开销
尾调用优化条件：
- 调用后立即返回
- 无栈调整需求
- 参数列表兼容

c复制// 尾调用优化示例
int tail_call(int x) {
    if (x == 0) return 0;
    return tail_call(x - 1);  // 可优化为跳转
}

3.4 调试与问题排查

理解过程调用标准有助于诊断常见问题：

栈溢出诊断：
- 检查fp/sp寄存器值是否合理
- 验证栈限制寄存器sl设置
- 分析栈回溯链是否完整
调用约定不匹配：
- 检查ARM/Thumb状态标志
- 验证浮点参数传递方式（hardfp/softfp）
- 确认可变参数处理是否正确
ABI兼容性问题：
- 不同编译器版本可能细微调整调用约定
- 静态库与动态库的ABI需一致
- C++名称修饰（name mangling）可能导致链接问题