Arm汇编语言字面量与ELF段结构详解

姜俭

1. Arm汇编语言中的字面量详解

在Arm汇编语言开发中，字面量(Literals)是直接嵌入源代码中的常量值，它们不需要预先定义就可以直接使用。作为嵌入式开发的基础元素，字面量的正确使用直接影响代码效率和可读性。

1.1 字面量的基本类型

Arm汇编支持多种类型的字面量表示方式：

十进制数字：最直观的表示方法，如MOV R0, #123将十进制123存入R0寄存器
十六进制数：以0x前缀表示，例如MOV R1, #0x7B（等同于十进制123）
任意进制数(2-9)：使用下划线分隔基数和数值，如5_204表示五进制数204
浮点数：直接书写小数形式，如123.4
布尔值：用大括号包裹的{TRUE}或{FALSE}
单字符：单引号包裹，如'A'（实际存储ASCII值0x41）
字符串：双引号包裹，如"Hello"

注意：虽然单字符可以用字符串形式表示（如#"a"），但多字符字符串（如#"ab"）作为立即数会导致汇编错误。这是因为Arm指令对立即数有严格限制。

1.2 立即数的编码限制

Arm架构对立即数有特殊编码规则，理解这些限制对编写高效代码至关重要：

A32指令集限制：

8位立即数(0-255)可通过MOV指令直接加载
通过"旋转"机制可表示更大范围的数：8位值+4位旋转值（偶数），如0xFF000000
MVN指令可加载这些值的按位取反形式

T32指令集限制：

32位T32指令支持更灵活的立即数形式：
- 8位值+移位（如0xFF0）
- 重复字节模式（如0xXYXYXYXY）
16位T32指令仅支持0-255范围内的立即数

当遇到无法直接表示的立即数时，通常需要拆解为多个指令或使用literal pool（后文详述）。

2. ELF段结构与AREA指令

2.1 ELF段的基本概念

在嵌入式开发中，ELF(Executable and Linkable Format)是可执行文件的通用格式。Arm汇编通过分段(Section)来组织代码和数据：

代码段(CODE)：通常标记为READONLY，包含可执行指令
数据段(DATA)：通常为READWRITE，包含变量和常量
- 初始化为零的段称为ZI(Zero Initialized)段

这些段在链接阶段会根据分散加载(Scatter-loading)规则被放置到内存的特定位置。

2.2 AREA指令详解

AREA指令定义段的起始，其完整语法为：

assembly复制AREA sectionname, attributes, alignment

关键属性：

CODE/DATA：指定段类型
READONLY/READWRITE：内存访问权限
ALIGN=n：指定对齐方式（如ALIGN=4表示4字节对齐）

命名规则：

常规名称：以字母开头，如MainCode
特殊名称：以非字母字符开头需用竖线包裹，如|.data|

典型代码段定义示例：

assembly复制AREA Init, CODE, READONLY, ALIGN=4
    ENTRY
    MOV R0, #0x12
    ...

2.3 段的链接特性

理解以下特性对内存布局优化很重要：

源文件中相邻的段在内存中不一定连续
每个段必须有唯一名称
最小可执行程序至少需要一个代码段
链接器根据分散加载描述文件决定最终布局

3. 完整汇编模块结构解析

3.1 模块的基本构成

一个完整的Arm汇编模块通常包含以下部分：

段定义（AREA指令）
程序入口（ENTRY指令）
执行代码
终止处理
结束标记（END指令）

3.2 不同指令集的实现示例

A32示例：

assembly复制AREA A32ex, CODE, READONLY
ENTRY
start
    MOV R0, #10       ; 参数设置
    MOV R1, #3
    ADD R0, R0, R1    ; R0 = R0 + R1
stop
    MOV R0, #0x18     ; 半主机调用参数
    LDR R1, =0x20026
    SVC #0x123456     ; 触发半主机调用
END

A64示例（注意寄存器命名差异）：

assembly复制AREA A64ex, CODE, READONLY
ENTRY
start
    MOV W0, #10       ; 使用W系列32位寄存器
    MOV W1, #3
    ADD W0, W0, W1
stop
    MOV X0, #0x18     ; 64位参数传递
    HLT #0xF000       ; A64半主机调用
END

3.3 半主机调用机制

在开发环境中，通过特定指令序列实现与调试器的交互：

A32/T32使用SVC指令（A32默认编号0x123456，T32用0xAB）
A64使用HLT #0xF000
需设置特定寄存器参数（如R0=0x18表示程序退出）

4. 立即数加载的高级技巧

4.1 多指令加载方案

当立即数超出单指令范围时，可采用以下方法：

MOV+MOVT组合：

assembly复制MOV R0, #0x5678      ; 低16位
MOVT R0, #0x1234     ; 高16位

LDR伪指令：

assembly复制LDR R0, =0x12345678  ; 自动选择最优加载方式

提示：LDR伪指令会自动判断——能用MOV/MVN就生成单指令，否则存入literal pool

4.2 字面量池(Literal Pool)管理

字面量池是汇编器在代码段中嵌入的常量数据区，通过LTORG指令显式控制其位置：

assembly复制AREA Example, CODE
    LDR R0, =0x12345678  ; 需要literal pool
    ...                   ; 大量代码
    LTORG                ; 确保字面量在LDR范围内

关键规则：

默认每个段末尾自动生成字面量池
LDR伪指令的寻址范围有限（A32/T32约±4KB）
大段代码中必须手动插入LTORG
必须放在不会被执行的位置（如跳转指令后）

5. 地址加载技术对比

5.1 四种地址加载方式

ADR指令：
- 范围有限（A32约±255字节）
- 不访问内存，直接计算地址
```
assembly复制ADR R0, local_label
```
ADRL伪指令：
- 扩展范围（A32约±64KB）
- 生成两条数据处理指令
```
assembly复制ADRL R1, far_label
```
MOV32伪指令：
- 全32位地址范围
- 生成MOV+MOVT指令对
```
assembly复制MOV32 R2, symbol_name
```
LDR伪指令：
- 最灵活的地址加载方式
- 可能访问literal pool
```
assembly复制LDR R3, =external_symbol
```

5.2 跳转表实现案例

assembly复制AREA JumpTab, CODE
ENTRY
    MOV R0, #1          ; 跳转索引
    CMP R0, #max_entries
    BHS out_of_range
    ADR R1, JumpTable   ; 获取跳转表基址
    LDR PC, [R1, R0, LSL#2]  ; PC = JumpTable + index*4
JumpTable
    DCD func00
    DCD func01
func00
    ... ; 功能0实现
func01
    ... ; 功能1实现
END

6. 统一汇编语言(UAL)特性

6.1 UAL与A64语法差异

特性	UAL(A32/T32)	A64
条件执行	`BEQ label`	`B.EQ label`
寄存器命名	R0-R15	W0-W30(32位)/X0-X30(64位)
指令宽度	支持.W/.N指定	固定32位
PC访问	可直接操作PC	无PC寄存器

6.2 条件执行对比

A32条件执行：

assembly复制CMP R0, #5
ADDEQ R1, R2, R3  ; 条件执行加法

A64条件选择：

assembly复制CMP W0, #5
CSEL W1, W2, W3, EQ  ; W1 = (W0==5) ? W2 : W3

7. 子程序调用规范

7.1 寄存器使用约定

参数传递：R0-R3（A32/A64的W0-W7）
返回值：R0（A64的X0）
需保存寄存器：R4-R11（被调用者保存）
栈指针：R13(SP)必须8字节对齐

7.2 调用示例

assembly复制AREA Subr, CODE
ENTRY
    MOV R0, #10      ; 参数1
    MOV R1, #20      ; 参数2
    BL add_func      ; 调用子程序
    ...              ; 结果在R0中

add_func
    ADD R0, R0, R1   ; 实现加法
    BX LR            ; 返回
END

经验：在密集计算场景中，合理规划寄存器使用可以减少内存访问，我在实际项目中通过寄存器优化使关键算法性能提升约15%。

8. 实际开发中的经验技巧

段属性优化：
- 频繁访问的数据标记为DATA并READWRITE
- 常量数据使用READONLY属性
- 零初始化的大数组使用NOINIT节省镜像体积
立即数加载选择：
- 小常数优先用MOV/MVN
- 大常数用LDR伪指令让汇编器自动优化
- 地址加载根据范围选择ADR/ADRL/MOV32
调试技巧：
- 在关键位置插入半主机调用输出寄存器值
- 使用.ltorg伪指令确保字面量池位置可控
- 通过ALIGN 4保证跳转表对齐
性能关键点：
- 热代码路径避免使用literal pool
- 循环内部使用寄存器而非内存操作
- 利用条件执行减少分支预测惩罚