ARM汇编语言入门：AArch64架构与核心指令详解-嵌云网-嵌入式AI开发资源站

ARM汇编语言入门：AArch64架构与核心指令详解

周传炽

1. ARM 汇编语言概述

在当今的处理器架构领域，ARM 架构已经占据了绝对主导地位。从智能手机到服务器，从嵌入式设备到高性能计算，ARM 架构无处不在。特别是在2026年的今天，AArch64（ARMv8-A及更高版本）已经成为绝对主流，而传统的32位ARMv7架构则逐渐退居二线，仅在少数低功耗MCU场景中继续使用。

1.1 为什么学习ARM汇编

学习ARM汇编语言对于开发者而言具有多重价值：

深入理解计算机底层工作原理
优化关键性能代码
调试复杂系统问题
开发操作系统和嵌入式系统
理解安全漏洞和防护机制

提示：即使你主要使用高级语言开发，掌握汇编能让你成为更好的程序员。就像了解汽车发动机原理能让司机更好地驾驶一样。

1.2 AArch64架构特点

AArch64架构相比传统32位ARM架构有几个显著改进：

寄存器数量从16个增加到31个通用寄存器
统一的指令集架构，不再有Thumb/ARM状态切换
更简洁的指令编码
更大的地址空间（64位）
更强大的SIMD和浮点支持

2. ARM汇编语法基础

2.1 两种语法风格对比

在ARM汇编领域，存在两种主要的语法风格，这对初学者来说是个常见的困惑点。

2.1.1 统一汇编语言(UAL)

这是现代ARM开发的首选语法，特点包括：

寄存器命名为x0-x30（64位）或w0-w30（32位）
立即数前缀使用#
注释使用@符号
主流工具链支持：GNU as (gas)、Clang、Android NDK

2.1.2 传统语法

主要用于旧项目和维护：

寄存器命名为r0-r15
立即数可能省略#
注释风格多样
主要工具：armasm (ARM Compiler)、Keil、IAR

注意：新项目强烈建议使用UAL语法，这是行业趋势，也是本文后续示例采用的标准。

2.2 基本语句结构

一个典型的ARM汇编语句由以下部分组成：

code复制[label:]   opcode   operand1, operand2, operand3   @ comment

标签（可选）：以冒号结尾，用于标记代码位置
操作码：指令助记符，如mov、add等
操作数：指令操作对象，可以是寄存器、立即数或内存引用
注释：以@开始，对代码进行说明

示例：

code复制_start:
    mov x0, #42        @ 将立即数42加载到x0寄存器
    add x1, x2, x3     @ x1 = x2 + x3

3. AArch64寄存器详解

3.1 寄存器分类

AArch64架构提供了丰富的寄存器资源：

寄存器类型	数量	64位名称	32位名称	特殊用途
通用寄存器	31	x0-x30	w0-w30	x0-x7: 参数/返回值 x8: 间接结果 x16-x17: 内联使用 x29: 帧指针 x30: 链接寄存器(lr)
零寄存器	1	xzr	wzr	总是返回0
栈指针	1	sp	-	栈指针
程序计数器	-	pc	-	不能直接访问

3.2 寄存器使用惯例

理解寄存器使用惯例对编写可维护的汇编代码至关重要：

函数调用时：
- 参数传递：x0-x7
- 返回值：x0
- 被调用者保存寄存器：x19-x28
- 调用者保存寄存器：x9-x15
特殊用途寄存器：
- x8: 系统调用号（Linux）
- x16/x17: 内联汇编临时寄存器
- x29: 帧指针
- x30: 链接寄存器（存储返回地址）

提示：在编写函数时，如果使用了x19-x28寄存器，必须保存并在返回前恢复它们的值。

4. 核心指令集

4.1 数据移动指令

数据移动是汇编编程中最基本的操作：

code复制mov x0, #42        @ 立即数加载
mov x1, x2         @ 寄存器间移动
movz x3, #0x1234   @ 16位立即数移动，其余位清零
movk x4, #0x5678, lsl #16  @ 保持其他位不变，替换指定位置的16位

注意：AArch64的mov指令实际上是一个伪指令，汇编器会根据情况转换为movz或orr指令。

4.2 算术运算指令

基本算术运算指令包括：

code复制add x0, x1, x2      @ x0 = x1 + x2
add x3, x4, #10     @ x3 = x4 + 10
sub x5, x6, x7      @ x5 = x6 - x7
sub x8, x9, #20     @ x8 = x9 - 20
mul x10, x11, x12   @ x10 = x11 * x12

4.3 逻辑运算指令

逻辑运算在底层编程中非常常见：

code复制and x0, x1, x2      @ 按位与
orr x3, x4, x5      @ 按位或
eor x6, x7, x8      @ 按位异或
mvn x9, x10         @ 按位取反

4.4 移位操作

AArch64提供了丰富的移位操作：

code复制lsl x0, x1, #4      @ 逻辑左移
lsr x2, x3, #2      @ 逻辑右移
asr x4, x5, #3      @ 算术右移
ror x6, x7, #8      @ 循环右移

移位操作还可以与其他指令结合：

code复制add x8, x9, x10, lsl #2  @ x8 = x9 + (x10 << 2)

5. 内存访问指令

5.1 基本加载/存储指令

AArch64采用load/store架构，所有算术逻辑运算都在寄存器中进行：

code复制ldr x0, [x1]        @ 从x1指向的地址加载64位到x0
ldr w2, [x3]        @ 从x3指向的地址加载32位到w2
str x4, [x5]        @ 将x4的64位值存储到x5指向的地址
str w6, [x7]        @ 将w6的32位值存储到x7指向的地址

5.2 寻址模式

AArch64支持多种内存寻址模式：

基址寻址：

code复制ldr x0, [x1]        @ 地址=x1

基址+偏移：

code复制ldr x2, [x3, #16]   @ 地址=x3+16

前变址：

code复制ldr x4, [x5, #8]!   @ 地址=x5+8，然后x5=x5+8

后变址：

code复制ldr x6, [x7], #16   @ 地址=x7，然后x7=x7+16

寄存器偏移：

code复制ldr x8, [x9, x10]   @ 地址=x9+x10

5.3 批量加载/存储

AArch64支持高效的批量内存操作：

code复制ldp x0, x1, [x2]      @ 从x2加载x0和x1
stp x3, x4, [sp, #-16]! @ 将x3和x4存储到栈上

提示：批量加载/存储指令在函数调用时特别有用，可以高效地保存和恢复多个寄存器。

6. 控制流指令

6.1 无条件分支

code复制b label        @ 无条件跳转到label

6.2 条件分支

条件分支通常与比较指令配合使用：

code复制cmp x0, x1     @ 比较x0和x1
b.eq label     @ 如果相等则跳转

AArch64支持的条件码包括：

eq: 相等
ne: 不等
gt: 大于（有符号）
lt: 小于（有符号）
ge: 大于等于（有符号）
le: 小于等于（有符号）
hi: 大于（无符号）
lo: 小于（无符号）
hs: 大于等于（无符号）
ls: 小于等于（无符号）

6.3 函数调用与返回

code复制bl func        @ 调用函数，将返回地址存入lr(x30)
ret            @ 从函数返回（等效于 br lr）

注意：在AArch64中，函数调用约定要求栈指针(sp)在函数调用时必须16字节对齐。

7. 系统调用与高级特性

7.1 系统调用

在Linux系统中，系统调用通过svc指令实现：

code复制mov x8, #93    @ exit系统调用号
mov x0, #0     @ 退出码
svc #0         @ 执行系统调用

提示：Linux系统调用号可以在/usr/include/asm-generic/unistd.h中找到。

7.2 伪指令

汇编器提供了一些方便的伪指令：

code复制.global _start @ 声明全局符号
.section .text @ 定义代码段
.byte 0x12     @ 定义一个字节
.word 0x1234   @ 定义一个16位值
.dword 0x12345678 @ 定义一个32位值
.quad 0x123456789abcdef0 @ 定义一个64位值
.align 4       @ 按4字节对齐

7.3 地址加载

AArch64提供了方便的地址加载方式：

code复制adrp x0, label     @ 获取label所在页的基地址
add x0, x0, :lo12:label @ 加上页内偏移

或者使用伪指令：

code复制ldr x0, =label     @ 自动转换为合适的地址加载序列

8. 开发工具链

8.1 汇编与链接

典型的开发流程：

code复制# 汇编
aarch64-linux-gnu-as -o hello.o hello.s

# 链接
aarch64-linux-gnu-ld -o hello hello.o

# 或者使用gcc一步完成
aarch64-linux-gnu-gcc -nostdlib -static hello.s -o hello

8.2 调试工具

GDB是调试ARM汇编的利器：

code复制aarch64-linux-gnu-gdb ./hello
(gdb) break _start
(gdb) run
(gdb) info registers
(gdb) stepi

8.3 交叉编译环境

对于非ARM平台开发，需要配置交叉编译工具链：

code复制sudo apt install gcc-aarch64-linux-gnu binutils-aarch64-linux-gnu

9. 常见问题与优化技巧

9.1 常见错误

忘记立即数前缀#：

code复制mov x0, 42   @ 错误！应该是mov x0, #42

栈指针未对齐：

code复制str x0, [sp, #8]  @ 如果sp不是16字节对齐，会导致错误

误用零寄存器：

code复制add xzr, x1, x2   @ 错误！xzr是只读的

9.2 性能优化技巧

指令调度：合理安排指令顺序以避免流水线停顿
循环展开：减少分支预测失败的开销
寄存器重用：减少不必要的内存访问
使用合适的加载/存储指令变体

9.3 调试技巧

使用.equ定义常量提高代码可读性
在关键位置插入断点
使用printf调试（通过系统调用）
绘制寄存器状态图辅助理解

10. 进阶学习路径

掌握了ARM汇编基础后，可以进一步学习：

函数调用约定（AAPCS64）
SIMD编程（NEON指令集）
可伸缩向量扩展（SVE）
与C语言的内联汇编
操作系统开发相关特性（异常处理、内存屏障等）

提示：最好的学习方法是实践。尝试编写10个以上小程序，从简单到复杂逐步提升难度。