AArch64 SIMD指令集：向量比较与位操作详解

DarthP

1. AArch64 SIMD指令集概述

在当今处理器架构中，SIMD（Single Instruction Multiple Data）技术已成为提升数据并行处理能力的核心手段。作为ARMv8架构的重要组成部分，AArch64的AdvSIMD扩展（也称为NEON）提供了一套完整的向量运算指令集。这些指令通过在单个时钟周期内同时对多个数据元素执行相同操作，显著提升了多媒体编解码、科学计算、机器学习等数据密集型应用的性能。

SIMD技术的核心优势在于其寄存器级并行机制。AArch64架构提供了32个128位宽的向量寄存器（V0-V31），这些寄存器可以同时容纳多个数据元素。例如：

16个8位整数（16B）
8个16位整数（8H）
4个32位整数/单精度浮点数（4S）
2个64位整数/双精度浮点数（2D）

这种设计使得一条SIMD指令能替代多条标量指令，不仅减少了指令数量，还降低了循环开销。在实际应用中，合理使用SIMD指令通常可获得4-8倍的性能提升。

2. 向量比较指令详解

2.1 CMHI/CMHS指令：无符号比较

CMHI（Compare unsigned Higher）和CMHS（Compare unsigned Higher or Same）是AArch64中用于无符号整数向量比较的两条重要指令。它们的操作语义如下：

assembly复制CMHI Vd.T, Vn.T, Vm.T  // 每个元素执行 Vn[i] > Vm[i] ?
CMHS Vd.T, Vn.T, Vm.T  // 每个元素执行 Vn[i] >= Vm[i] ?

这两条指令的工作流程高度相似：

并行比较两个源寄存器中所有对应元素
若比较条件成立，将目标寄存器对应元素的所有位置1（0xFFFF...）
若比较不成立，则置0（0x0000...）

以16位元素（4H排列）为例，假设：

code复制V0 = [0x1234, 0x5678, 0x9ABC, 0xDEF0]
V1 = [0x1111, 0x6666, 0x9ABC, 0xFFFF]

执行CMHI V2.4H, V0.4H, V1.4H后：

code复制V2 = [0xFFFF, 0x0000, 0x0000, 0x0000]

关键细节：虽然指令助记符中包含"unsigned"，但实际比较操作是通过无符号整数比较电路实现的，与寄存器中数据的解释方式无关。这意味着即使存储的是有符号数，比较结果也是按无符号规则得出的。

2.2 CMGT/CMGE指令：有符号比较

与无符号版本对应，CMGT（Compare signed Greater Than）和CMGE（Compare signed Greater or Equal）执行有符号比较：

assembly复制CMGT Vd.T, Vn.T, Vm.T  // 有符号 Vn[i] > Vm[i]
CMGE Vd.T, Vn.T, Vm.T  // 有符号 Vn[i] >= Vm[i]

有符号比较的特殊之处在于：

使用二进制补码表示法解释数据
负数比正数小（最高位为符号位）
相同位模式下，有符号和无符号比较结果可能完全不同

例如对于8位元素比较0xFF(-1)和0x01(1)：

有符号：-1 < 1 → 比较结果为假
无符号：255 > 1 → 比较结果为真

2.3 零比较指令：CMEQ/CMLT/CMLE

AArch64还提供了一组与零比较的特殊指令，这些指令只需要一个操作数寄存器：

assembly复制CMEQ Vd.T, Vn.T, #0  // Vn[i] == 0
CMLT Vd.T, Vn.T, #0  // Vn[i] < 0  
CMLE Vd.T, Vn.T, #0  // Vn[i] <= 0

这些指令在以下场景特别有用：

快速检测数组中的零元素
统计负值数量
实现符号函数（signum）

3. 位操作指令解析

3.1 CMTST指令：位测试比较

CMTST（Compare bitwise Test bits nonzero）执行按位与测试：

assembly复制CMTST Vd.T, Vn.T, Vm.T  // 对每个元素执行 (Vn[i] & Vm[i]) != 0 ?

操作过程：

对两个向量的每个元素执行按位与
检查结果是否非零
非零则目标元素置全1，否则置全0

典型应用场景：

掩码检查：快速确定哪些元素设置了特定标志位
位图交集检测：检查两个位图是否有重叠设置的位

示例：

code复制V0 = [0b1010, 0b1100]
V1 = [0b0101, 0b1000]
CMTST V2.8B, V0.8B, V1.8B → V2 = [0x00, 0xFF]

3.2 EOR/EOR3指令：异或操作

EOR（Bitwise Exclusive OR）执行向量按位异或：

assembly复制EOR Vd.16B, Vn.16B, Vm.16B  // Vd = Vn ⊕ Vm

而EOR3是ARMv8.2引入的三操作数异或指令：

assembly复制EOR3 Vd.16B, Vn.16B, Vm.16B, Va.16B  // Vd = Vn ⊕ Vm ⊕ Va

技术细节：

EOR3在密码学运算中特别有用，如SHA-3算法
单条EOR3可替代两条EOR指令，减少指令依赖
所有操作必须使用16B排列，不支持其他数据类型

性能提示：EOR3虽然功能强大，但在不支持AES/SHA扩展的CPU上可能以微码实现，实际吞吐量可能不如多条EOR指令。

4. 实用指令组合与优化技巧

4.1 条件选择模式

比较指令常与位操作指令组合实现条件选择：

assembly复制// 实现 Vd = (Vn > Vm) ? Va : Vb
CMHI Vtmp.4S, Vn.4S, Vm.4S  // 生成掩码
AND Va.16B, Va.16B, Vtmp.16B  // 真值部分
BIC Vb.16B, Vb.16B, Vtmp.16B  // 假值部分
ORR Vd.16B, Va.16B, Vb.16B  // 合并结果

4.2 向量化循环优化

将标量循环转换为SIMD操作的通用模式：

c复制// 原始标量代码
for (int i = 0; i < N; i++) {
    if (a[i] > b[i]) c[i] = 1;
}

对应的NEON实现：

assembly复制mov w0, #0
loop:
    ld1 {v0.4s}, [x1], #16  // 加载a[]
    ld1 {v1.4s}, [x2], #16  // 加载b[]
    cmhi v2.4s, v0.4s, v1.4s  // 比较
    st1 {v2.4s}, [x3], #16  // 存储结果
    add w0, w0, #4
    cmp w0, w4
    b.lt loop

4.3 数据重排技巧

使用DUP/EXT等指令准备比较操作数：

assembly复制// 比较所有元素与第一个元素
ld1 {v0.4s}, [x0]  // 加载数据
dup v1.4s, v0.s[0]  // 复制第一个元素
cmgt v2.4s, v0.4s, v1.4s  // 比较

5. 性能考量与陷阱规避

5.1 寄存器排列选择

尽量使用最大位宽（16B）以最大化并行度
避免在单个循环中混用不同排列方式（如同时使用4S和8H）
对齐内存访问（使用ALIGN修饰符或对齐分配）

5.2 常见性能陷阱

比较链式依赖：

assembly复制cmhi v0.4s, v1.4s, v2.4s  // 第一条比较
cmhi v0.4s, v0.4s, v3.4s  // 错误！覆盖了上条结果

非预期类型转换：

assembly复制cmhi v0.8h, v1.8h, v2.8h  // 16位比较
xtn v0.8b, v0.8h  // 错误！会截断比较结果

冗余比较：

assembly复制cmgt v0.4s, v1.4s, #0
cmlt v2.4s, v1.4s, #0  // 可优化为 mvni+vand

5.3 高级优化技巧

比较掩码复用：将多次使用的比较结果保存到寄存器，避免重复计算
谓词执行：结合比较结果使用BSL（Bit Select）指令消除分支
混合精度优化：对精度要求不高的场景可使用16位比较加速

6. 实际应用案例

6.1 图像阈值处理

assembly复制// 伪代码：dst[i] = src[i] > threshold ? 255 : 0
ld1 {v0.16b}, [x1], #16  // 加载16像素
dup v1.16b, w2  // 复制阈值
cmhi v2.16b, v0.16b, v1.16b  // 比较
st1 {v2.16b}, [x0], #16  // 存储结果

6.2 数组范围检查

assembly复制// 检查所有元素是否在[min,max]范围内
ld1 {v0.4s}, [x0]  // 加载数据
dup v1.4s, w1  // min
dup v2.4s, w2  // max
cmge v3.4s, v0.4s, v1.4s  // >= min
cmge v4.4s, v2.4s, v0.4s  // <= max
and v5.16b, v3.16b, v4.16b  // 组合条件

6.3 数据归一化

assembly复制// 将数据归一化到[0,1]范围
ld1 {v0.4s}, [x0]  // 加载数据
dup v1.4s, w1  // 最大值
scvtf v0.4s, v0.4s  // 转为浮点
scvtf v1.4s, v1.4s
fdiv v0.4s, v0.4s, v1.4s  // 归一化