Arm Helium指令集：嵌入式DSP与ML优化的关键技术

Ma Daniel

1. Helium向量扩展指令集概述

Helium是Arm公司为M-profile架构设计的向量扩展指令集，专门针对嵌入式系统和微控制器优化。作为Neon指令集的补充，Helium在保持低功耗特性的同时，显著提升了数字信号处理（DSP）和机器学习推理等场景的计算效率。

在典型的Cortex-M55等处理器中，Helium通过8个128位向量寄存器（Q0-Q7）实现数据并行处理。与A-profile架构的Neon指令集（16个寄存器）相比，Helium的寄存器数量减半但完全够用，这种设计权衡主要基于以下考虑：

嵌入式场景对芯片面积和功耗更敏感
M-profile架构通常处理的数据流规模相对较小
8个寄存器已能满足大多数实时信号处理需求

提示：虽然寄存器数量较少，但Helium支持更灵活的寄存器bank配置，单个128位寄存器可拆分为多个32位或64位单元使用。

2. Helium核心指令解析

2.1 数据类型与运算指令

Helium支持多种数据类型处理，指令命名中通过后缀明确数据类型。以VMLA.S32为例：

VMLA：向量乘加（Vector Multiply Accumulate）
S32：操作32位有符号整数（Signed 32-bit）

典型的数据类型后缀包括：

S8/S16/S32：有符号8/16/32位整数
U8/U16/U32：无符号8/16/32位整数
F16/F32：半精度/单精度浮点数

assembly复制; 示例：32位有符号整数向量乘加
VMLA.S32 Q0, Q1, Q2  ; Q0 = Q0 + (Q1 * Q2)

2.2 向量预测执行机制

Helium提供两种预测执行模式，通过条件码控制指令执行：

合并预测（Merging）：
- 真预测通道执行操作
- 假预测通道保留目标寄存器原值
- 适用于条件更新部分数据场景
归零预测（Zeroing）：
- 真预测通道执行操作
- 假预测通道写入零值
- 适用于需要清除无效数据的场景

预测执行大幅减少了分支指令的使用，在图像滤波等算法中可提升约30%的性能。

3. 数据加载与存储优化

3.1 扩展加载（Widening Load）

用于数据解包操作，将较小数据类型的元素加载到较大容器中：

将8位数据加载到16位寄存器
将16位数据加载到32位寄存器
自动进行符号/零扩展

assembly复制VLDWB.U16 Q0, [R0]  ; 从R0地址加载8位数据到Q0的16位通道

3.2 窄化存储（Narrowing Store）

用于数据打包操作，将较大数据类型压缩存储：

将32位数据截断为16位存储
将16位数据截断为8位存储
支持饱和处理（saturation）

assembly复制VSTHN.S16 Q0, [R1]  ; 将Q0中的16位数据压缩为8位存储到R1地址

注意：窄化操作可能导致数据丢失，在音频处理等场景需特别关注动态范围。

4. 典型应用场景与优化技巧

4.1 数字信号处理优化

在FIR滤波器实现中，Helium可并行处理多个采样点：

使用扩展加载将8位音频采样转为32位
向量化乘加计算滤波结果
窄化存储将结果压缩回16位PCM格式

c复制// C内联汇编示例
void fir_filter(int16_t *output, const int8_t *input, const int32_t *coeffs, int len) {
    asm volatile (
        "mov r3, #0              \n"
        "loop:                   \n"
        "vldwb.s32 q0, [%1], #4  \n"  // 加载8位输入扩展为32位
        "vldrw.s32 q1, [%2]      \n"  // 加载32位系数
        "vmla.s32 q2, q0, q1     \n"  // 乘加运算
        "add r3, r3, #1          \n"
        "cmp r3, %3              \n"
        "blt loop                \n"
        "vsthn.s32 %0, q2        \n"  // 窄化存储为16位
        : "=r"(output)
        : "r"(input), "r"(coeffs), "r"(len)
        : "q0", "q1", "q2", "r3"
    );
}