ARM原子操作原理与多核并发实战-嵌云网-嵌入式AI开发资源站

ARM原子操作原理与多核并发实战

芳奎

1. 原子操作的本质与竞态风险

在嵌入式开发中，a++这样看似简单的操作实际上隐藏着巨大的并发风险。当多个执行流同时访问共享变量时，典型的"读取-修改-写入"操作序列会被打断。假设两个线程同时执行a++（初始值a=0）：

线程1读取a=0
线程2读取a=0
线程1计算0+1=1
线程2计算0+1=1
线程1写入a=1
线程2写入a=1
最终结果a=1而非预期的2，这就是典型的竞态条件。

关键点：在SMP系统中，即使单条汇编指令也可能被中断。例如ARM的ADD R0, R0, #1在总线传输层面仍可能被拆分为多个微操作。

2. 软件层面的原子实现方案

2.1 关中断方案

在单核系统中，最直接的原子操作实现方式是关闭中断：

c复制void atomic_inc(int *val) {
    unsigned long tmp;
    asm volatile(
        "mrs %0, cpsr\n\t"    // 保存状态寄存器
        "cpsid i\n\t"         // 关闭中断
        "ldr r1, [%1]\n\t"    // 加载值
        "add r1, #1\n\t"      // 增加值
        "str r1, [%1]\n\t"    // 存储值
        "msr cpsr_c, %0"      // 恢复状态
        : "=&r"(tmp)
        : "r"(val)
        : "r1", "memory"
    );
}

缺陷：

不适用于多核系统（其他CPU仍可访问）
关中断时间过长会影响实时性
嵌套调用时需特殊处理

2.2 信号量方案

使用互斥锁可以解决多核问题：

c复制spinlock_t lock;
void atomic_inc(int *val) {
    spin_lock(&lock);
    (*val)++;
    spin_unlock(&lock);
}

性能问题：

锁争用会导致CPU空转
在高频小数据操作中开销过大
可能引发优先级反转问题

3. ARM硬件原子指令解析

3.1 LDREX/STREX工作原理

ARMv6架构引入的独占访问指令对：

armasm复制atomic_inc:
    ldrex r1, [r0]    @ 独占加载
    add r1, r1, #1    @ 修改值
    strex r2, r1, [r0] @ 独占存储
    cmp r2, #0        @ 检查是否成功
    bne atomic_inc     @ 失败则重试
    bx lr

硬件支持：

每个CPU核心有本地独占监视器
执行LDREX时会标记内存地址为独占状态
其他核心对相同地址的存储会清除独占标记
STREX会根据独占状态决定是否成功

3.2 多核一致性实现

ARM采用MOESI协议维护缓存一致性：

Modified（已修改）
Owned（独占拥有）
Exclusive（独占干净）
Shared（共享）
Invalid（无效）

当核心A执行LDREX时：

如果缓存行处于E状态，直接读取
如果是S状态，升级为E状态
如果是I状态，发起总线请求获取E状态

核心B写入相同地址时：

通过嗅探机制检测到地址冲突
向核心A发送无效化请求
核心A的独占监视器标记失效

4. Linux内核中的原子操作实现

4.1 ARM架构适配

Linux根据架构特性实现atomic.h：

c复制// arch/arm/include/asm/atomic.h
static inline void atomic_add(int i, atomic_t *v)
{
    unsigned long tmp;
    int result;

    asm volatile(
        "1: ldrex %0, [%3]\n"
        " add %0, %0, %4\n"
        " strex %1, %0, [%3]\n"
        " teq %1, #0\n"
        " bne 1b"
        : "=&r"(result), "=&r"(tmp), "+Qo"(v->counter)
        : "r"(&v->counter), "Ir"(i)
        : "cc");
}

优化技巧：

使用+Qo约束确保操作数在内存中
Ir约束允许立即数或寄存器操作
cc表示会修改条件标志寄存器

4.2 内存屏障处理

在多核系统中需要配合内存屏障：

c复制#define atomic_inc_return(v) \
    (__atomic_add_unless(v, 1, 0) + 1)

static inline int __atomic_add_unless(atomic_t *v, int a, int u)
{
    int oldval, newval;
    unsigned long tmp;

    smp_mb();
    asm volatile(
        "1: ldrex %0, [%4]\n"
        " cmp %0, %5\n"
        " moveq %1, %0\n"
        " addeq %1, %0, %6\n"
        " strex %2, %1, [%4]\n"
        " teq %2, #0\n"
        " bne 1b"
        : "=&r"(oldval), "=&r"(newval), "=&r"(tmp)
        : "r"(&v->counter), "Ir"(a), "Ir"(u)
        : "cc");
    smp_mb();
    return oldval;
}

屏障作用：

smp_mb()保证操作顺序性
防止编译器重排指令
确保多核间的可见性

5. 实际开发中的陷阱与优化

5.1 常见错误案例

错误1：误用volatile

c复制volatile int counter = 0;
void increment() { counter++; } // 仍然不是原子的

volatile仅保证内存访问不被优化，不保证原子性

错误2：忽略内存对齐

c复制struct {
    char a;
    int b;
} obj;
atomic_inc(&obj.b); // 可能触发对齐异常

ARM要求原子操作地址必须自然对齐（4字节对齐）

5.2 性能优化技巧

减少争用：采用原子变量+定期同步的策略

c复制per_cpu_counter[NR_CPUS];
void flush_counters() {
    for_each_cpu(cpu) {
        global_counter += per_cpu_counter[cpu];
        per_cpu_counter[cpu] = 0;
    }
}

选择合适指令：
- ARMv8的LDAPR指令提供弱一致性模型
- LDAXR/STLXR提供更强的顺序保证

缓存行优化：

c复制struct {
    atomic_t count;
    char padding[CACHE_LINE_SIZE - sizeof(atomic_t)];
} ____cacheline_aligned;

6. 其他架构对比

6.1 x86实现方式

x86通过LOCK前缀实现原子性：

asm复制lock add dword ptr [rdi], 1

硬件机制：

锁定总线（早期实现）
缓存锁定（现代CPU）
保证操作期间独占缓存行

6.2 RISC-V实现

RV32A扩展提供专用原子指令：

asm复制amoadd.w a0, a1, (a2) # a0 = *a2, *a2 += a1

特点：

单条指令完成操作
支持LR/SC（Load-Reserved/Store-Conditional）
可配置的内存一致性模型

7. 调试与验证方法

7.1 竞态检测工具

LKFT（Linux Kernel Functional Test）

bash复制./run_ltp -f syscalls -s atomic01

KCSAN（Kernel Concurrency Sanitizer）

makefile复制CONFIG_KCSAN=y
CONFIG_KCSAN_STRICT=y

QEMU调试：

bash复制qemu-system-arm -M virt -smp 4 -kernel zImage \
-append "kgdboc=ttyAMA0,115200" -nographic

7.2 硬件断点技巧

在ARM Cortex-M中可以使用DWT单元：

c复制#define DWT_COMP0 (*(volatile uint32_t*)0xE0001020)
#define DWT_MASK0 (*(volatile uint32_t*)0xE0001024)
#define DWT_FUNCTION0 (*(volatile uint32_t*)0xE0001028)

void set_hw_watchpoint(void *addr) {
    DWT_COMP0 = (uint32_t)addr;
    DWT_MASK0 = 0; // 精确匹配
    DWT_FUNCTION0 = 0x00000006; // 写访问时触发
}

8. 实时系统特殊考量

在RTOS中需要特别注意：

优先级反转：

使用优先级继承协议

c复制mutex_attr_setprotocol(&attr, PTHREAD_PRIO_INHERIT);

关中断时间：

c复制unsigned long flags;
local_irq_save(flags); // 替代完全关中断
// 临界区操作
local_irq_restore(flags);

确定性响应：
- 避免在中断上下文使用可能阻塞的原子操作
- 预分配所有需要的资源