瑞芯微RK3568/RK3588实时Linux性能测试与优化指南-嵌云网-嵌入式AI开发资源站

瑞芯微RK3568/RK3588实时Linux性能测试与优化指南

gumw

1. 瑞芯微平台实时Linux性能测试的必要性

在工业自动化领域，实时性不是可选项而是必选项。RK3568/RK3588作为国产芯片的佼佼者，其四核A55/A76架构、PCIe 3.0接口和ISP 2.0图像处理能力，使其成为边缘计算设备的首选。但默认的Android/Linux内核并不具备实时特性，这就引出了我们必须面对的核心问题：打了PREEMPT_RT补丁后，系统到底能达到什么样的实时性能水平？

想象一下这样的场景：在食品厂的自动化生产线上，基于RK3568的边缘视觉盒子正在以40fps的速度检测传送带上的罐头。每个检测周期只有25ms的窗口期，其中15ms用于AI推理，5ms用于图像传输，留给系统调度的时间仅剩5ms。如果系统延迟超过100μs，25帧累积下来就会导致检测超时，最终可能让有缺陷的产品流入市场。

这就是为什么我们必须建立一套完整的性能测试方案。没有量化的测试数据，甲方不敢签字验收；没有标准化的测试流程，产线无法稳定运行；没有可追溯的测试报告，认证机构不会颁发SIL/PL证书。我们的测试方案就是要解决这三个核心痛点。

2. 实时性能的五大核心指标解析

2.1 最大延迟(Max Latency)

最大延迟测量的是从中断发生到任务被唤醒的最长时间。在工业控制场景中，这个指标直接决定了系统的最坏响应时间。我们使用cyclictest工具进行测量，其原理是通过高精度定时器发送中断，记录从中断发生到测量线程被唤醒的时间差。

关键提示：测量时需要使用taskset将测试进程绑定到特定CPU核心，避免调度器迁移带来的额外延迟。

合格的工业级系统要求最大延迟不超过100μs。这个阈值是怎么来的？以常见的1kHz控制周期为例，每个周期1ms，如果系统延迟超过100μs，就意味着留给应用逻辑的时间不足90%，很容易造成控制周期超时。

2.2 调度延迟(Sched Latency)

调度延迟测量的是任务就绪到实际获得CPU执行权的时间间隔。我们使用Linux内核自带的perf sched工具进行测量。与最大延迟不同，调度延迟反映的是调度器本身的效率。

在RK3588平台上，我们观察到的一个典型优化点是关闭CPU负载均衡：

bash复制echo 0 > /proc/sys/kernel/sched_load_balance

这个操作可以将调度延迟从平均30μs降低到15μs左右，效果非常显著。

2.3 CPU负载能力

CPU负载测试不是简单地看CPU使用率，而是要考察在满负荷情况下的系统稳定性。我们使用stress-ng工具制造CPU压力，同时通过mpstat监控各核心的状态。

一个常见的误区是只关注CPU利用率数字。实际上，在实时系统中我们更关心：

是否有核心被意外关闭（掉核）
频率调节器是否工作正常
温度是否导致降频

我们的测试脚本会自动检查这些指标：

bash复制awk '/MHz/ {print $4}' /proc/cpuinfo  # 检查各核频率
cat /sys/class/thermal/thermal_zone*/temp  # 检查温度

2.4 IO吞吐性能

工业场景对存储IO的要求往往被低估。以视觉质检系统为例，不仅需要实时处理图像流，还要将检测结果和原始图像写入存储以备审计。我们使用fio工具测试顺序写性能，因为这是大多数工业场景的最典型负载。

RK3568的SATA控制器性能优化要点：

bash复制echo 1024 > /sys/block/sda/queue/nr_requests  # 提高队列深度
echo deadline > /sys/block/sda/queue/scheduler  # 使用deadline调度器

2.5 网络抖动

工业现场总线的实时性要求网络通信必须稳定。我们使用netperf工具的UDP_RR模式测试64字节小包的传输抖动。这个测试需要两台设备：待测RK板作为client，PC作为server运行netserver。

一个实用的技巧是设置CPU亲和性来降低网络抖动：

bash复制irqbalance --oneshot
for irq in $(grep eth0 /proc/interrupts | awk -F: '{print $1}'); do
    echo 3 > /proc/irq/$irq/smp_affinity  # 将网卡中断绑定到CPU3
done

3. 测试环境搭建详解

3.1 硬件配置建议

虽然RK3568/RK3588开发板可以直接用于测试，但为了获得量产环境下的真实数据，我们建议使用核心板+载板的组合。以下是一个经过验证的配置清单：

核心板：RK3568-4GB版本（工业级温度范围）
散热：30×30×10mm散热片+5010风扇（PWM控制）
存储：128GB NVMe SSD（注意：RK3568仅支持PCIe 2.0 x1）
网络：Intel I211千兆网卡（通过PCIe转接）
电源：12V/3A直流电源（实测满载功耗约8W）

3.2 软件环境构建

我们推荐使用Buildroot构建最小系统，而不是Ubuntu等发行版。原因有三：

减少后台进程对实时性的影响
更容易控制内核配置
启动时间更快（通常<5秒）

关键的内核配置选项：

code复制CONFIG_PREEMPT_RT=y
CONFIG_HZ_1000=y
CONFIG_NO_HZ_FULL=y
CONFIG_RCU_NOCB_CPU=y

实时测试工具的一键编译脚本：

bash复制#!/bin/bash
# build_rt_tests.sh
set -e

TOOLS="rt-tests fio netperf stress-ng"
for tool in $TOOLS; do
    case $tool in
        rt-tests)
            git clone git://git.kernel.org/pub/scm/utils/rt-tests/rt-tests.git
            pushd rt-tests
            make -j$(nproc) all
            make install DESTDIR=$PWD/out
            tar -czf ../rt-tests.tar.gz -C out .
            popd
            ;;
        fio)
            wget https://github.com/axboe/fio/archive/refs/tags/fio-3.28.tar.gz
            tar xf fio-3.28.tar.gz
            pushd fio-fio-3.28
            ./configure --disable-native
            make -j$(nproc)
            make install DESTDIR=$PWD/out
            tar -czf ../fio.tar.gz -C out .
            popd
            ;;
    esac
done

4. 完整测试流程实操

4.1 准备工作

在开始测试前，必须进行以下准备工作：

关闭所有不必要的服务：

bash复制systemctl stop serial-getty@ttyS2.service  # 示例：关闭某个串口服务

设置CPU性能模式：

bash复制for cpu in /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor; do
    echo performance > $cpu
done

设置实时优先级限制：

bash复制echo 95 > /proc/sys/kernel/sched_rt_runtime_us

4.2 分项测试执行

4.2.1 实时延迟测试

改进版的cyclictest脚本：

bash复制#!/bin/bash
# run_cyclic_advanced.sh
DURATION=300
CPU_MASK=0x0f  # CPU0-3
PRIORITY=98
HISTOGRAM_BUCKETS=100

cyclictest -p$PRIORITY -m -a$CPU_MASK -Sp90 -i200 -d$DURATION -q -h$HISTOGRAM_BUCKETS \
    | tee cyclic.log

# 分析结果
MAX=$(awk '/Max/ {print $3}' cyclic.log)
STDDEV=$(awk '/StdDev/ {print $3}' cyclic.log)
echo "Max Latency = $MAX us, StdDev = $STDDEV us"

# 生成直方图
gnuplot << EOF
set terminal png
set output "latency_hist.png"
set title "Latency Distribution"
set xlabel "Latency (us)"
set ylabel "Count"
plot "cyclic.log" using 1:2 with boxes title ""
EOF

4.2.2 调度延迟测试

增强版的perf sched分析：

bash复制#!/bin/bash
# run_sched_advanced.sh
perf sched record -C 0-3 sleep 30
perf sched latency --sort max | tee sched.log

# 提取关键指标
MAX_LAT=$(awk '/maximum/ {print $3}' sched.log | head -1)
AVG_LAT=$(awk '/average/ {print $3}' sched.log | head -1)
echo "Max Sched Latency = $MAX_LAT us, Avg = $AVG_LAT us"

# 生成火焰图
perf sched script | stackcollapse-perf.pl | flamegraph.pl > sched_flame.svg

4.3 结果分析与报告生成

我们改进的报告生成脚本增加了趋势分析功能：

bash复制#!/bin/bash
# generate_report.sh

# 收集当日数据
DATE=$(date +%Y%m%d)
mkdir -p "data/$DATE"
cp *.log "data/$DATE/"

# 生成趋势图
gnuplot << EOF
set terminal png
set output "trend.png"
set title "Latency Trend (Last 7 Days)"
set xlabel "Date"
set ylabel "Latency (us)"
set xdata time
set timefmt "%Y%m%d"
set format x "%m-%d"
plot "<(ls data/*/cyclic.log | xargs awk '/Max/ {print FILENAME, \$3}' | sort)" \
     using 1:2 with linespoints title "Max Latency"
EOF

# 使用模板生成PDF
libreoffice --convert-to pdf --headless \
    --infilter="writer8" \
    --outdir reports \
    template.odt

5. 工业应用案例分析

5.1 视觉质检系统

某汽车零部件厂商的视觉检测系统要求：

检测周期：20ms（对应50fps）
从拍照到结果输出的端到端延迟：≤30ms
误检率：<0.1%

我们的优化措施：

将图像采集DMA缓冲区增加到4个，避免缓冲区饥饿
为AI推理线程设置SCHED_FIFO优先级
使用CPU隔离技术，将CPU3专用于实时任务

最终实现的性能指标：

最大延迟：82μs
端到端延迟：25±3ms
连续运行30天无故障

5.2 PLC控制系统

某包装机械PLC控制器要求：

控制周期：1kHz（1ms）
抖动：<20μs
看门狗超时：100ms

关键配置：

bash复制# 内核启动参数
isolcpus=3  # 隔离CPU3
rcu_nocbs=3  # 关闭CPU3的RCU回调
nohz_full=3  # 关闭CPU3的时钟中断

6. 常见问题深度解析

6.1 高延迟问题排查流程

当cyclictest报告最大延迟超过阈值时，建议按照以下步骤排查：

检查CPU频率是否稳定：

bash复制watch -n1 "cat /proc/cpuinfo | grep MHz"

检查中断分布：

bash复制watch -n1 "cat /proc/interrupts | head -n 20"

检查进程状态：

bash复制ps -eo pid,cls,rtprio,pri,nice,pcpu,comm | grep -v "FF"

检查内存延迟：

bash复制sudo perf mem record -a sleep 10
sudo perf mem report --sort=mem

6.2 IO性能优化技巧

对于SATA/NVMe存储的性能优化：

调整I/O调度器参数：

bash复制echo 256 > /sys/block/nvme0n1/queue/nr_requests
echo 2 > /sys/block/nvme0n1/queue/rq_affinity

禁用写入缓存刷新（仅适用于有电池备份的场景）：

bash复制echo "write back" > /sys/block/nvme0n1/queue/write_cache

使用多队列：

bash复制echo 4 > /sys/block/nvme0n1/queue/mq/read_queues

7. 长期监控与维护

7.1 自动化监控系统搭建

推荐使用以下工具栈构建监控系统：

数据采集：Telegraf（轻量级）
存储：InfluxDB（时序数据库）
展示：Grafana（可视化）

示例的Telegraf配置：

toml复制[[inputs.exec]]
  commands = ["/opt/rt_tests/run_cyclic.sh"]
  timeout = "5m"
  data_format = "influx"

7.2 性能退化预警机制

设置多级预警阈值：

警告级（邮件通知）：延迟 > 80μs
错误级（短信通知）：延迟 > 100μs
严重级（自动重启）：延迟 > 200μs持续5分钟

实现脚本：

bash复制#!/bin/bash
# monitor_latency.sh
LATENCY=$(/opt/rt_tests/run_cyclic.sh | awk '/Max/ {print $3}')

if (( $(echo "$LATENCY > 200" | bc -l) )); then
    echo "Critical latency detected: $LATENCY us" | mail -s "RT System Alert" admin@example.com
    reboot
elif (( $(echo "$LATENCY > 100" | bc -l) )); then
    echo "High latency detected: $LATENCY us" | mail -s "RT System Warning" admin@example.com
fi

8. 测试方案演进路线

随着应用场景的复杂化，我们的测试方案也在持续演进：

第一阶段（基础测试）：
- 单机性能测试
- 静态负载测试
- 手动报告生成
第二阶段（进阶测试）：
- 多节点协同测试
- 动态负载模拟
- 自动化报告系统
第三阶段（智能测试）：
- 基于机器学习的异常检测
- 预测性维护
- 数字孪生仿真

当前我们已经实现了第二阶段的全部功能，正在向第三阶段迈进。一个典型的例子是我们开发的"实时性数字孪生"系统，可以在部署前预测实际运行时的性能表现。