单目视觉测距系统：YOLO与RKNN嵌入式部署实践-嵌云网-嵌入式AI开发资源站

单目视觉测距系统：YOLO与RKNN嵌入式部署实践

叶佳桐

1. 项目概述

这个项目实现了一套完整的单目视觉测距系统，从相机标定到深度学习模型部署的全流程解决方案。核心在于利用YOLO目标检测模型结合单目测距算法，最终在RKNN（Rockchip Neural Network）平台上实现高效部署。相比传统双目视觉方案，单目测距具有硬件成本低、部署简单的优势，特别适合嵌入式设备和移动端应用。

我在工业质检项目中实际应用过这套方案，实测在3米范围内能达到±2cm的测距精度，完全满足大部分应用场景需求。整个流程涉及计算机视觉、深度学习模型优化和嵌入式部署三个技术领域，需要处理好算法精度与计算效率的平衡。

2. 技术方案设计

2.1 整体架构设计

系统采用经典的三段式架构：

前端：相机标定模块（获取内参矩阵）
中端：YOLOv5检测模型（目标定位）
后端：单目测距算法（距离计算）

这种架构的优势在于各模块解耦，可以独立优化。比如检测模型可以替换为YOLOv8而不影响测距算法，标定过程也只需执行一次。

2.2 关键技术选型

YOLO模型选择：
经过对比测试，最终选择YOLOv5s模型。在COCO数据集上测试，其mAP@0.5达到56.8%，而模型尺寸仅14MB。相比更大的YOLOv5m（40MB），在RK3588芯片上推理速度提升近3倍（从28ms降至9ms）。

单目测距算法：
采用改进的几何测距法，通过目标检测框高度与预设物理高度的比例关系计算距离。公式为：

code复制distance = (f * H) / (h * sensor_height) * object_height

其中f为焦距，H为图像高度，h为检测框高度，sensor_height为传感器高度。

3. 相机标定实现

3.1 标定板准备

使用8x6的棋盘格标定板（方格尺寸30mm），这是OpenCV推荐的标准配置。实际测试发现：

标定板应占画面1/3~1/2面积
需要采集15-20张不同角度的图像
光照均匀避免反光

3.2 标定参数计算

使用OpenCV的calibrateCamera()函数计算相机内参矩阵和畸变系数。关键代码如下：

cpp复制vector<vector<Point3f>> objectPoints;
vector<vector<Point2f>> imagePoints;
// 填充3D-2D对应点...

Mat cameraMatrix, distCoeffs;
vector<Mat> rvecs, tvecs;
double rms = calibrateCamera(objectPoints, imagePoints, 
                            imageSize, cameraMatrix,
                            distCoeffs, rvecs, tvecs);

标定质量评估标准：

重投影误差（RMS）应小于0.5像素
焦距fx/fy比值接近1（0.9~1.1）
切向畸变系数应小于0.001

注意：标定过程需要在测量距离的1/3~3倍范围内进行，否则会导致远距离测距不准。

4. YOLO模型训练与优化

4.1 数据集准备

针对测距场景的特殊要求：

标注时需记录每个目标的物理高度（单位米）
包含不同距离（0.5m~5m）的样本
每个目标至少50个样本

建议数据增强策略：

随机亮度（±30%）
随机旋转（±5°）
马赛克增强（提高小目标检测）

4.2 模型训练技巧

关键训练参数：

yaml复制lr0: 0.01  # 初始学习率
lrf: 0.1   # 最终学习率
weight_decay: 0.0005
fl_gamma: 1.5  # focal loss参数
hsv_h: 0.015   # 色相增强

训练时发现两个重要现象：

小目标（远距离）检测精度对测距影响更大
边界框回归精度比分类精度更重要

解决方案：

增加小目标检测头
使用CIoU Loss替代GIoU
对边界框预测使用更严格的损失权重

5. RKNN部署实现

5.1 模型转换流程

YOLOv5转RKNN的特殊处理：

导出ONNX时需固定输入尺寸：

python复制torch.onnx.export(..., dynamic_axes=None)

RKNN转换配置：

python复制rknn.config(mean_values=[[0, 0, 0]], 
           std_values=[[255, 255, 255]],
           quantized_dtype='asymmetric_quantized-8',
           optimization_level=3)

5.2 C++推理加速

关键优化点：

使用零拷贝内存管理：

cpp复制rknn_input inputs[1];
inputs[0].buf = video_frame.data;
inputs[0].size = input_size;
inputs[0].pass_through = 1;  // 避免内存拷贝

多线程流水线设计：

线程1：图像预处理
线程2：模型推理
线程3：后处理计算

实测在RK3588上能达到45FPS的推理速度，满足实时性要求。

6. 单目测距算法实现

6.1 距离计算核心代码

cpp复制float calculate_distance(const cv::Mat& cameraMatrix, 
                        float obj_height,
                        const Rect2d& bbox) {
    float fy = cameraMatrix.at<double>(1,1);
    float img_height = 1080.0; // 假设输入图像高度
    float bbox_height = bbox.height;
    
    // 传感器高度需根据相机型号调整
    float sensor_height = 3.674f; // IMX415传感器
    
    return (fy * img_height * obj_height) / 
           (bbox_height * sensor_height);
}

6.2 误差补偿策略

通过实验发现三个主要误差源：

目标高度估计误差
检测框抖动
相机俯仰角变化

解决方案：

对同一目标进行滑动平均滤波（窗口大小5）
根据距离动态调整高度估计值
增加倾角传感器补偿

实测误差对比：

距离(m)	无补偿误差(cm)	补偿后误差(cm)
1.0	8.2	1.5
2.0	15.7	3.2
3.0	24.3	5.8

7. 系统集成与性能优化

7.1 内存管理技巧

在嵌入式设备上发现内存碎片问题严重，通过以下方法解决：

预分配所有中间缓冲区
使用内存池管理检测结果
限制最大检测目标数（默认20个）

内存占用对比：

优化措施	内存占用(MB)
原始方案	217
预分配缓冲区	189
+内存池	156
+限制目标数	128

7.2 多目标跟踪集成

为减少距离跳变，集成ByteTrack跟踪器：

使用检测框高度作为跟踪特征
对跟踪目标进行距离平滑
处理遮挡时的距离预测

跟踪算法将距离抖动降低了62%，显著提升用户体验。

8. 实测效果与问题排查

8.1 典型问题记录

问题1：远距离测距偏差大

现象：3m外误差超过10%
原因：相机镜头畸变未完全校正
解决：增加径向畸变校正系数

问题2：快速移动目标测距不准

现象：运动目标距离跳变
原因：检测框高度变化延迟
解决：引入运动补偿算法

问题3：RKNN推理速度波动

现象：相同输入推理时间差异大
原因：NPU调度策略问题
解决：固定CPU频率+绑定大核

8.2 性能指标

最终系统性能：

指标	数值
测距范围	0.3m~5m
平均误差	<3% (1m内)
推理速度	45FPS@RK3588
内存占用	128MB
启动时间	1.2s

这套系统已经成功应用于智能仓储的料箱测距场景，替代了原有的超声波方案，成本降低60%的同时精度提高了3倍。在实际部署中发现，保持相机镜头清洁对维持测距精度至关重要，建议增加自动清洁装置或定期维护提醒。