FPGA+ARM异构架构在嵌入式视觉系统中的实战经验-嵌云网-嵌入式AI开发资源站

FPGA+ARM异构架构在嵌入式视觉系统中的实战经验

堂长老

1. 项目背景与核心挑战

在嵌入式视觉系统中，FPGA+MCU/CPU/SoC的异构架构正在成为工业相机、医疗内窥镜、无人机图传等专业设备的首选方案。这种架构下，FPGA负责高速图像采集与预处理，主控芯片完成高级算法处理，两者通过并行总线或高速串行接口协同工作。我最近完成的一个工业检测项目就采用了Xilinx Zynq-7000 SoC（FPGA+ARM Cortex-A9）搭配OV5640传感器的方案，期间踩过不少坑，也积累了一些实战经验。

这种架构的核心优势在于：

FPGA可实时完成像素校正、去噪、格式转换等操作（典型延迟<1ms）
主控芯片能专注运行OpenCV等复杂算法
异构计算显著降低整体功耗（实测比纯CPU方案节能40%）

但开发过程中会面临三大挑战：

跨时钟域数据同步问题（传感器时钟 vs 系统时钟）
DMA传输的内存对齐要求（特别是YUV422等非对称格式）
驱动层与应用层的零拷贝机制实现

2. 硬件架构设计与接口选型

2.1 典型硬件连接方案

以我使用的Zynq+OV5640为例，硬件连接拓扑如下：

code复制OV5640传感器 → FPGA（图像预处理） → AXI_VDMA → DDR内存 → Linux V4L2驱动
                ↑I2C配置            ↑AXI总线          ↑中断信号

关键接口参数配置：

传感器接口：DVP并行总线，时钟频率≤75MHz（OV5640极限）
FPGA预处理：至少双行缓存（Line Buffer）防止数据丢失
DMA配置：AXI总线宽度128bit，突发长度16
内存分配：CMA连续内存池，每帧对齐到4K边界

特别注意：当使用YUV422格式时，内存宽度必须是2的整数倍，否则会出现色偏。我们曾因此浪费两天调试，最终发现是DMA配置中Data Width设成了64bit（应设为128bit）

2.2 时钟域同步方案

跨时钟域处理是稳定性关键。推荐采用双缓冲策略：

FPGA侧：用异步FIFO隔离传感器时钟（如24MHz）和系统时钟（如100MHz）
驱动侧：在DMA完成中断中切换缓冲区指针，参考以下伪代码：

c复制void isr_handler() {
    spin_lock(&buf_lock);
    active_buf = (active_buf == buf0) ? buf1 : buf0; 
    schedule_work(&process_work); // 触发应用层处理
    spin_unlock(&buf_lock);
    // 重新配置DMA到新缓冲区
    dma_config(active_buf->phy_addr); 
}

3. Linux驱动开发实战

3.1 V4L2驱动框架改造

标准V4L2驱动需要针对FPGA方案做以下改造：

设备树配置示例：

dts复制framebuffer@0x1F000000 {
    compatible = "mytech,fpga-camera";
    reg = <0x1F000000 0x1000>; // FPGA寄存器基址
    interrupts = <0 89 4>; // PL→PS中断号
    dmas = <&vdma 0>;     // 绑定DMA通道
    dma-names = "video";
    clocks = <&vid_clk>;  // 视频时钟源
};

关键驱动结构体：

c复制static struct v4l2_file_operations my_fops = {
    .owner = THIS_MODULE,
    .open = my_open,
    .release = my_release,
    .unlocked_ioctl = video_ioctl2,
    .mmap = my_mmap, // 必须实现零拷贝
};

static struct v4l2_ioctl_ops my_ioctl_ops = {
    .vidioc_querycap = my_querycap,
    .vidioc_enum_fmt_vid_cap = my_enum_fmt,
    .vidioc_g_fmt_vid_cap = my_g_fmt,
    .vidioc_s_fmt_vid_cap = my_s_fmt,
    .vidioc_reqbufs = my_reqbufs,
    .vidioc_qbuf = my_qbuf,
    .vidioc_dqbuf = my_dqbuf,
    .vidioc_streamon = my_streamon,
    .vidioc_streamoff = my_streamoff,
};

3.2 零拷贝内存管理

通过DMA直接传输到用户空间是性能关键，具体实现要点：

分配CMA内存池：

c复制struct page *cma_pages = dma_alloc_from_contiguous(
    dev, PAGE_ALIGN(size) >> PAGE_SHIFT, 0);

内存映射到用户空间：

c复制static int my_mmap(struct file *file, struct vm_area_struct *vma) {
    unsigned long offset = vma->vm_pgoff << PAGE_SHIFT;
    return dma_mmap_coherent(dev, vma, buf->vaddr, 
               buf->dma_handle, size);
}

应用层直接访问：

c复制int fd = open("/dev/video0", O_RDWR);
void *ptr = mmap(NULL, buf_size, PROT_READ, MAP_SHARED, fd, 0);

实测数据：相比传统copy_to_user方式，零拷贝方案在1080p@30fps下可降低CPU占用率约35%

4. FPGA图像预处理实现

4.1 实时像素校正

在FPGA中实现以下处理流水线（Verilog示例）：

verilog复制always @(posedge pix_clk) begin
    // 黑电平校正
    pixel_corrected = (pixel_in > black_level) ? 
                     (pixel_in - black_level) : 0;
    
    // 伽马校正（查表法）
    pixel_gamma = gamma_lut[pixel_corrected];
    
    // 边缘增强（3x3卷积）
    if (row_cnt > 1 && col_cnt > 1) 
        pixel_out <= edge_enhance(pixel_window);
end

资源消耗估算（Xilinx Artix-7）：

逻辑单元：约1200 LUTs
块RAM：8个36Kb块（用于行缓存和LUT）
时钟频率：轻松达到150MHz

4.2 数据打包优化

针对不同输出格式的位宽优化方案：

格式	位宽方案	存储效率
RAW8	64bit总线打包8像素	100%
YUV422	128bit总线打包16像素	100%
RGB565	64bit总线打包4像素	100%
JPEG	32bit总线+压缩引擎	可变

特别注意：YUV422数据在DDR内存中必须按UVUV顺序排列，我们在FPGA中通过字节交换模块实现：

verilog复制assign {data_out[31:24], data_out[15:8]} = {U0, V0}; // Y0 U0 Y1 V0
assign {data_out[23:16], data_out[7:0]} = {Y1, V0};

5. 性能调优与问题排查

5.1 典型性能瓶颈分析

通过perf工具采集的系统瓶颈分布：

code复制+-------------------+----------+
| 瓶颈点            | 占比     |
+-------------------+----------+
| DMA等待           | 45%      |
| 内存拷贝          | 30%      |
| 中断延迟          | 15%      |
| 格式转换          | 10%      |
+-------------------+----------+

优化措施及效果：

启用DMA分散-聚集（Scatter-Gather）传输 → 吞吐提升25%
采用ARM NEON加速YUV转RGB → 耗时降低60%
调整Linux实时优先级（SCHED_FIFO 99）→ 中断延迟<50μs

5.2 常见故障排查指南

我们遇到的典型问题及解决方案：

图像出现横条纹

检查FPGA行缓冲是否溢出
确认VSYNC信号同步正确
测量时钟抖动（应<1%）

颜色异常

验证I2C寄存器配置（特别是格式寄存器）
检查DMA位宽是否匹配像素格式
测试传感器基准电压（通常需1.8V±5%）

帧率不稳定

查看/proc/interrupts确认中断均衡
调整DMA缓冲区数量（建议≥4）
禁用CPU节能模式（cpufreq设为performance）

6. 高级功能扩展

6.1 多摄像头同步

工业检测中常需多摄像头同步采集，我们的实现方案：

硬件同步：FPGA生成全局触发信号（精度<100ns）
软件同步：通过V4L2的EXT_CTRLS机制

c复制struct v4l2_ext_controls ctrls = {
    .which = V4L2_CTRL_WHICH_CUR_VAL,
    .count = 1,
    .controls = &ctrl,
};
ctrl.id = MY_TRIGGER_CTRL;
ioctl(fd, VIDIOC_S_EXT_CTRLS, &ctrls);

6.2 动态重配置

通过sysfs接口实现运行时参数调整：

bash复制# 调整曝光时间（毫秒）
echo 10 > /sys/class/video4linux/video0/exposure

# 切换分辨率
echo "1920 1080" > /sys/class/video4linux/video0/resolution

驱动层实现参考：

c复制static ssize_t exposure_store(struct device *dev,
    struct device_attribute *attr, const char *buf, size_t count) {
    u32 val;
    kstrtou32(buf, 10, &val);
    i2c_write(OV5640_REG_EXPOSURE, val);
    return count;
}
DEVICE_ATTR_RW(exposure);

这套架构已在工业视觉检测设备上稳定运行超过2000小时，核心经验是：FPGA处理要尽可能前置，驱动层做好内存管理和中断优化，应用层通过mmap直接操作图像数据。最近我们正在尝试将部分AI推理（如目标检测）也放到FPGA中实现，这又是另一个有趣的话题了。