Jetson Nano边缘AI实战：YOLOv5模型部署与优化指南-嵌云网-嵌入式AI开发资源站

Jetson Nano边缘AI实战：YOLOv5模型部署与优化指南

雨田青

1. 边缘AI与Jetson Nano初探

在嵌入式设备上跑深度学习模型这件事，五年前还像是天方夜谭。当时我们团队做智能摄像头项目，不得不用工控机搭配GPU显卡，整套系统体积堪比微波炉，功耗更是直接突破200W。直到2019年NVIDIA推出Jetson Nano这块信用卡大小的开发板——搭载128核Maxwell架构GPU，支持主流深度学习框架，10W功耗下就能实时处理多路视频分析，边缘计算领域才算真正迎来了平民化时代。

作为边缘AI领域的"Hello World"级设备，Jetson Nano特别适合两类人群：一是想要低成本入门嵌入式AI的学生和开发者，二是需要在资源受限环境中部署轻量级模型的产品团队。我去年就用它完成了一个农业病虫害检测项目，在温室里部署了20台搭载YOLOv5的Nano设备，每台成本控制在千元内，识别准确率却达到商用级水准。下面我就从实战角度，带你一步步搭建完整的深度学习环境，并部署一个优化后的YOLOv5模型。

2. 开箱即用的基础环境配置

2.1 系统镜像烧录避坑指南

官方提供了两种镜像选择：JetPack 4.6（L4T 32.6.1）和JetPack 4.6.1。经过实测，建议选择后者，因为其包含的CUDA 10.2和cuDNN 8.2对YOLOv5的兼容性更好。下载SDK Manager时有个细节要注意：必须使用Ubuntu 18.04/20.04物理机操作，虚拟机由于USB重定向问题会导致刷机失败。

烧录过程常见三个坑：

使用廉价SD卡导致IO性能瓶颈——建议选择A2级别的U3高速卡（如Sandisk Extreme Pro）
首次启动时忘记接5V 4A电源，导致系统反复重启
未启用Jetson Clock设置最大性能模式，使得GPU频率被限制

重要提示：完成系统初始化后，务必执行以下命令解锁全部算力：
bash复制sudo nvpmodel -m 0
sudo jetson_clocks

2.2 深度学习环境精准配置

官方镜像虽然预装了CUDA，但缺少关键的TensorRT和OpenCV的GPU加速支持。建议按以下顺序安装：

bash复制# 安装系统依赖
sudo apt-get install build-essential cmake git libgtk2.0-dev pkg-config libavcodec-dev libavformat-dev libswscale-dev

# 编译OpenCV 4.5.0 with CUDA支持
git clone --branch 4.5.0 https://github.com/opencv/opencv.git
cd opencv && mkdir build && cd build
cmake -D CMAKE_BUILD_TYPE=RELEASE \
      -D CMAKE_INSTALL_PREFIX=/usr/local \
      -D WITH_CUDA=ON \
      -D CUDA_ARCH_BIN=5.3 \
      -D CUDA_ARCH_PTX=5.3 \
      -D WITH_CUDNN=ON \
      -D OPENCV_DNN_CUDA=ON \
      -D ENABLE_FAST_MATH=1 \
      -D CUDA_FAST_MATH=1 \
      -D WITH_CUBLAS=1 \
      -D OPENCV_EXTRA_MODULES_PATH=../../opencv_contrib/modules \
      -D WITH_V4L=ON \
      -D WITH_QT=OFF \
      -D WITH_OPENGL=ON \
      -D WITH_GSTREAMER=ON \
      -D BUILD_opencv_python3=ON ..
make -j4
sudo make install

编译过程约2小时，建议添加swap空间避免内存不足。完成后验证CUDA加速是否生效：

python复制import cv2
print(cv2.cuda.getCudaEnabledDeviceCount())  # 应输出1

3. YOLOv5的定制化部署实战

3.1 模型训练与量化技巧

在PC端训练YOLOv5s模型时，有三个关键参数影响后续部署效果：

输入分辨率：Nano上建议使用640x384而非标准640x640，长宽比更适合监控场景
激活函数：用SiLU替换Hardswish可提升3%推理速度
训练时添加--rect参数，使推理时自动进行矩形推理

模型导出时务必进行FP16量化：

bash复制python export.py --weights yolov5s.pt --include onnx --half

3.2 TensorRT加速终极方案

原生PyTorch模型在Nano上仅能跑到8FPS，经过TensorRT优化后可提升至22FPS。关键步骤如下：

使用onnx-simplifier优化计算图：

bash复制python -m onnxsim yolov5s.onnx yolov5s-sim.onnx

生成TensorRT引擎：

python复制import tensorrt as trt

logger = trt.Logger(trt.Logger.WARNING)
builder = trt.Builder(logger)
network = builder.create_network(1 << int(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH))
parser = trt.OnnxParser(network, logger)

with open("yolov5s-sim.onnx", "rb") as f:
    parser.parse(f.read())

config = builder.create_builder_config()
config.set_flag(trt.BuilderFlag.FP16)
config.max_workspace_size = 1 << 30
serialized_engine = builder.build_serialized_network(network, config)

with open("yolov5s.engine", "wb") as f:
    f.write(serialized_engine)

3.3 内存优化技巧

通过以下方法可将内存占用从默认的3.2GB降至2.4GB：

使用jetson-stats工具监控资源：

bash复制sudo jtop

限制PyTorch的线程数：

python复制import torch
torch.set_num_threads(2)

启用CUDA流异步执行：

python复制stream = torch.cuda.Stream()
with torch.cuda.stream(stream):
    results = model(inputs)

4. 工业级部署问题排查实录

4.1 典型故障速查表

故障现象	可能原因	解决方案
推理结果全零	TensorRT版本不匹配	使用7.1.3以上版本
视频流卡顿	USB带宽不足	改用CSI摄像头或降低分辨率
内存溢出	未启用交换分区	创建4GB swapfile
温度过高	散热不良	加装散热片+风扇

4.2 性能调优实测数据

经过以下优化步骤，我们的YOLOv5s模型在1080p视频流上达到稳定17FPS：

使用Docker容器隔离环境（性能损耗<3%）

bash复制docker run --runtime nvidia -it --rm nvcr.io/nvidia/l4t-ml:r32.6.1-py3

启用持久化内核模式

bash复制sudo nvidia-persistenced

使用NVIDIA的硬件加速编解码器

python复制cv2.VideoCapture(0, cv2.CAP_V4L2)

5. 项目扩展与进阶路线

完成基础部署后，可以尝试以下进阶方向：

多模型级联：先用轻量级MobileNet做区域检测，再触发YOLOv5
时间维度优化：结合ByteTrack实现目标追踪，减少逐帧计算
模型蒸馏：使用YOLOv5s训练的知识蒸馏到Nano专用小模型

我在实际项目中发现，结合TensorRT的动态shape功能，可以实现不同分辨率输入的自适应。例如白天使用高分辨率检测小目标，夜间切换为低分辨率提升帧率。具体实现需要修改engine的profile配置：

python复制profile = builder.create_optimization_profile()
profile.set_shape("input", (1,3,384,640), (1,3,640,640), (1,3,1024,1024)) 
config.add_optimization_profile(profile)

最后分享一个散热小技巧：在Nano的金属外壳上贴石墨烯散热片，配合5V小风扇，可让持续工作温度降低12℃。记得用tegrastats工具监控温度变化，避免冷凝水造成短路。