低成本FPGA实现PCIe接口的技术方案与实践

澾慟

1. 低成本FPGA实现PCI Express的技术背景

PCI Express（简称PCIe）作为PCI总线的革命性继任者，自2004年正式发布1.0规范以来，已经逐步取代传统并行PCI总线成为现代计算机系统的标准互连协议。与传统PCI总线相比，PCIe采用串行差分信号传输和点对点拓扑结构，在相同时钟频率下能提供更高的有效带宽。以x1链路为例，PCIe 1.0的单向理论带宽达到250MB/s（2.5GT/s），是PCI 32bit/33MHz总线（133MB/s）的近两倍。

在嵌入式系统和专用硬件领域，实现PCIe接口通常面临两种选择：专用ASIC芯片或可编程逻辑器件。ASIC虽然在大批量生产时具有成本优势，但其高昂的NRE（非重复性工程）费用和长达数月的开发周期使得中小批量项目难以承受。相比之下，FPGA凭借其可重构特性，允许开发者在单芯片上实现完整的PCIe端点功能，同时保持硬件设计的灵活性。

Altera（现为Intel PSG）的Cyclone II系列FPGA基于TSMC 90nm工艺，在2006年时期代表了低成本FPGA的最高水平。其内部包含数万个逻辑单元（LE）、嵌入式存储块和硬件乘法器，足以实现PCIe协议栈中的事务层、数据链路层和MAC子层。通过与TI XIO1100 PHY芯片配合，开发者可以用远低于ASIC方案的成本构建完整的PCIe x1端点设备。

实际工程经验表明，在x1链路速率的应用中，Cyclone II EP2C35这类中等规模FPGA的资源利用率通常不超过40%，剩余资源可用于实现用户自定义逻辑功能，这种"协议栈+应用逻辑"的单芯片集成正是FPGA方案的核心价值所在。

2. 硬件架构设计与关键组件选型

2.1 系统级架构分解

完整的PCIe实现包含三个主要层级：事务层（Transaction Layer）、数据链路层（Data Link Layer）和物理层（Physical Layer）。在本方案中，各层功能划分如下：

FPGA内部实现部分：
- 事务层：处理TLP（事务层数据包）的组装与解析，实现PCIe设备的核心功能如内存读写、配置空间访问等
- 数据链路层：负责数据包序列号分配、ACK/NAK应答机制和链路级错误检测
- MAC子层：处理链路训练、电源管理等底层控制功能
XIO1100 PHY实现部分：
- PCS（物理编码子层）：8b/10b编解码、加扰/解扰
- PMA（物理介质附加子层）：串行化/反串行化、时钟数据恢复（CDR）

两者通过PIPE（PHY Interface for PCI Express）接口连接，该标准定义了8/16位并行总线及其控制信号，使得不同厂商的MAC与PHY可以互操作。TI在XIO1100中扩展了TI-PIPE接口，增加了源同步时钟（TXCLK/RXCLK）以简化PCB布局设计。

2.2 核心器件参数对比

组件	型号	关键参数	成本优势
FPGA	Cyclone II EP2C35	33,216 LEs, 35个18x18乘法器, 4个PLL	采用300mm晶圆90nm工艺，裸片成本较130nm降低40%
PHY	TI XIO1100	2.5Gbps x1通道, 支持8/16bit PIPE, <250mW功耗	BGA封装尺寸仅为10x10mm，减少PCB面积占用
开发工具	Quartus II Web Edition	免费版支持全系列Cyclone II	免除EDA工具授权费用

在消费类电子应用中，这套方案的BOM成本可比同期的ASSP方案降低30-50%。例如，2006年一款PCIe视频采集卡的芯片组成本中，FPGA+PHY方案约$25，而专用芯片方案则需$40以上。

3. 具体实现步骤与技术细节

3.1 开发环境搭建

软件工具链安装：
- 下载Quartus II Web Edition（免费版本，支持Cyclone II全系器件）
- 安装PCI Express Compiler MegaCore IP（提供评估模式，功能完整但有时间限制）
- 配置ModelSim-Altera进行仿真验证
硬件平台准备：
- Cyclone II开发板（如EP2C35F672C8）
- XIO1100 PHY子板（需包含100MHz参考时钟和1.5V/3.3V电源）
- PCIe金手指连接器（需符合规范阻抗要求）

实测中发现，XIO1100对电源噪声极为敏感，建议在1.5V供电轨上布置至少两个47μF钽电容和多个0.1μF陶瓷电容，电源纹波应控制在±3%以内。

3.2 FPGA逻辑设计流程

IP核参数配置：

tcl复制# 在Quartus IP Toolbench中设置PCIe MegaCore参数
set_parameter {lane_width} x1
set_parameter {max_payload_size} 256
set_parameter {bar0_size} 1M  # 配置BAR0空间为1MB

用户逻辑接口设计：
- 应用层通过Avalon-MM或自定义接口与MegaCore通信
- DMA引擎设计需考虑TLP最大负载限制（典型值为256B）
- 配置空间寄存器需完整实现PCIe规范要求的必需字段
时序约束关键点：
- PIPE接口时钟125MHz需设置±100ps的输入输出延迟约束
- 跨时钟域信号（如user_clk与pipe_clk）需双触发器同步

3.3 PCB设计注意事项

差分对布线规则：
- PCIe TX/RX对长度差控制在±5mil以内
- 阻抗匹配100Ω±10%，避免使用过孔
- 参考层连续，避免跨分割区
电源设计要点：
- XIO1100需1.5V（核心）和3.3V（I/O）双电压
- FPGA Bank供电需与PHY接口电压一致（1.5V或3.3V）
- 建议采用低噪声LDO而非开关电源
信号完整性验证：
- 使用TDR测量阻抗连续性
- 眼图测试要求符合PCI-SIG规范（模板余量>15%）

4. 典型问题排查与性能优化

4.1 链路训练失败分析

现象：系统启动后PCIe链路未能建立，lspci命令显示设备为"Unknown Device"。

排查步骤：

检查FPGA配置是否成功（CONF_DONE信号）
测量REFCLK频率（100MHz±300ppm）
用示波器观察TX差分对是否有信号输出
检查LTSSM（链路训练状态机）停留在哪个状态

常见原因：

PHY电源未稳定即释放复位（需满足Power Good时序）
参考时钟抖动过大（应<50ps RMS）
PCB阻抗失配导致信号完整性差

4.2 性能优化技巧

吞吐量提升：
- 启用MegaCore的ECRC功能减少软件校验开销
- 调整Max_Payload_Size至设备支持的最大值
- 使用MSI中断替代传统INTx中断
延迟优化：
- 配置Posted Header Depth为最小值
- 禁用Flow Control时间戳功能
- 用户逻辑采用预取缓冲设计
资源节省：
- 共享多个BAR的译码逻辑
- 使用LPM实现配置空间寄存器而非触发器阵列
- 关闭未使用的可选功能（如VC仲裁）

5. 应用场景与扩展方案

5.1 典型应用实例

工业数据采集卡：
- Cyclone II实现PCIe接口+ADC控制逻辑
- 通过DMA将采样数据直接传输至主机内存
- 典型吞吐量可达180MB/s（实测值）
视频采集设备：
- FPGA集成BT.656解码和PCIe封装
- 使用SDRAM帧缓冲解决数据突发问题
- 支持1080p30视频流稳定传输
协议转换桥接：
- PCIe转千兆以太网（需额外PHY芯片）
- PCIe转USB 2.0主机控制器
- 传统PCI设备升级方案

5.2 扩展至x4/x8链路

虽然本方案基于x1链路设计，但Cyclone II系列高端型号（如EP2C70）可支持多通道扩展：

硬件修改：
- 更换为x4/x8 PHY芯片（如TI XIO2213）
- 增加差分对数量（每组需严格长度匹配）
- 提升电源设计（多通道功耗显著增加）
逻辑调整：
- 在MegaCore中启用Lane Multiplexing
- 重新分配PLL资源（每4通道需独立参考时钟）
- 调整数据链路层缓冲区深度