FPGA实现FIR滤波器的完整设计与优化指南

乱世佳人断佳话

1. 项目概述

作为一名在数字信号处理领域摸爬滚打多年的工程师，我深知FIR滤波器在FPGA实现中的痛点和难点。今天要分享的这个项目，是一个完整的FIR数字滤波器设计流程，同时支持Quartus和Vivado两大开发环境。这个方案已经在多个实际项目中得到验证，包括音频处理、传感器信号调理等应用场景。

FIR（有限长单位冲激响应）滤波器因其线性相位特性和稳定性，在数字信号处理中占据重要地位。但在FPGA上实现时，我们需要考虑定点数处理、时序约束、资源优化等一系列实际问题。本文将从一个完整的工程实现角度，详细介绍从MATLAB系数生成到FPGA实现的完整流程。

2. 核心设计思路

2.1 滤波器参数确定

在设计之初，我们需要明确几个关键参数：

滤波器类型（低通、高通、带通等）
截止频率
过渡带宽
阻带衰减
阶数（抽头数）

以常见的低通滤波器为例，在MATLAB中我们可以使用fir1函数生成初始系数。但这里有个关键点：FPGA处理的是定点数，而MATLAB默认生成的是浮点系数，因此需要进行定点化转换。

2.2 定点数转换策略

定点数转换需要考虑三个关键因素：

整数位宽：决定动态范围
小数位宽：决定精度
量化方式：舍入或截断

在我们的实现中，选择16位有符号数（Q1.15格式），其中1位符号位，15位小数位。这种配置在大多数应用中能提供足够的动态范围和精度，同时不会过度消耗FPGA资源。

3. MATLAB系数生成与处理

3.1 系数生成代码详解

matlab复制% 设计一个16阶低通滤波器，截止频率0.4*fs/2
coeff_float = fir1(15, 0.4); 

% 设置量化器参数
q = quantizer('fixed','round','saturate',[16 15]);

% 转换为定点数十六进制表示
coeff_fixed = num2hex(q, coeff_float);

% 写入.coe文件供Vivado使用
fid = fopen('fir_coeff.coe','w');
fprintf(fid,'Radix = 16;\n');
fprintf(fid,'Coefficient_Width = 16;\n');
fprintf(fid,'CoefData = \n');
for i=1:length(coeff_fixed)-1
    fprintf(fid,'%s,\n',coeff_fixed(i,:));
end
fprintf(fid,'%s;\n',coeff_fixed(end,:));
fclose(fid);

这段代码完成了从浮点系数到定点数的转换，并生成了Vivado可以直接读取的.coe文件。对于Quartus，我们可以将十六进制系数转换为二进制补码形式。

3.2 系数验证技巧

在转换完成后，强烈建议进行系数验证：

将定点数系数转换回浮点数，与原系数比较误差
绘制频率响应曲线，确认关键指标（截止频率、阻带衰减等）是否满足要求
进行时域仿真，观察阶跃响应等特性

4. Quartus实现方案

4.1 IP核配置要点

在Quartus中使用FIR II IP核时，有几个关键配置需要注意：

系数设置：
- 选择"Imported Coefficients"方式
- 设置系数位宽为16位
- 选择有符号数表示
数据路径配置：
- 输入数据位宽与系数位宽一致（16位）
- 输出位宽适当扩展（建议24位）
- 勾选"Registered Output"确保时序稳定
实现优化：
- 根据目标器件选择适当的实现结构（DSP块或逻辑单元）
- 对于高性能应用，启用流水线选项

4.2 自定义实现代码

对于需要更灵活控制的设计，可以采用自定义实现。下面是一个优化的流水线结构实现：

verilog复制module fir_filter (
    input clk,
    input rst_n,
    input signed [15:0] data_in,
    output signed [23:0] data_out
);

// 系数存储器
reg signed [15:0] coeff [0:15];
initial begin
    // 初始化系数，实际项目中应从文件读取
    coeff[0] = 16'h0123;
    // ...其他系数初始化
end

// 移位寄存器组
reg signed [15:0] delay_line [0:15];

// 乘法结果寄存器
reg signed [31:0] mult_result [0:15];

// 累加器
reg signed [31:0] acc;

always @(posedge clk or negedge rst_n) begin
    if (!rst_n) begin
        // 复位逻辑
        for (int i=0; i<16; i=i+1) begin
            delay_line[i] <= 0;
            mult_result[i] <= 0;
        end
        acc <= 0;
    end else begin
        // 移位寄存器更新
        for (int i=15; i>0; i=i-1) begin
            delay_line[i] <= delay_line[i-1];
        end
        delay_line[0] <= data_in;
        
        // 并行乘法
        for (int i=0; i<16; i=i+1) begin
            mult_result[i] <= delay_line[i] * coeff[i];
        end
        
        // 累加树
        acc <= mult_result[0] + mult_result[1] + mult_result[2] + mult_result[3] +
               mult_result[4] + mult_result[5] + mult_result[6] + mult_result[7] +
               mult_result[8] + mult_result[9] + mult_result[10] + mult_result[11] +
               mult_result[12] + mult_result[13] + mult_result[14] + mult_result[15];
    end
end

assign data_out = acc[30:7]; // 适当截取有效位

endmodule

这个实现采用了全流水线结构，每个时钟周期都能处理一个新的输入样本。关键点包括：

使用有符号数运算避免溢出
采用并行乘法提高吞吐量
累加树结构减少关键路径延迟
输出位宽适当截取

5. Vivado实现方案

5.1 System Generator方法

对于Vivado用户，System Generator提供了更高级的抽象：

从MATLAB工作区导入系数
使用FIR Compiler模块
配置与Quartus类似的参数
生成IP核并集成到设计中

这种方法适合快速原型开发，但灵活性相对较低。

5.2 HLS实现方法

Vivado HLS提供了另一种实现途径，下面是优化后的HLS代码：

cpp复制#include "ap_fixed.h"
typedef ap_fixed<16,1> coeff_t;
typedef ap_fixed<24,8> data_t;

void fir_filter(
    data_t in,
    data_t *out,
    const coeff_t coeff[16]
) {
    static data_t shift_reg[16];
    data_t acc = 0;
    
    // 移位操作 - 完全展开循环
    shift_reg[15] = shift_reg[14];
    shift_reg[14] = shift_reg[13];
    // ...中间移位操作
    shift_reg[1] = shift_reg[0];
    shift_reg[0] = in;
    
    // 乘累加 - 流水线优化
    MAC_LOOP: for(int i=0; i<16; i++) {
        #pragma HLS PIPELINE II=1
        acc += shift_reg[i] * coeff[i];
    }
    
    *out = acc;
}

HLS实现的关键优化点：

使用ap_fixed类型确保位宽精确控制
通过PRAGMA指令指导流水线生成
循环展开优化提高性能
静态变量实现移位寄存器

综合后需要检查II值（Initiation Interval），确保达到1，即每个时钟周期能处理一个新样本。

6. 仿真与验证

6.1 Testbench设计

一个完善的testbench应该包含以下部分：

verilog复制module fir_filter_tb;

reg clk;
reg rst_n;
reg signed [15:0] data_in;
wire signed [23:0] data_out;

// 实例化被测模块
fir_filter uut (
    .clk(clk),
    .rst_n(rst_n),
    .data_in(data_in),
    .data_out(data_out)
);

// 时钟生成
always #5 clk = ~clk;

// 测试激励
initial begin
    // 初始化
    clk = 0;
    rst_n = 0;
    data_in = 0;
    
    // 复位
    #20 rst_n = 1;
    
    // 生成扫频信号
    for (int i=0; i<2048; i=i+1) begin
        data_in = 32767 * $sin(2*3.1416*i/64) +  // 低频成分
                  32767 * $sin(2*3.1416*i/8);    // 高频成分
        #10;
    end
    
    // 结束仿真
    #100 $finish;
end

// 波形导出
initial begin
    $dumpfile("fir_filter.vcd");
    $dumpvars(0, fir_filter_tb);
end

endmodule