5G NR中LDPC编码技术原理与Arm优化实现

王友初

1. 5G NR物理层中的LDPC编码技术解析

在5G新空口(NR)标准中，低密度奇偶校验码(LDPC)被选为数据信道的核心编码方案，这主要得益于其在长码块下的优异性能表现。与4G时代广泛使用的Turbo码相比，LDPC码具有更低的解码延迟和更高的吞吐量，特别适合5G增强移动宽带(eMBB)场景下的高速数据传输需求。

1.1 LDPC码的基本原理

LDPC码本质上是一种线性分组码，其核心特征在于稀疏的校验矩阵。这个矩阵中"1"的密度很低，就像一张大部分区域都是0的网格，只在特定位置有少量1值分布。这种稀疏性带来了两个关键优势：一是解码时可以并行处理多个校验方程，二是迭代解码时信息传递的效率更高。

在3GPP TS 38.212标准中，定义了两种基图(Base Graph)：

基图1(BG1)：适用于较大码块(信息位K>3840)和较高码率(R>0.67)
基图2(BG2)：适用于较小码块和较低码率

每种基图实际上就是一个预设的校验矩阵模板，通过"提升"(lifting)操作可以生成不同大小的实际校验矩阵。提升大小z决定了最终的码块尺寸，标准中定义了从2到384共8组提升大小集合。

1.2 Arm RAN加速库的实现特点

Arm RAN加速库对LDPC的实现严格遵循3GPP规范，同时针对Arm架构进行了深度优化：

内存管理：提供常规和noalloc两种函数变体，后者需要预分配工作缓冲区，避免了实时系统中的动态内存分配开销
并行计算：利用Arm NEON指令集加速矩阵运算，特别优化了分层解码中的消息更新计算
早期终止：支持基于CRC校验的迭代提前终止机制，减少不必要的计算消耗

实际测试表明，在Cortex-A77处理器上，该库的单核解码吞吐量可达1.2Gbps@2.5GHz，完全满足sub-6GHz频段的实时处理需求。

2. LDPC编码过程详解

2.1 编码参数配置

在开始编码前，需要确定几个关键参数：

c复制armral_ldpc_graph_t bg;  // 选择基图类型(BG1或BG2)
uint32_t z;             // 提升大小(参考TS 38.212表5.3.2-1)
uint32_t len_filler_bits; // 填充比特数

提升大小z的选择需要满足：

对于BG1：22*z ≥ K - L (K为信息位长度，L为CRC长度)
对于BG2：10z ≥ K - L
填充比特的作用是使(K + L + filler)正好等于22z(BG1)或10*z(BG2)。

2.2 核心编码函数剖析

库提供了两个编码函数接口：

c复制// 常规版本(内部分配内存)
armral_status armral_ldpc_encode_block(
    const uint8_t *data_in, armral_ldpc_graph_t bg, 
    uint32_t z, uint32_t len_filler_bits, uint8_t *data_out);

// 非分配版本(需预分配缓冲区)
armral_status armral_ldpc_encode_block_noalloc(
    const uint8_t *data_in, armral_ldpc_graph_t bg, uint32_t z,
    uint32_t len_filler_bits, uint8_t *data_out, void *buffer);

编码过程遵循标准中的系统化编码方案：

构建生成矩阵G = [I|P]，其中I是单位矩阵，P通过基图计算得到
计算码字c = u·G，u为输入信息位
对前2z列执行打孔(puncturing)，实际输出从第3z位开始

注意：编码器假设输入已经包含CRC校验位。对于BG1，CRC长度应为24A；BG2则使用16位CRC。

2.3 编码缓冲区管理

非分配版本需要预先计算工作缓冲区大小：

c复制uint32_t buffer_size = armral_ldpc_encode_block_noalloc_buffer_size(bg, z, len_filler_bits);

典型的内存需求如下表所示：

基图类型	z值范围	典型缓冲区大小
BG1	32-384	12-144 KB
BG2	16-192	6-72 KB

在实际部署中，建议为每个编码线程预分配最大可能需要的缓冲区，避免运行时频繁申请释放内存。

3. LDPC解码实现解析

3.1 分层最小和算法

Arm实现采用分层最小和(Layered Min-Sum)算法，相比传统的最小和算法有以下改进：

将校验矩阵按行分成若干层(层数=校验节点数/z)
每层更新后立即将新消息用于下一层计算，加速收敛
采用归一化最小和，通过缩放因子(典型值0.75)减少过估计误差

解码配置参数示例：

c复制uint32_t its_max = 8;   // 最大迭代次数
uint32_t options = ARMRAL_LDPC_CRC_24A | ARMRAL_LDPC_CRC_EVERY_ITER;

3.2 解码函数接口

核心解码函数同样提供两种变体：

c复制armral_status armral_ldpc_decode_block(
    uint32_t n, const int8_t *llrs, armral_ldpc_graph_t bg,
    uint32_t z, uint32_t len_filler_bits, uint8_t *data_out,
    uint32_t its_max, uint32_t *its_out, uint32_t options);

// 非分配版本
armral_status armral_ldpc_decode_block_noalloc(
    uint32_t n, const int8_t *llrs, ..., void *buffer);

输入LLR(对数似然比)的排列格式由options决定：

显式填充位：[信息位LLR | 填充位LLR | 校验位LLR]
隐式填充位：[信息位LLR | 校验位LLR]

3.3 解码过程优化技巧

早期终止策略：
- 每层迭代后检查CRC(ARMRAL_LDPC_CRC_EVERY_ITER)
- 或仅在最后检查(ARMRAL_LDPC_CRC_END_ITER)
- 前者增加计算但减少平均迭代次数
LLR量化：
- 输入使用8位有符号整型表示LLR
- 建议接收机将软信息量化为[-127,127]范围
- 过大的LLR值会导致非线性饱和
并行计算：
- 每层内的z个校验节点可并行处理
- 利用SIMD指令同时处理多个LLR值

4. 速率匹配技术实现

4.1 速率匹配的三步流程

速率匹配过程包括：

子块交织：将编码后的比特分成三个子块分别交织
比特选择：根据冗余版本(RV)确定起始位置循环读取
比特交织：按调制阶数交织，确保每个符号比特来自非相邻位置

函数接口：

c复制armral_status armral_ldpc_rate_matching(
    armral_ldpc_graph_t bg, uint32_t z, uint32_t e,
    uint32_t nref, uint32_t len_filler_bits, uint32_t k,
    uint32_t rv, armral_modulation_type mod,
    const uint8_t *src, uint8_t *dst);

4.2 冗余版本(RV)策略

3GPP定义了4种RV模式(0-3)，影响比特选择的起始位置：

RV	初始偏移	适用场景
0	0	初传
1	1/3	第一次重传
2	2/3	第二次重传
3	1	低码率场景

4.3 有限缓冲区速率匹配(LBRM)

当接收端缓冲区有限时，需要通过nref参数限制最大软比特数：

code复制nref = min(Ncb, Nref)
其中Ncb = min(⌊Nsoft / Kc⌋, Kw)

Kc为码块组数，Nsoft为总软缓冲区大小。

5. 性能优化与调试技巧

5.1 典型性能指标

在Arm Cortex-A77 @2.5GHz上的实测数据：

操作	码长	吞吐量	延迟
BG1编码	8448	3.2Gbps	2.6μs
BG1解码(5次迭代)	8448	1.1Gbps	7.5μs
速率匹配	8448	4.8Gbps	1.7μs

5.2 常见问题排查

解码失败率高：
- 检查LLR动态范围是否合适
- 验证CRC类型是否与编码端匹配
- 调整最小和算法的归一化因子
内存越界错误：
- 确认缓冲区大小通过xxx_noalloc_buffer_size计算
- 检查z值是否符合标准定义的范围
性能不达标：
- 确保编译器启用了NEON优化(-O3 -mcpu=native)
- 检查是否误用了动态分配版本导致内存频繁申请

5.3 参数配置建议

对于高信噪比(SNR>10dB)场景：
- 使用ARMRAL_LDPC_CRC_END_ITER减少CRC检查次数
- 最大迭代次数设为5-6次即可
对于边缘小区用户(SNR<0dB)：
- 启用ARMRAL_LDPC_CRC_EVERY_ITER
- 增加迭代次数到10-12次
- 考虑使用BG2获得更低码率
在内存受限系统中：
- 优先使用noalloc函数变体
- 为最坏情况预分配内存池
- 考虑限制nref减少软缓冲区需求