Arm Mali-T760 GPU性能计数器优化指南

语嫣凝冰

1. Arm Mali-T760 GPU性能计数器深度解析

在移动图形开发领域，性能优化始终是开发者面临的核心挑战。作为Arm Midgard架构家族的重要成员，Mali-T760 GPU提供了一套完整的性能计数器系统，能够精确监控处理器流水线各阶段的运行状态。这些硬件级指标就像GPU的"体检报告"，通过量化分析帮助我们定位性能瓶颈。

不同于传统的PC平台，移动GPU受限于严格的功耗预算和内存带宽限制。以外部DRAM访问为例，每GB/s的带宽消耗约80-100mW功耗，这意味着在60FPS帧率下，整个应用可用的可持续内存带宽仅有约100MB/帧。性能计数器正是我们突破这些限制的关键工具，它能揭示隐藏的性能黑洞，比如无效的几何处理、低效的着色器指令调度或是内存访问模式问题。

2. 性能计数器体系架构

2.1 硬件计数器工作原理

Mali-T760的计数器系统采用分布式设计，每个着色器核心和缓存切片都有独立的计数器单元。在Streamline性能分析工具中，这些数据会被汇总呈现。自Streamline 8.7版本起，着色器核心计数器从平均值显示改为总和值显示，与缓存切片计数器的处理方式保持一致。

计数器数据通过三条主线组织：

活动周期计数器：记录各硬件单元处于工作状态的时间（如GPU_ACTIVE_CYCLES）
事件计数器：统计特定操作的发生次数（如PRIMITIVES_CULLED）
带宽计数器：测量数据传输量（如EXTERNAL_READ_BYTES）

2.2 关键监控层级

计数器系统覆盖GPU处理的完整流水线：

code复制Job管理器
├─ Non-fragment队列(JS1)：顶点/计算着色器
├─ Fragment队列(JS0)：片段着色器
└─ Tiler单元：几何处理与分块

这种层级设计允许我们分别分析几何处理（Non-fragment）、光栅化（Fragment）和分块（Tiler）三个关键阶段的性能特征。在优化实践中，我们通常按照"先整体后局部"的原则：首先通过顶层计数器确定主要瓶颈所在的处理阶段，再深入该阶段的细分计数器进行详细分析。

3. CPU与GPU协同分析

3.1 CPU性能指标

虽然本文聚焦GPU性能，但CPU端的处理效率同样关键。两个核心计数器需要特别关注：

CPU活动率($CPUActivityUser)：显示各CPU集群的时间利用率
CPU周期数($CyclesCPUCycles)：反映实际消耗的时钟周期

在图形密集型应用中，常见的CPU端问题包括：

单线程瓶颈：一个线程持续处于高负载（活动率接近100%）
调度问题：CPU和GPU活动呈现交替振荡模式，表明同步效率低下

案例：在某移动游戏优化中，我们发现UI线程的CPU活动率持续高于90%，通过将部分UI计算移至工作线程，不仅降低了主线程压力，还使GPU利用率提升了15%。

3.2 GPU活动监控

3.2.1 队列活动指标

Mali-T760通过两个异步队列管理任务：

Non-fragment队列活动周期($MaliGPUCyclesNonFragmentQueueActive)
Fragment队列活动周期($MaliGPUCyclesFragmentQueueActive)

理想状态下，两个队列应保持并行工作。我们通过以下公式计算队列利用率：

code复制Non-fragment利用率 = (NonFragmentQueueActive / GPUActive) * 100
Fragment利用率 = (FragmentQueueActive / GPUActive) * 100

典型优化场景包括：

队列串行化：当两队列利用率交替达到峰值时，通常说明存在不必要的API同步
负载不均衡：某一队列持续高负载而另一队列闲置，表明该类型任务过重

3.2.2 Tiler单元分析

Tiler负责几何处理与分块($MaliGPUCyclesTilerActive)，其活动情况需要结合Non-fragment活动综合判断。若Tiler高负载而Non-fragment利用率低，可能表明：

顶点着色器过于简单
几何复杂度超出合理范围
分块策略需要优化

4. 内存子系统优化

4.1 带宽计数器解析

Mali-T760的内存计数器分为三个层级：

外部读取带宽：

code复制EXTERNAL_READ_BYTES = READ_BEATS * (BUS_WIDTH/8)

外部写入带宽：

code复制EXTERNAL_WRITE_BYTES = WRITE_BEATS * (BUS_WIDTH/8)

停滞周期占比：

code复制READ_STALL_PERCENT = (READ_STALL_CYCLES/(L2_SLICES*GPU_ACTIVE))*100

4.2 带宽优化实践

根据项目经验，有效的带宽优化策略包括：

优化方向	具体措施	预期收益
纹理优化	ASTC压缩格式、Mipmap链完整	带宽降低30-50%
几何数据	顶点缓存优化、索引压缩	带宽降低15-25%
渲染目标	合理设置Tile Buffer尺寸	写入带宽降低20%
着色器优化	减少随机访问、预计算数据	带宽降低10-15%

实测案例：在某VR应用中，通过将主要纹理从RGBA8888转换为ASTC 6x6格式，外部读取带宽从1.2GB/s降至650MB/s，GPU功耗降低18%。

5. 几何处理效率分析

5.1 剔除管线阶段

Mali-T760的几何剔除分为三个阶段：

面朝向与XY平面测试：剔除背向面和视口外图元
Z平面测试：剔除近/远裁剪面外的图元
最终可见图元：通过所有测试的图元

对应计数器关系：

code复制TOTAL_PRIMITIVES = FACING_CULLED + Z_CULLED + VISIBLE_PRIMITIVES

5.2 剔除效率评估

健康的应用应该呈现以下特征：

面朝向剔除率：约50%（背向面剔除）
XY平面剔除率：视场景复杂度而定，开放世界可能更高
Z平面剔除率：通常应低于5%

异常情况诊断：

面朝向剔除率过低：
- 可能原因：未启用背面剔除(glDisable(GL_CULL_FACE))
- 解决方案：检查渲染状态设置
Z平面剔除率过高：
- 可能原因：视锥体裁剪不充分
- 解决方案：加强应用层视锥剔除

code复制// 示例：计算各阶段剔除百分比
float facingCullPercent = (FACING_CULLED / TOTAL_PRIMITIVES) * 100;
float zCullPercent = (Z_CULLED / (TOTAL_PRIMITIVES - FACING_CULLED)) * 100;

6. 着色器核心优化

6.1 核心负载指标

Mali-T760的着色器核心提供三类关键指标：

线程吞吐量：
- 非片段线程数($MaliShaderCoreNonFragmentThreads)
- 片段线程数($MaliShaderCoreFragmentThreads)

周期效率：

code复制平均片段线程周期 = TOTAL_FRAGMENT_CYCLES / FRAGMENT_THREADS

单元利用率：
- 算术单元($MaliShaderCoreArithmeticUtilization)
- 纹理单元($MaliShaderCoreTextureUtilization)
- 加载/存储单元($MaliShaderCoreLoadStoreUtilization)

6.2 优化策略

根据计数器数据可采取针对性优化：

算术瓶颈：
- 简化复杂数学运算
- 使用精度适当的变量类型
- 利用硬件内置函数
纹理瓶颈：
- 合并纹理采样
- 优化纹理过滤模式
- 使用纹理缓存友好访问模式
存储瓶颈：
- 减少随机内存访问
- 使用局部变量暂存数据
- 优化缓冲区布局

code复制// 低效示例：多次单独采样
vec4 color = texture(tex1, uv) * 0.2;
color += texture(tex2, uv) * 0.3; 

// 优化后：合并采样
vec4 tex1 = texture(tex1, uv);
vec4 tex2 = texture(tex2, uv);
vec4 color = tex1 * 0.2 + tex2 * 0.3;