海光DCU部署OLLAMA大模型实战指南-嵌云网-嵌入式AI开发资源站

海光DCU部署OLLAMA大模型实战指南

gfyy2555

1. 海光DCU环境下的OLLAMA大模型部署实战

最近在浪潮W50X服务器上实测了海光K100-AI加速卡运行OLLAMA 70B大语言模型的全过程。作为国产GPU生态的重要一环，海光DCU平台在AI推理场景的表现一直备受关注。本文将详细记录从环境准备到模型运行的完整流程，包含多个关键环节的避坑指南。

我的测试平台配置为双路K100-AI加速卡（单卡32GB HBM2显存），操作系统使用适配DCU的dtk25.04.1基础环境。选择OLLAMA作为部署框架主要考虑其模型管理便捷性和对国产硬件的适配支持。以下是具体实施步骤和关键技术细节。

2. 环境准备与容器部署

2.1 基础环境检查

在启动容器前，需要确认宿主机已正确安装DCU驱动和ROCm运行时环境。通过以下命令验证设备识别情况：

bash复制ls /dev/kfd  # 检查计算设备节点
ls /dev/dri/ # 检查显示渲染节点
rocm-smi    # 查看加速卡状态

注意：若出现权限问题，需将当前用户加入video和render组。海光DCU对内核版本有特定要求，推荐使用官方认证的4.19或5.4系列内核。

2.2 容器镜像获取与验证

使用经海光适配的OLLAMA容器镜像，该镜像已集成DCU所需的计算库和编译器：

bash复制docker pull harbor.sourcefind.cn:5443/dap/ollama:0.6.7-dtk25.04.1

镜像关键组件版本：

ROCm 5.4.3
HIP SDK 5.4.3
MIOpen 2.17.0
LLVM 15.0.0

实操心得：虽然镜像版本较旧，但这是目前海光平台最稳定的组合。新版本ROCm在DCU上可能出现算子兼容性问题。

3. 容器启动与配置优化

3.1 容器启动参数解析

完整启动命令包含多个关键参数：

bash复制docker run -d --name ollama \
  --network host \
  --device=/dev/kfd \
  --device=/dev/dri/ \
  --privileged \
  --cap-add=SYS_PTRACE \
  --security-opt seccomp=unconfined \
  --group-add video \
  -v /opt/hyhal:/opt/hyhal \
  -v ./ollama_models:/root/.ollama/models \
  -e HSA_OVERRIDE_GFX_VERSION=9.2.8 \
  harbor.sourcefind.cn:5443/dap/ollama:0.6.7-dtk25.04.1 \
  deepseek-r1:1.5b

关键参数说明：

--device挂载：确保容器内可访问DCU硬件
HSA_OVERRIDE_GFX_VERSION=9.2.8：指定DCU微架构版本
卷挂载：/opt/hyhal包含海光定制库，模型目录外挂方便持久化

3.2 性能调优技巧

显存分配策略：

bash复制-e HIP_VISIBLE_DEVICES='0,1' # 显式指定使用的加速卡
-e HIP_DEVICE_ALLOC_PERCENT=95 # 控制显存占用比例

计算线程优化：

bash复制-e OMP_NUM_THREADS=$(nproc) # 使用全部物理核心
-e HCC_AMDGPU_TARGET=gfx908 # 指定目标架构

IO加速配置：

bash复制-v /dev/shm:/dev/shm:rw # 共享内存加速模型加载

4. 模型运行与性能分析

4.1 70B模型启动命令

进入容器后执行模型推理：

bash复制docker exec -it ollama /bin/bash
/home/ollama run deepseek-r1:70b --verbose

关键输出指标解读：

code复制| 参数                | 值          | 说明                     |
|---------------------|-------------|--------------------------|
| tokens/second       | 8.2         | 生成速度                 |
| GPU memory used     | 29.4/32GB   | 显存占用情况             |
| warmup time         | 127s        | 模型加载和预热时间       |
| prompt eval time    | 4.2ms/token | 输入处理效率             |
| eval time           | 122ms/token | 生成阶段耗时             |

4.2 单卡运行方案

对于显存不足的场景，可通过以下方式强制单卡运行：

bash复制HIP_VISIBLE_DEVICES='1' /home/ollama run deepseek-r1:70b --verbose

此时模型会自动启用：

动态张量切片技术
计算-存储交换策略
8-bit量化推理（需模型支持）

避坑指南：单卡运行70B模型时建议添加--low-vram参数，避免因显存溢出导致进程崩溃。

5. 常见问题与解决方案

5.1 容器启动失败排查

问题现象：容器立即退出，日志显示HSA_STATUS_ERROR: Not Supported

解决步骤：

检查/dev/kfd设备权限
验证内核模块加载：
```
bash复制lsmod | grep kfd
```
确认dtk版本匹配：
```
bash复制cat /opt/hyhal/version.txt
```

5.2 模型加载异常处理

典型错误：CUDA_ERROR_OUT_OF_MEMORY

优化方案：

调整模型并行度：
```
bash复制-e MODEL_PARALLEL_SIZE=2
```

启用内存优化：

bash复制-e FLASH_ATTENTION=1 \
-e OPTIMIZE_MEMORY=1

5.3 性能调优对照表

问题现象	调优参数	预期提升幅度
显存不足	HIP_DEVICE_ALLOC_PERCENT=80	15-20%
CPU利用率低	OMP_NUM_THREADS=32	30-40%
数据传输瓶颈	-v /dev/shm:/dev/shm	2-3x
算子执行效率低	HCC_AMDGPU_TARGET=gfx908	50-70%

6. 不同硬件平台对比测试

在完成K100-AI的基准测试后，我又在BW100和BW150机型上进行了对比验证：

测试环境配置：

bash复制# BW100单卡配置
HIP_VISIBLE_DEVICES='0' /home/ollama run deepseek-r1:70b --verbose

# BW150双卡配置
HIP_VISIBLE_DEVICES='0,1' /home/ollama run deepseek-r1:70b --verbose

性能对比数据：

指标	K100-AI (双卡)	BW100 (单卡)	BW150 (双卡)
Tokens/sec	8.2	5.7	9.1
显存占用	29.4GB	31.2GB	30.1GB
首token延迟	1270ms	1540ms	1180ms
功耗	320W	280W	350W

从实测数据可以看出，BW150凭借更新的架构设计展现出更好的能效比，而K100-AI在性价比方面仍有优势。对于70B级别的模型推理，建议至少配置32GB显存的加速卡。