Linux离线安装CUDA环境全攻略

乱世佳人断佳话

1. 离线安装CUDA环境全攻略

作为一名长期在Linux环境下折腾深度学习的老兵，我深知在无网络环境中搭建CUDA开发环境的痛苦。本文将基于NVIDIA GeForce RTX 4070 Ti显卡，详细记录在x86_64架构的Linux系统上离线安装CUDA全家桶（驱动+Toolkit+cuDNN）的全过程，包含多个我亲测有效的避坑技巧。

2. 环境准备与驱动安装

2.1 硬件识别与兼容性检查

在开始前，必须确认硬件信息。执行以下命令检查NVIDIA显卡是否被系统识别：

bash复制lspci | grep -i nvidia

典型输出示例：

code复制01:00.0 VGA compatible controller: NVIDIA Corporation Device 2782 (rev a1)
01:00.1 Audio device: NVIDIA Corporation Device 22bc (rev a1)

重要提示：如果未显示任何信息，可能是：

显卡未正确安装

主板未启用PCIe插槽

服务器需要先进入BIOS开启显卡支持

2.2 驱动下载与版本选择

离线安装的关键是提前下载好所有依赖包。对于RTX 40系列显卡，建议使用R515以上版本的驱动：

在有网络的机器上访问NVIDIA驱动下载页
手动选择：
- 产品类型：GeForce
- 产品系列：RTX 40 Series
- 操作系统：Linux 64-bit
下载推荐驱动（示例版本595.58.03）

下载命令：

bash复制wget https://cn.download.nvidia.com/XFree86/Linux-x86_64/595.58.03/NVIDIA-Linux-x86_64-595.58.03.run
chmod +x NVIDIA-Linux-x86_64-595.58.03.run

2.3 驱动安装实战

安装前必须：

关闭图形界面（如GNOME/KDE）
禁用nouveau驱动

具体步骤：

bash复制# 关闭图形界面（以Ubuntu为例）
sudo systemctl isolate multi-user.target

# 禁用nouveau
echo "blacklist nouveau" | sudo tee /etc/modprobe.d/blacklist-nouveau.conf
echo "options nouveau modeset=0" | sudo tee -a /etc/modprobe.d/blacklist-nouveau.conf
sudo update-initramfs -u

# 安装驱动
sudo ./NVIDIA-Linux-x86_64-595.58.03.run

安装时常见选项：

是否安装32位兼容库：选否（除非有特殊需求）
是否自动更新Xorg配置：选是
是否启用DKMS：建议选是（方便内核升级后自动重建驱动）

安装后验证：

bash复制nvidia-smi

正常应显示显卡型号、驱动版本和CUDA版本信息。

3. CUDA Toolkit离线安装

3.1 版本匹配原则

CUDA Toolkit版本必须与驱动版本兼容。对于驱动595.58.03，最高支持CUDA 12.0，但实际测试13.2也能正常工作。版本对应关系可参考NVIDIA官方兼容性表格。

3.2 离线包获取

从NVIDIA CUDA归档页下载runfile(local)格式的安装包：

bash复制wget https://developer.download.nvidia.com/compute/cuda/13.2.1/local_installers/cuda_13.2.1_595.58.03_linux.run

3.3 安装过程详解

执行安装：

bash复制sudo sh cuda_13.2.1_595.58.03_linux.run

关键安装选项：

接受EULA条款
取消勾选Driver（已单独安装）
勾选CUDA Toolkit
创建符号链接选择/usr/local/cuda
安装示例程序可选（用于测试）

安装后配置环境变量：

bash复制echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc

验证安装：

bash复制nvcc --version

4. cuDNN离线安装方案

4.1 版本匹配技巧

cuDNN版本必须与CUDA Toolkit严格匹配。对于CUDA 13.2，推荐使用cuDNN 8.9.x系列。可通过cuDNN归档页查看对应关系。

4.2 离线安装方法

由于官方推荐通过apt安装，离线环境下需要手动下载.deb或.tgz包。这里介绍两种方案：

方案一：使用deb包（需提前下载依赖）

bash复制wget https://developer.download.nvidia.com/compute/cudnn/9.20.0/local_installers/cudnn-local-repo-ubuntu2204-9.20.0_1.0-1_amd64.deb
sudo dpkg -i cudnn-local-repo-ubuntu2204-9.20.0_1.0-1_amd64.deb
sudo cp /var/cudnn-local-repo-ubuntu2204-9.20.0/cudnn-*-keyring.gpg /usr/share/keyrings/

方案二：使用tgz包（纯离线推荐）

bash复制wget https://developer.download.nvidia.com/compute/cudnn/9.20.0/local_installers/cudnn-linux-x86_64-9.20.0_cuda13-archive.tar.xz
tar -xvf cudnn-linux-x86_64-9.20.0_cuda13-archive.tar.xz
sudo cp cudnn-*-archive/include/cudnn*.h /usr/local/cuda/include
sudo cp -P cudnn-*-archive/lib/libcudnn* /usr/local/cuda/lib64
sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*

验证安装：

bash复制cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2

5. 常见问题与解决方案

5.1 驱动安装失败排查

症状： 安装过程中提示"Unable to load the kernel module"

解决方案：

确认已完全禁用nouveau：
```
bash复制lsmod | grep nouveau
```
应无任何输出
检查当前运行的内核版本：
```
bash复制uname -r
```

确保已安装对应内核的头文件：

bash复制sudo apt install linux-headers-$(uname -r)

5.2 CUDA版本冲突处理

症状： nvcc --version与nvidia-smi显示的CUDA版本不一致

原因分析：

nvidia-smi显示的是驱动支持的最高CUDA版本
nvcc显示的是实际安装的Toolkit版本

解决方案：
只要两个版本在官方兼容列表内即可正常工作，无需特别处理。如需精确匹配，可参考NVIDIA官方的版本兼容表。

5.3 多版本CUDA切换

有时需要同时维护多个CUDA版本，推荐使用update-alternatives管理：

bash复制sudo update-alternatives --install /usr/local/cuda cuda /usr/local/cuda-13.2 132
sudo update-alternatives --install /usr/local/cuda cuda /usr/local/cuda-12.0 120
sudo update-alternatives --config cuda

6. 环境验证与性能测试

6.1 基础功能验证

编译运行CUDA示例程序：

bash复制cd /usr/local/cuda/samples/1_Utilities/deviceQuery
make
./deviceQuery

正常输出应包含"Result = PASS"字样，并显示详细的设备信息。

6.2 带宽测试

bash复制cd /usr/local/cuda/samples/1_Utilities/bandwidthTest
make
./bandwidthTest

重点关注Host到Device的传输带宽是否接近PCIe的理论值（如PCIe 4.0 x16约32GB/s）。

6.3 深度学习框架验证

安装PyTorch测试环境：

bash复制pip install torch --extra-index-url https://download.pytorch.org/whl/cu132

测试脚本：

python复制import torch
print(torch.cuda.is_available())  # 应输出True
print(torch.cuda.get_device_name(0))  # 应显示显卡型号

7. 维护与升级建议

驱动升级：建议每6个月检查一次新驱动，特别是需要使用新版CUDA功能时

CUDA清理：卸载旧版本前执行：

bash复制sudo /usr/local/cuda/bin/uninstall_cuda_*.pl

环境备份：将下载的安装包和安装命令保存到脚本中，方便重复部署
日志监控：定期检查/var/log/nvidia-installer.log和/var/log/cuda-installer.log

我在实际部署中发现，对于生产环境，建议使用容器化方案（如NVIDIA Docker）来隔离CUDA环境，可以避免大部分兼容性问题。另外，对于无网络环境的服务器，可以预先在有网络的机器上拉取所有依赖包：

bash复制mkdir cuda-offline
cd cuda-offline
apt-get download $(apt-cache depends --recurse --no-recommends --no-suggests --no-conflicts --no-breaks --no-replaces --no-enhances cuda | grep "^\w" | sort -u)

最后提醒，所有NVIDIA组件的安装都需要root权限，操作前务必确认命令的正确性。建议先在测试环境验证整套流程，再应用到生产服务器。