CUDA编程入门：从Hello World到向量加法实践-嵌云网-嵌入式AI开发资源站

CUDA编程入门：从Hello World到向量加法实践

happy最紧要

1. CUDA编程入门：从Hello World到向量加法

作为一名长期从事高性能计算的开发者，我经常需要处理大规模并行计算任务。CUDA作为NVIDIA推出的并行计算平台，已经成为GPU编程的事实标准。今天我将带大家从最基础的CUDA程序开始，逐步深入理解其核心概念和编程模型。

1.1 CUDA架构概述

CUDA的核心思想是将计算任务分解到GPU的数千个核心上并行执行。与传统的CPU顺序执行不同，GPU采用了一种层次化的并行模型：

code复制Grid（网格）
 └── Block（块）
      └── Thread（线程）

这种架构类似于一个大型工厂：Grid是整个工厂，Block是工厂中的各个车间，Thread则是车间里的工人。每个工人可以独立完成一部分工作，所有工人协同完成整个生产任务。

在代码中，我们通过特殊的语法来启动GPU核函数（Kernel）：

cpp复制kernel<<<gridDim, blockDim>>>(...);

这里的gridDim和blockDim分别指定了网格和块的维度。例如，kernel<<<10, 100>>>()表示创建10个块，每个块包含100个线程，总共1000个线程并行执行。

1.2 线程索引与数据并行

理解线程索引是CUDA编程的关键。每个线程都需要知道自己在整个网格中的位置，才能处理对应的数据。CUDA提供了内置变量来获取这些信息：

cpp复制int idx = blockIdx.x * blockDim.x + threadIdx.x;

这个公式计算出了当前线程的全局索引。让我们分解一下各个变量：

变量	说明
blockIdx.x	当前块在网格中的索引
blockDim.x	每个块中的线程数量
threadIdx.x	当前线程在块中的索引

举个例子，如果我们启动一个核函数kernel<<<2, 4>>>()，那么线程的全局索引将是：

code复制Block0: 线程0(0), 线程1(1), 线程2(2), 线程3(3)
Block1: 线程4(4), 线程5(5), 线程6(6), 线程7(7)

这种索引机制使得我们可以轻松地将数据分配到不同的线程上并行处理。

2. 第一个CUDA程序：Hello World

2.1 最简单的CUDA核函数

让我们从一个最简单的CUDA程序开始，虽然它实际上什么也不做：

cpp复制#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include <stdio.h>

__global__ void myfirstkernel(void) {
    // 空的核函数
}

int main() {
    myfirstkernel<<<1, 1>>>();
    printf("Hello, World!!!\n");
    return 0;
}

这个程序虽然简单，但包含了CUDA程序的基本结构：

包含必要的头文件
定义核函数（使用__global__修饰符）
在主机代码中调用核函数（使用<<<1,1>>>语法）
编译运行

注意：CUDA核函数必须用__global__修饰符声明，表示这是一个在设备上执行但可以从主机调用的函数。

2.2 实际计算的核函数

让我们看一个真正执行计算的例子：

cpp复制__global__ void addKernel(int *c, const int *a, const int *b) {
    int i = threadIdx.x;
    c[i] = a[i] + b[i];
}

这个核函数实现了向量加法，每个线程负责计算一个元素的和。在主机代码中，我们需要：

在设备上分配内存
将数据从主机复制到设备
启动核函数
将结果复制回主机
释放设备内存

完整的程序如下：

cpp复制int main() {
    const int arraySize = 5;
    const int a[arraySize] = { 18, 2, 3, 4, 5 };
    const int b[arraySize] = { 10, 20, 30, 40, 50 };
    int c[arraySize] = { 0 };

    // 在设备上分配内存
    int *dev_a, *dev_b, *dev_c;
    cudaMalloc((void**)&dev_a, arraySize * sizeof(int));
    cudaMalloc((void**)&dev_b, arraySize * sizeof(int));
    cudaMalloc((void**)&dev_c, arraySize * sizeof(int));

    // 拷贝数据到设备
    cudaMemcpy(dev_a, a, arraySize * sizeof(int), cudaMemcpyHostToDevice);
    cudaMemcpy(dev_b, b, arraySize * sizeof(int), cudaMemcpyHostToDevice);

    // 启动核函数
    addKernel<<<1, arraySize>>>(dev_c, dev_a, dev_b);

    // 拷贝结果回主机
    cudaMemcpy(c, dev_c, arraySize * sizeof(int), cudaMemcpyDeviceToHost);

    // 打印结果
    printf("{%d,%d,%d,%d,%d} + {%d,%d,%d,%d,%d} = {%d,%d,%d,%d,%d}\n",
        a[0], a[1], a[2], a[3], a[4],
        b[0], b[1], b[2], b[3], b[4],
        c[0], c[1], c[2], c[3], c[4]);

    // 释放设备内存
    cudaFree(dev_a);
    cudaFree(dev_b);
    cudaFree(dev_c);

    return 0;
}

3. CUDA内存管理详解

3.1 设备内存分配

CUDA提供了专门的内存管理函数来操作设备内存：

cpp复制cudaMalloc((void**)&dev_ptr, size);

这与C语言的malloc类似，但有几点重要区别：

函数	分配位置	访问方式	释放函数
malloc/new	主机内存(CPU)	CPU访问	free/delete
cudaMalloc	设备内存(GPU)	GPU访问	cudaFree

设备内存分配示例：

cpp复制float* d_data;
cudaMalloc((void**)&d_data, 100 * sizeof(float));

重要提示：cudaMalloc是一个相对耗时的操作，因为它需要与GPU驱动交互。在实际应用中，应该尽量减少内存分配/释放的次数，尽量复用已分配的内存。

3.2 内存拷贝

由于CPU和GPU有各自独立的内存空间，数据需要在两者之间传输：

cpp复制cudaMemcpy(dest, src, size, kind);

拷贝方向由kind参数指定：

参数	方向
cudaMemcpyHostToDevice	主机→设备
cudaMemcpyDeviceToHost	设备→主机
cudaMemcpyDeviceToDevice	设备→设备

内存拷贝是CUDA程序中的主要性能瓶颈之一。优化建议：

尽量减少不必要的数据传输
使用异步拷贝重叠计算和传输
考虑使用固定内存(pinned memory)提高传输速度

3.3 统一内存管理

CUDA 6.0引入了统一内存(Unified Memory)概念，简化了内存管理：

cpp复制cudaMallocManaged(&ptr, size);

统一内存的特点是：

单个指针既可以从主机访问，也可以从设备访问
系统自动在主机和设备之间迁移数据
简化了编程模型，但可能有性能开销

4. 性能优化与实践技巧

4.1 核函数配置优化

核函数的执行配置<<<grid, block>>>对性能有重大影响。以下是一些经验法则：

每个块中的线程数应该是32的倍数（因为GPU以warp(32线程)为单位调度）
通常每个块包含128-256个线程可以获得较好性能
网格大小应该足够大以充分利用GPU的所有计算单元

例如，对于有1M个元素的数据：

cpp复制int blockSize = 256; // 每个块256个线程
int gridSize = (N + blockSize - 1) / blockSize; // 计算需要的块数
vectorAdd<<<gridSize, blockSize>>>(d_A, d_B, d_C, N);

4.2 错误处理

CUDA函数通常返回cudaError_t类型的结果，我们应该检查这些返回值：

cpp复制cudaError_t err = cudaMalloc(&dev_ptr, size);
if (err != cudaSuccess) {
    fprintf(stderr, "cudaMalloc failed: %s\n", cudaGetErrorString(err));
    // 错误处理
}

对于核函数启动，需要使用cudaGetLastError()来检查：

cpp复制kernel<<<grid, block>>>(...);
cudaError_t err = cudaGetLastError();
if (err != cudaSuccess) {
    fprintf(stderr, "Kernel launch failed: %s\n", cudaGetErrorString(err));
}

4.3 常见问题与调试技巧

核函数不执行：
- 检查是否有cudaDeviceSynchronize()或后续的CUDA调用
- 检查核函数参数是否正确传递
- 使用cuda-memcheck工具检测内存错误
性能不如预期：
- 使用Nsight或nvprof分析性能瓶颈
- 检查内存访问模式是否合并(coalesced)
- 考虑使用共享内存减少全局内存访问
设备内存不足：
- 分批处理大数据集
- 优化内存使用，及时释放不再需要的内存
- 考虑使用统一内存

5. 实际案例：大规模向量加法

让我们看一个更完整的例子，比较CPU和GPU实现向量加法的性能差异：

cpp复制#include <iostream>
#include <cuda_runtime.h>
#include <chrono>

// CUDA核函数
__global__ void vectorAdd(const float* A, const float* B, float* C, int N) {
    int idx = blockIdx.x * blockDim.x + threadIdx.x;
    if (idx < N) {
        C[idx] = A[idx] + B[idx];
    }
}

// CPU实现
void vectorAddCPU(const float* A, const float* B, float* C, int N) {
    for (int i = 0; i < N; i++) {
        C[i] = A[i] + B[i];
    }
}

int main() {
    int N = 1 << 20; // 1M元素
    size_t size = N * sizeof(float);

    // 分配主机内存
    float *h_A = new float[N];
    float *h_B = new float[N];
    float *h_C = new float[N];
    float *h_C_CPU = new float[N];

    // 初始化数据
    for (int i = 0; i < N; i++) {
        h_A[i] = 1.0f;
        h_B[i] = 2.0f;
    }

    // CPU计算
    auto start = std::chrono::high_resolution_clock::now();
    vectorAddCPU(h_A, h_B, h_C_CPU, N);
    auto end = std::chrono::high_resolution_clock::now();
    std::chrono::duration<double> elapsed = end - start;
    std::cout << "CPU time: " << elapsed.count() << " s\n";

    // 分配设备内存
    float *d_A, *d_B, *d_C;
    cudaMalloc((void**)&d_A, size);
    cudaMalloc((void**)&d_B, size);
    cudaMalloc((void**)&d_C, size);

    // 拷贝数据到设备
    cudaMemcpy(d_A, h_A, size, cudaMemcpyHostToDevice);
    cudaMemcpy(d_B, h_B, size, cudaMemcpyHostToDevice);

    // 配置并启动核函数
    int blockSize = 256;
    int gridSize = (N + blockSize - 1) / blockSize;

    start = std::chrono::high_resolution_clock::now();
    vectorAdd<<<gridSize, blockSize>>>(d_A, d_B, d_C, N);
    cudaDeviceSynchronize();
    end = std::chrono::high_resolution_clock::now();
    elapsed = end - start;
    std::cout << "GPU time: " << elapsed.count() << " s\n";

    // 拷贝结果回主机
    cudaMemcpy(h_C, d_C, size, cudaMemcpyDeviceToHost);

    // 验证结果
    for (int i = 0; i < N; i++) {
        if (fabs(h_C[i] - h_C_CPU[i]) > 1e-5) {
            std::cerr << "Result verification failed at element " << i << "\n";
            break;
        }
    }

    // 释放内存
    cudaFree(d_A);
    cudaFree(d_B);
    cudaFree(d_C);
    delete[] h_A;
    delete[] h_B;
    delete[] h_C;
    delete[] h_C_CPU;

    return 0;
}

在这个例子中，我们不仅实现了GPU版本的向量加法，还实现了CPU版本作为对比，并加入了计时和结果验证功能。在实际运行中，GPU版本通常会比CPU版本快很多倍，特别是对于大规模数据。

6. 进阶话题与学习路径

掌握了CUDA基础后，你可以继续学习以下进阶主题：

共享内存：块内线程可以共享的高速内存，适合用于数据重用
原子操作：处理多个线程对同一内存位置的并发访问
流和事件：实现异步执行和并发内核执行
纹理内存：为特定访问模式优化的只读内存
动态并行：在核函数中启动其他核函数
CUDA库：如cuBLAS(线性代数)、cuFFT(傅里叶变换)等

对于想要深入学习CUDA的开发者，我推荐以下资源：

NVIDIA官方CUDA文档
《CUDA by Example》入门书籍
《Professional CUDA C Programming》进阶书籍
CUDA Zone网站上的示例代码和教程

在实际项目中应用CUDA时，记住以下几点经验：

不是所有问题都适合GPU加速，只有计算密集、高度并行的问题才能获得显著加速
数据传输往往是性能瓶颈，尽量减少主机和设备之间的数据传输
合理配置网格和块的大小对性能至关重要
使用性能分析工具指导优化工作
保持代码的可读性和可维护性，适当的注释和文档很重要