解锁CUDA编程：CMake助你轻松集成NVIDIA CUDA技术

CUDA（Compute Unified Device Architecture）是一种由NVIDIA推出的并行计算平台和编程模型，它允许开发者利用NVIDIA的GPU进行高性能计算。CMake是一个跨平台的安装（编译）工具，它能够帮助你轻松地集成CUDA技术到你的项目中。以下是如何使用CMake来解锁CUDA编程的详细指南。

引言

在开始之前，确保你已经安装了以下软件：

NVIDIA GPU和对应的CUDA Toolkit
CMake（建议使用3.8或更高版本）
C++编译器（如g++）

1. 创建CMake项目

首先，你需要创建一个CMake项目。这通常涉及到创建一个名为CMakeLists.txt的文件。

cmake_minimum_required(VERSION 3.8) project(MyCUDAProject) # 设置CUDA版本 set(CUDA_VERSION 10.0) # 添加CUDA源文件 set(CUDA_SOURCES src/my_cuda_kernel.cu ) # 添加可执行文件 add_executable(MyCUDAProject ${CUDA_SOURCES})

这里，我们设置了CUDA版本，并指定了包含CUDA代码的源文件。add_executable命令用于创建一个可执行文件。

2. 添加CUDA支持

在CMakeLists.txt文件中，你需要添加对CUDA的支持。

find_package(CUDA REQUIRED) # 设置CUDA标志 include_directories(${CUDA_INCLUDE_DIRS}) target_link_libraries(MyCUDAProject ${CUDA_LIBRARIES})

find_package命令用于查找CUDA，并设置必要的标志。include_directories和target_link_libraries命令用于添加头文件路径和链接库。

3. 编写CUDA代码

在你的项目中，创建一个CUDA源文件，例如my_cuda_kernel.cu。

#include <iostream> #include <cuda_runtime.h> __global__ void add(int *a, int *b, int *c) { int index = threadIdx.x; c[index] = a[index] + b[index]; } int main() { const int numElements = 5; int *h_a = new int[numElements]; int *h_b = new int[numElements]; int *h_c = new int[numElements]; // 初始化数据 for (int i = 0; i < numElements; i++) { h_a[i] = i; h_b[i] = numElements - i; } // 分配内存并拷贝数据到GPU int *d_a, *d_b, *d_c; cudaMalloc(&d_a, numElements * sizeof(int)); cudaMalloc(&d_b, numElements * sizeof(int)); cudaMalloc(&d_c, numElements * sizeof(int)); cudaMemcpy(d_a, h_a, numElements * sizeof(int), cudaMemcpyHostToDevice); cudaMemcpy(d_b, h_b, numElements * sizeof(int), cudaMemcpyHostToDevice); // 设置线程块大小和网格大小 int threadsPerBlock = 256; int blocksPerGrid = (numElements + threadsPerBlock - 1) / threadsPerBlock; add<<<blocksPerGrid, threadsPerBlock>>>(d_a, d_b, d_c); // 拷贝结果回主机 cudaMemcpy(h_c, d_c, numElements * sizeof(int), cudaMemcpyDeviceToHost); // 打印结果 for (int i = 0; i < numElements; i++) { std::cout << h_c[i] << std::endl; } // 释放内存 cudaFree(d_a); cudaFree(d_b); cudaFree(d_c); delete[] h_a; delete[] h_b; delete[] h_c; return 0; }

这段代码定义了一个简单的CUDA内核，它将两个数组相加。然后在main函数中，我们初始化数据，将数据从主机拷贝到设备，执行内核，然后将结果拷贝回主机。