Linux 桌面玩家指南：16. 使用 CUDA 发挥显卡的计算性能

您所在的位置：网站首页 › 怎么发挥显卡最大性能 › Linux 桌面玩家指南：16. 使用 CUDA 发挥显卡的计算性能

Linux 桌面玩家指南：16. 使用 CUDA 发挥显卡的计算性能

2024-07-16 08:09:37| 来源: 网络整理| 查看: 265

特别说明：要在我的随笔后写评论的小伙伴们请注意了，我的博客开启了 MathJax 数学公式支持，MathJax 使用$标记数学公式的开始和结束。如果某条评论中出现了两个$，MathJax 会将两个$之间的内容按照数学公式进行排版，从而导致评论区格式混乱。如果大家的评论中用到了$，但是又不是为了使用数学公式，就请使用\$转义一下，谢谢。

想从头阅读该系列吗？下面是传送门：

Linux 桌面玩家指南：01. 玩转 Linux 系统的方法论 Linux 桌面玩家指南：02. 以最简洁的方式打造实用的 Vim 环境 Linux 桌面玩家指南：03. 针对 Gnome 3 的 Linux 桌面进行美化 Linux 桌面玩家指南：04. Linux 桌面系统字体配置要略 Linux 桌面玩家指南：05. 发博客必备的图片处理和视频录制神器 Linux 桌面玩家指南：06. 优雅地使用命令行及 Bash 脚本编程语言中的美学与哲学 Linux 桌面玩家指南：07. Linux 中的 Qemu、KVM、VirtualBox、Xen 虚拟机体验 Linux 桌面玩家指南：08. 使用 GCC 和 GNU Binutils 编写能在 x86 实模式运行的 16 位代码 Linux 桌面玩家指南：09. X Window 的奥秘 Linux 桌面玩家指南：10. 没有 GUI 的时候应该怎么玩 Linux 桌面玩家指南：11. 在同一个硬盘上安装多个 Linux 发行版以及为 Linux 安装 Nvidia 显卡驱动 Linux 桌面玩家指南：12. 优秀的文本化编辑思想大碰撞（Markdown、LaTeX、MathJax） Linux 桌面玩家指南：13. 使用 Git 及其和 Eclipse 的集成 Linux 桌面玩家指南：14. 数值计算和符号计算 Linux 桌面玩家指南：15. 深度学习可以这样玩前言

科学计算碰到数据量很大的时候，往往非常消耗时间。使用多核进行并行计算是加快计算速度的主要方法，而显卡天生具有成百上千个计算核心，所以使用 GPU 进行计算也就越来越流行。得益于 Nvidia 提供的 CUDA，我们编写利用 GPU 进行计算的程序越来越方便。那么，在 Linux 系统下，使用 CUDA 究竟效果如何呢？这一篇将为你揭晓答案。

我测试的是两个 2000×2000 矩阵相乘所耗费的时间，测试环境是我的 Dell XPS 15，这是一款 2015 年的产品了，CPU 是 Intel 的 6700H，4 核 8 线程，显卡是 Nvidia 的 GTX 960M，和现在 2019 年的主流比起来，已经落后几代了。前段时间“核弹”厂的老黄又发布了新的甜点级的显卡，RTX 2060，流处理器又多了几倍，还支持光线追踪，害得我心里又长了草。

继续说回矩阵相乘，我先测试了一下自己用 C 语言写一个简单的利用三重循环计算矩阵相乘的程序，然后使用 gcc 编译，运行，进行计时。其次，我自己写一段 CUDA 代码，利用显卡计算两个矩阵相乘，使用 nvcc 编译运行，进行计时。最后，使用 Nvidia 提供的 cuBLAS 库中的函数直接计算两个矩阵相乘，并进行计时。其中我自己用 C 语言写的三重循环是完全没有优化的，所以计算时间肯定比较慢，如果进行充分优化，利用 CPU 的 SSE、AVX 等向量化指令，并优化内存访问以充分利用 CPU 的缓存，可以将性能提升大约 10 倍。在雷锋网上有一篇 OpenBLAS 项目创始人和主要维护者张先轶介绍的OpenBLAS项目与矩阵乘法优化，可以一看。我用 Python 的 NumPy 测试了一下，确实可提速 8 到 10 倍，因为 NumPy 的底层调用了 OpenBLAS 库。而且这还只是利用了 CPU 的一个核，如果要利用 CPU 进行并行计算，可以考虑 OpenMP 或 MPI。

先贴代码和结论

完整的 C 语言代码我放在cublas_test.cu文件中，你们没看错，扩展名为.cu，因为 CUDA 的编译器 nvcc 要求这样，nvcc 对代码进行初步处理后，还是调用的 gcc 进行编译连接生成可执行文件。完整代码如下：

#include #include #include #include #include #include #define M 2000 #define N 2000 #define K 2000 #define idx(i, j, m) ((j) * (m) + (i)) typedef struct _matrix { size_t height; size_t width; float *elements; } Matrix; Matrix empty(size_t m, size_t n){ Matrix temp = {m, n, NULL}; temp.elements = (float*)malloc( m*n*sizeof(float) ); return temp; } Matrix zeros(size_t m, size_t n){ Matrix temp = empty(m, n); memset(temp.elements, 0, sizeof( m*n*sizeof(float) )); return temp; } Matrix rands(size_t m, size_t n){ Matrix temp = empty(m, n); for(size_t i=0; iheight = 0; mat->width = 0; free(mat->elements); mat->elements = NULL; } void printRow(Matrix mat, size_t i){ size_t m = mat.height; size_t n = mat.width; if(n < 7){ for(size_t j=0; j

【本文地址】

公司简介

联系我们

今日新闻

点击排行

实验室常用的仪器、试剂和: 说到实验室常用到的东西，主要就分为仪器、试剂和耗

不用再找了，全球10大实验: 01、赛默飞世尔科技（热电）Thermo Fisher Scientif

三代水柜的量产巅峰T-72坦: 作者：寞寒最近，西边闹腾挺大，本来小寞以为忙完这

通风柜跟实验室通风系统有: 说到通风柜跟实验室通风，不少人都纠结二者到底是不

集消毒杀菌、烘干收纳为一: 厨房是家里细菌较多的地方，潮湿的环境、没有完全密

实验室设备之全钢实验台如: 全钢实验台是实验室家具中较为重要的家具之一，很多

图片新闻

实验室药品柜的特性有哪些: 实验室药品柜是实验室家具的重要组成部分之一，主要

小学科学实验中有哪些教学: 计算机计算器一般打孔器打气筒仪器车显微镜

实验室各种仪器原理动图讲: 1.紫外分光光谱UV分析原理：吸收紫外光能量，引起分

高中化学常见仪器及实验装: 1、可加热仪器：2、计量仪器：（1）仪器A的名称：量

微生物操作主要设备和器具: 今天盘点一下微生物操作主要设备和器具，别嫌我啰嗦

浅谈通风柜使用基本常识: 　众所周知，通风柜功能中最主要的就是排气功能。在

Linux 桌面玩家指南：16. 使用 CUDA 发挥显卡的计算性能

Linux 桌面玩家指南：16. 使用 CUDA 发挥显卡的计算性能

今日新闻

点击排行

推荐新闻

图片新闻

专题文章