CUDA和OpenGL的概述及互操作的分析

消耗积分:1 | 格式:rar | 大小:0.3 MB | 2017-10-24

分享资料个

　1 CUDA与OpenGL概述
　　OpenGL是图形硬件的软件接口，它是在SGI等多家世界著名的计算机公司的倡导下，以SGI的GL三维图形库为基础制定的一个通用、共享的、开放式的、性能卓越的三维图形标准。OpenGL在医学成像、地理信息、石油勘探、气候模拟以及娱乐动画上有着广泛应用，它已经成为高性能图形和交互式视景处理的工业标准。
　　OpenGL不是一种编程语言，而是一种API（应用程序编程接口）。程序员可以使用某种编程语言（如C或C＋＋）编写绘图软件，其中调用了一个或多个OpenGL库函数。作为一种API，OpenGL遵循C语言的调用约定。OpenGL开发资料可参考文献［1］和参考文献［2］。
　　图形处理器（GPU）原本是处理计算机图形的专用设备，近十年来，由于高清晰度复杂图形实时处理的需求，GPU发展成为高并行度、多线程、多核的处理器。目前，主流GPU的运算能力已超过主流通用CPU，从发展趋势上来看将来差距会越拉越大。为了合理地利用GPU 资源，CUDA（统一计算设备架构）应运而生。CUDA是一种由NVIDIA推出的通用并行计算架构［3］，该架构使GPU能够解决复杂的计算问题，并且由于CUDA编程语言基于标准的C语言，从而大大提高了可编程性。
　　CUDA和OpenGL互操作的基本方式是使用CUDA生成数据，然后使用OpenGL在屏幕上绘制出数据所表示的图形。两者的结合可以通过两种方式来实现：
　　（1）使用OpenGL的PBO（像素缓冲区对象）。在该方式下，CUDA直接生成像素数据，OpenGL显示这些像素；
　　（2）使用OpenGL的VBO（顶点缓冲区对象）。在该方式下，CUDA生成顶点网格数据，OpenGL可以根据需要绘制出平滑的表面图或线框图或一系列顶点。
　　这两种方式的核心都是利用cudaGLMapBufferObject函数将OpenGL的缓冲区映射到CUDA的内存空间上，这样，程序员就可以充分利用CUDA的优点写出性能高的程序在该内存空间上生成数据，这些数据不需要传送，OpenGL可以直接使用。如果不使用CUDA，这些数据需要由CPU来计算产生。一方面，CPU的计算速度通常比GPU慢；另一方面，这些数据需要传送到GPU上以供OpenGL显示使用。鉴于此，当数据量很大时，CUDA和OpenGL的混合使用效果明显。
　　2 CUDA和OpenGL互操作的过程［4］
　　CUDA和OpenGL互操作具体步骤如下：
　　（1）创建窗口及OpenGL运行环境。
　　（2）设置OpenGL视口和坐标系。要根据绘制的图形是2D还是3D等具体情况设置。（1）和（2）是所有OpenGL程序必需的，这里也没什么特殊之处，需要注意的是，后面的一些功能需要OpenGL 2.0及以上版本支持，所以在这里需要进行版本检查。
　　（3）创建CUDA环境。可以使用cuGLCtxCreate或cudaGLSetGLDevice来设置CUDA环境。该设置一定要放在其他CUDA的API调用之前。
　　（4）产生一个或多个OpenGL缓冲区用以和CUDA共享。使用PBO和使用VBO差不多，只是有些函数调用参数不同。以下是具体过程。
　　GLuint bufferID；
　　glGenBuffers（1，&bufferID）；//产生一个buffer ID
　　glBindBuffer（parameter1，bufferID）；
　　//将其设置为当前非压缩缓冲区，如果是PBO方式，parameter1设置为GL_PIXEL_UNPACK_BUFFER，如果
　　是VBO方式，parameter1设置为GL_ARRAY_BUFFER
　　glBufferData（parameter1，parameter2，NULL，GL_DYNAMIC _COPY）；
　　//给该缓冲区分配数据，PBO方式下，parameter1设置为GL_PIXEL_UNPACK_BUFFER，parameter1设置为图像的长度*宽度*4。VBO方式下，parameter1设置为GL_ARRAY_BUFFER，parameter2设置为顶点数*16，因为每个顶点包含3个浮点坐标（x，y，z）和4个颜色字节（RGBA），这样一个顶点包含16 B
　　（5）用CUDA登记缓冲区。登记可以使用cuGLRegisterBufferObject或
　　cudaGLRegisterBufferObject，该命令告诉OpenGL和CUDA 驱动程序该缓冲区为二者共同使用。
　　（6）将OpenGL缓冲区映射到CUDA内存。可以使用cuGLMapBufferObject或cudaGLMapBufferObject，它实际是将CUDA内存的指针指向OpenGL的缓冲区，这样如果只有一个GPU，就不需要数据传递。当映射完成后，OpenGL不能再使用该缓冲区。
　　（7）使用CUDA往该映射的内存写图像数据。前面的准备工作在这里真正发挥作用了，此时可以调用CUDA的kernel，像使用全局内存一样使用映射了的缓冲区，向其中写数据。
　　（8）取消OpenGL缓冲区映射。要等前面CUDA的活动完成以后，使用cuGLUnmapBufferObject或cudaGLUnmapBufferObject函数取消映射。
　　（9）前面的步骤完成以后就可以真正开始绘图了， OpenGL的PBO和VBO的绘图方式不同，分别为以下两个过程。
　　①如果只是绘制平面图形，需要使用OpenGL的PBO及纹理。
　　glEnable（GL_TEXTURE_2D）； //使纹理可用
　　glGenTextures（1，&textureID）； //生成一个textureID
　　glBindTexture（GL_TEXTURE_2D，textureID）；
　　//使该纹理成为当前可用纹理
　　glTexImage2D（GL_TEXTURE_2D，0，GL_RGBA8，Width， Height，0，GL_BGRA，GL_UNSIGNED_BYTE，NULL）；
　　//分配纹理内存。最后的参数设置数据来源，这里设置为NULL，表示数据来自PBO，不是来自主机内存
　　glTexParameteri（GL_TEXTURE_2D，GL_TEXTURE_MIN _FILTER，GL_LINEAR）；
　　glTexParameteri（GL_TEXTURE_2D，GL_TEXTURE_MAG_ FILTER，GL_LINEAR）；//必须设置滤波模式，GL_LINEAR允许图形伸缩时线性差值。如果不需要线性差值，可以用GL_TEXTURE_RECTANGLE_ARB代替GL_TEXTURE_2D以提高性能，同时在glTexParameteri（）调用里使用GL_NEAREST替换GL_LINEAR
　　然后就可以指定4个角的纹理坐标，绘制长方形了。
　　②绘制3D场景，需要使用VBO。
　　glEnableClientState（GL_VERTEX_ARRAY）；
　　//使顶点和颜色数组可用
　　glEnableClientState（GL_COLOR_ARRAY）；
　　glVertexPointer（3，GL_FLOAT，16，0）；
　　//设置顶点和颜色指针
　　glColorPointer（4，GL_UNSIGNED_BYTE，16，12）；
　　glDrawArrays（GL_POINTS，0，numVerticies）；
　　//根据顶点数据绘图，参数可以使用GL_LINES， GL_LINE_STRIP， GL_LINE_LOOP， GL_TRIANGLES，GL_TRIANGLE_STRIP， GL_TRIANGLE_FAN， GL_QUADS，GL_QUAD_STRIP，GL_POLYGON
　　（10）前后缓存区来回切换，实现动画显示效果。调用SwapBuffers（），缓冲区切换通常会在垂直刷新间隙来处理，因此，可以在控制面板上关掉垂直同步，使得缓冲区切换立刻进行。
　　3 CUDA和OpenGL互操作性能实例分析
　　3.1 测试实例
　　这是一个相对简单的实例，其主要功能是不断地动态改变一个纹理图案中每个像素的颜色并显示。该实例使用了OpenGL的PBO并利用了OpenGL与CUDA互操作方式，纹理图案数据的生成主要由CUDA的kernel函数完成，完整程序及CUDA的kernel函数请参看参考文献［5］。
　　如果不使用CUDA，整个程序结构变化不大，主要差别是生成该纹理图案的函数在CPU上运行，因而该函数及其调用方式要重写，具体函数如下：
　　void kernel（uchar4*pos，unsigned int width，unsigned int height，float time）
　　{ unsigned int index，x，y；
　　for（x=0；x《width；x++）
　　for（y=0；y《height；y++）
　　{ unsigned char r=（x+（int）time）&0xff；
　　unsigned char g=（y+（int）time）&0xff；
　　unsigned char b=（（x+y）+（int）time）&0xff；
　　index=x*width+y；
　　pos［index］.w=0；
　　pos［index］.x=r；
　　pos［index］.y=g；
　　pos［index］.z=b；
　　}
　　}
　　其中，参数pos表示像素数组，width为图像宽度，height为图像高度，time是每次调用该函数时固定递增的一个值。
　　3.2 测试结果
　　上述实例在两种环境中做了实验，CUDA版本都是3.2。测试环境1的主要配置如下：CPU为Intel Core i3-M380，主频为2.53 GHz，GPU为 NVIDIA NVS 3100M，内存为2 GB。测试环境2的主要配置如下：CPU是Intel Core2 duo E7400，主频为2.8 GHz，GPU使用GeForce 9800 GTX+，内存为2 GB。测试时，显示设置的垂直同步要关闭。
　　 CUDA和OpenGL的概述及互操作的分析

　　测试时设置纹理图像的长和宽都是512，CUDA的线程块为1 024，每个线程块内的线程数为256，在OpenGL的显示回调函数里统计f/s（刷新率），结果如表1所示。
　　从实验结果可以看出，CUDA与OpenGL结合的方式效果显著，显示速度比不使用CUDA提高了7~8倍。
　　CUDA是一种较新的方便使用GPU进行通用计算的架构，OpenGL是图形处理的工业标准。两者的互操作充分利用了GPU的特点，因而显得非常自然和合理，实验验证了两者配合使用的效果。该方式为高性能图形图像显示及科学计算可视化提供了良好的模式架构。

下载并关注上传者 低至0.43元/天 开通VIP 免费下载

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

发评论

相关下载
相关文章

下载排行榜

3314A函数发生器维修手册
2024-12-19 31次下载

下载
美的电磁炉维修手册大全
2024-12-24 21次下载

下载
如何正确测试电源的纹波
2025-01-02 11次下载

下载
使用TL431设计电源
2024-12-16 10次下载

下载
LZC3106G高性能谐振控制器中文手册
2024-12-23 9次下载

下载
感应笔威廉希尔官方网站图
2024-12-23 9次下载

下载

CUDA和OpenGL的概述及互操作的分析

M-LVDS和总线LVDS的互操作性

linux4.1.15交叉编译链描述及使用方法

qt opencv opencl opengl源码例程

以太网概述及RJ45网口实物介绍

基于图论原理的互操作性模型改进方法

JESD204B互操作报告(AD9250 Xilinx Kintex7)

PoE联盟互操作性报告

PoE联盟互操作性报告-中跨

PoE联盟互操作性报告端点

PoE联盟互操作性报告LTC4267

与能源收集的互操作性

4/5G互操作知识干货资料下载

机器视觉检测系统简述及系统构成

5G SA与4G互操作���重选/切换）相关指导资料下载

汽车自适应前灯照明概述及设计方案资料下载

电信5G+联通4G？组网方案互操作配置指导资料下载

5G资料：5G互操作网络架构及整体策略资料下载

联通L900互操作策略总则资料下载

5G语音解决、5G数据传输、5G互操作方案等

OpenGL常用术语解析

如何实现DS34S132与TDMOP器件的互操作

OPENGL的简介和编程指南资料免费下载

如何使用Visual C++和OpenGL设计实现雷达显示系统

Qt OpenGL中文使用教程免费下载

OpenGL教程之《OpenGL超级宝典》中文第七版资料免费下载

EVTS-17便携式新能源车辆互操作测试系统的详细资料介绍

openGL运行环境详细资料免费下载

PCB高级应用之蛇行布线差分走线多层板层叠分析信号完整性分析概述

lm3s SD文件操作的全部资料概述

TMS320DM643x功耗的详细数据分析概述

基于OpenCV+OpenGL 双目立体视觉三维重建

互阻和互导放大威廉希尔官方网站 模型分析

光伏逆变器拓扑概述及关键技术

CUDA核心是什么？CUDA核心的工作原理

基于OpenGL操作GPU来提升图片模糊性能实现

D/A和A/D转换概述及例题练习

使用CUDA进行编程的要求有哪些

COTS电子模块的互操作性难题

构造具有动态参数的CUDA图表

跨行业语义互操作性的词汇表

工业物联网所需的互操作平台

应用层提供互操作性的标准和开源计划

CUDA简介: CUDA编程模型概述

如何在CUDA C/C++中实现数据传输和其他操作的重叠

NVIDIA驱动程序支持OpenCL和Vulkan进行互操作

方舟开发框架（Ark UI）概述及开发实战

如何在物联网设备上最大化蓝牙互操作性

OpenHarmony HDF 驱动框架概述及加载过程分析

PyTorch如何实现自定义CUDA算子并调用的方法且测量CUDA程序耗时

OpenGL的常用术语解析

CUDA学习笔记第一篇：一个基本的CUDA C程序

区块链互操作性是什么

如何实现传统技术与Insolar区块链平台的互操作

区块链DLT互操作性问题的探讨

MOSFET的原理及开关特性分析

区块链互操作性的三个类别

用于OpenGL的英特尔图形性能分析器性能介绍

Android OpenGL ES用于英特尔图形性能分析

物联网设备的互操作性问题探讨

区块链为什么要追求互操作性？

在复用库互操作方法上有哪些分类比较？

下载排行榜

3314A函数发生器维修手册

美的电磁炉维修手册大全

如何正确测试电源的纹波

使用TL431设计电源

LZC3106G高性能谐振控制器中文手册

感应笔威廉希尔官方网站 图

5G SA与4G互操作��重选/切换）相关指导资料下载

互阻和互导放大威廉希尔官方网站模型分析

感应笔威廉希尔官方网站图