linux中哪些工具可以测试cuda程序,监控gpu内存性能

linux中哪些工具可以测试cuda程序,监控gpu内存性能,第1张

nvcc 编译代码

nvcc -o squareSum squareSumcu运行结果:

CUDA initialized

(GPU) sum:29909398 time:787124792

(CPU) sum:29909398 time:10000

从执行的结果可以看出, GPU 中运行的程序居然要比 CPU 中的消耗的时钟周期还要多得多。这是有原因的。

因为程序之中并没有使用 CUDA 并行执行的优势。

这里分析一下 GPU 运行的性能

此 GPU 消耗的时钟周期: 787124792 cycles

GeForce G 103M 的 clockRate: 16 GHz

所以可以计算出 GPU 上运行时间是: 时钟周期 / clockRate = 049195 s

1 M 个 int 型数据有 4M Byte 的数据量,实际使用的 GPU 内存带宽是:数据量 / 运行时间 = 813 MB/s

可见这个程序没有很好的发挥 GPU 的性能,使用的内存带宽很小。

没有有效利用 GPU 性能的原因???

在 CUDA 中,一般的数据复制到的显卡内存的部份,称为 global memory。这些内存是没有 cache 的,而且,存取 global memory 所需要的时间(即 latency)是非常长的,通常是数百个 cycles。

由于我们的程序只有一个 thread,所以每次它读取 global memory 的内容,就要等到实际读取到数据、累加到 sum 之后,才能进行下一步。这就是为什么它的表现会这么的差。实际上 GPU 一直在等待上一个数据运行的结束,然后再拷贝一个内存数据,所以使用的时钟周期自然就长了。

由于 global memory 没有 cache,所以要避开巨大的 latency 的方法,就是要利用大量的 threads。假设现在有大量的 threads 在同时执行,那么当一个 thread 读取内存,开始等待结果的时候,GPU 就可以立刻切换到下一个 thread,并读取下一个内存位置。因此,理想上当 thread 的数目够多的时候,就可以完全把 global memory 的巨大 latency 隐藏起来了。

GPU-Z不是做测试用的,是产看GPU及相关参数用的,这点LZ要了解。

如果做测试使用较多的是3D Mark Vantage,测试很简单,选择测试等级后点击测试就OK了。

还有用于新一代DX11显卡的测试工具Unigine Heaven Benchmark ,实用性较高。

要注意,测试工具给出的分数并不代表实际显卡性能,根据工作环境的不同应该具体来看具体参数。

回顾年初的CES2021展会,NVIDIA将NVIDIAAmpere架构带到了笔记本电脑,发布了RTX30系列笔记本电脑GPU,而到了2021年5月11日,NVIDIA进一步完善产品线,发布了RTX3050Ti和RTX3050笔记本电脑GPU,让NVIDIAAmpere架构进入主流价位的笔记本电脑市场中。

更有意义的是,GeForceRTX3050Ti和RTX3050笔记本电脑GPU还是首代支持光线追踪、DLSS的在NVIDIAx50系列产品,能让更多 游戏 玩家享受到先进技术带来的 游戏 体验提升。

目前,PConline评测室收到了一台机械革命Z3Air,机身厚度只有205mm,重量仅196kg。作为一款低功耗的轻薄 游戏 本,机械革命Z3Air是首批搭载GeForceNVIDIARTX3050Ti笔记本电脑GPU的 游戏 本,GPU功率最大可达95W,同时也配备了最新的英特尔第11代酷睿i7-11800H处理器,硬件配置是2021年这个价位段 游戏 本的主流搭配。至于本篇评测,就用这款产品作为代表,来测试GeForceRTX3050Ti笔记本电脑GPU这款面向主流价位的产品,在轻薄 游戏 本中的综合性能表现。

测试前先来看一下规格参数,GeForceRTX3050Ti笔记本电脑GPU采用了完整的GA107-775-A1核心,拥有20组SM单元、CUDA数量为2560个,并配备4GBGDDR6显存、位宽为128bit,TGP功耗最大为80W(不开启DynamicBoost20)。定位稍低的GeForceRTX3050笔记本电脑GPU同样采用了GA107-775-A1核心,但经过了一定阉割,SM单元为16组,CUDA数量为2048个,同样配备128bit位宽的4GBGDDR6显存。

至于其他特性和功能方面,即便GA107-775-A1只是NVIDIAAmpere架构的入门级核心,但GeForceRTX3050和GeForceRTX3050Ti笔记本电脑GPU依旧拥有第2代RTCore和第3代TensorCore,这也是实现光线追踪和DLSS技术的硬件级基础。具体规格方面,RTX3050Ti笔记本电脑GPU拥有80个TensorCore和20个RTCore。

在239版本GPU-Z中,已经可以准确识别出GeForceRTX3050Ti笔记本电脑GPU的详情参数信息。

打开NVIDA控制面板中,可以进一步查看GeForceRTX3050Ti笔记本电脑GPU的产品信息,可以发现例如ResizableBAR、DynamicBoost20、WhisperMode20等先进技术也都没有被阉割掉。而在开启DynamicBoost20后,GeForceRTX3050Ti笔记本电脑GPU的最大功率上限可达到95W(80W 15W)。

当然硬件的实际性能释放要参考 游戏 本的散热设计,在26 的室内环境中,将机械革命Z3Air切换为狂飙模式、使用FurMark对其进行单烤压力测试,通过监控显示GeForceRTX3050Ti笔记本电脑GPU的功耗释放可达75W左右。

而同时开启AIDA64FPU FurMark双烤压力测试,机械革命Z3Air可输出约55W 70W,也能基本发挥出GeForceRTX3050Ti笔记本电脑GPU的性能。

先使用3DMark对GeForceRTX3050Ti笔记本电脑GPU进行理论性能测试:

对比之前的测试数据,可以发现在5项传统测试中,我们可以看到GeForceRTX3050Ti笔记本电脑GPU相比于GeForceGTX1650笔记本电脑GPU有超过50%的性能提升,接近上一代的甜品级的RTX2060笔记本电脑GPU。

前面提到过,得益于第2代RTCore与第3代TensorCore,GeForceRTX3050Ti笔记本电脑GPU获得了对光线追踪与DLSS技术的支持,下面还是用3DMark测试下理论性能。

在PortRoyal项目中,GeForceRTX3050Ti笔记本电脑GPU的分数为897,相比于GeForceRTX2060笔记本电脑GPU普遍3000 的分数有较大差距,原因或许是因为4GB显存在测试中发生了瓶颈。

另外在3DMark自带的NVIDIADLSS功能测试中,运行相同的画面,关闭DLSS前平均帧数为399FPS,开启DLSS后平均帧数为1189FPS,提升较为明显。

实际 游戏 方面,此次 游戏 测试分为光栅化和光追/DLSS性能测试两部分,选择了《孤岛惊魂5》、《战争机器5》、《中土世界:战争之影》、《全面战争:三国》、《古墓丽影:暗影》、《控制》等几款有代表性的3A大作。这些 游戏 对于此前的GTX1650 游戏 本,如果不降低特效设置,很难在1080P分辨率下做到流畅运行。下面来看一下搭载GeForceRTX3050Ti笔记本电脑GPU的机械革命Z3Air实测表, 游戏 测试前更新至47168驱动版本。

1光栅化性能测试

《孤岛惊魂5》设置为极高特效,机械革命Z3Air的平均帧数为89FPS、最低帧数为74FPS。

《战争机器5》将所有设置都拉到超高,关闭垂直同步和最小帧数限制,机械革命Z3Air的平均帧数为715FPS,GeForceRTX3050Ti笔记本电脑GPU同样没有造成瓶颈。

《中土世界:战争之影》,设置为最高特效,运行自带的基准性能测试,机械革命Z3Air的平均帧数为74FPS。

前面的3款 游戏 ,搭载GeForceRTX3050Ti笔记本电脑GPU的机械革命Z3Air都获得了超过60FPS的平均帧数,接下来测试《全面战争:三国》。在极高特效下,机械革命Z3Air运行《全面战争:三国》战斗场景基准测试平均帧数为514FPS,也基本符合预期。

《刺客信条:英灵殿》是《刺客信条》系列的第12部主要作品,对GPU的性能提出了极高的要求。在开启中等画质的情况下,GeForceRTX3050Ti笔记本电脑GPU的4GB显存容量并不会产生瓶颈,因此机械革命Z3Air运行自带的性能评估可以获得平均71FPS的帧率表现。

2 光追/DLSS性能测试

接下来是光追和DLSS性能的测试,我们选用了《古墓丽影:暗影》,《控制(Control)》,《先驱者(Outriders)》和《使命召唤:战区》来进行测试。

在《古墓丽影:暗影》中将光线追踪阴影质量调整为超高,运行基准测试平均帧数为35FPS,达到了基本流畅的水平。

随着NVIDIA逐步推进光线追踪与DLSS,目前已经有越来越多的 游戏 支持这两项技术。例如由Remedy工作室开发,505Games负责发行的第三人称冒险 游戏 《控制(Control)》。为了发挥出RTCore的性能,《控制(Control)》中加入了NVIDIA推出的多种光线追踪渲染特效,例如透明和不透明反射,间接漫反射,以及接触阴影等。

考虑到GeForceRTX3050Ti的规格,在使用机械革命Z3Air测试《控制(Control)》时光线追踪预设为“中”,并勾选“NVIDIA超高取样”选项开启DLSS20(渲染解析度为1280 720)。

从测试结果可以看出,《控制(Control)》这款 游戏 开启光追时对硬件配置还是有较高的要求,不过在开启DLSS20技术后,机械革命Z3Air的帧数提高了60%左右,幅度可谓是相当显著!在基本不损失画质的前提下,还能够满足60FPS的较高帧率。

而除了《控制(Control)》外,目前市面中支撑DLSS的3A大作已经越来越多,这也为NVIDIAAmpere架构的GeForceRTX3050Ti笔记本电脑GPU提供了更大的用武之地。例如在 游戏 《先驱者(Outriders)》中,默认开启预设的超高特效,如果不开启DLSS,机械革命Z3Air的运行帧数只能在60FPS边缘,交战时就会面临画面掉帧,而开启DLSS并选择平衡模式后,平均帧率则获得了进一步提升,绝大多数场景下都能稳定70FPS以上的帧率。

《使命召唤:战区》对硬件的优化较为出色,即使不开启DLSS,机械革命Z3Air凭借酷睿i7-11800H GeForceRTX3050Ti笔记本电脑GPU依旧能在对战中满足超过60FPS 的平均帧率,当然开启DLSS后则获得了超过20%的进一步帧率提升。

除了 游戏 性能之外,我们还对搭载GeForceRTX3050Ti笔记本电脑GPU的机械革命Z3Air的专业性能和生产力进行测试。

SPECviewperf2020测试结果如下:

对于更广大内容创作者经常使用的Adobe三件套(Photoshop、Lightroom、PremierePro),本次使用UL公司出品的Procyon专业基准测试脚本进行展现:

ULProcyon提供了照片编辑基准测试,该基准测试使用Lightroom来导入、处理和修改选定的图像。在测试的第二部分中,Photoshop的照片将被进行多次编辑和图层效果。本次测试的Lightroom版本为102、Photoshop版本为2231。总成绩为7544、子项目ImageRetouching图像润色分数为6917,BatchProcessing批处理分数为8230。

除了照片编辑基准测试外,ULProcyon还提供了视频编辑基准测试,该基准测试使用PremierePro将视频项目文件导出为通用格式。每个视频项目都包括各种编辑编辑、调整和效果。基准分数基于导出视频所需的时间。这也是能够让GPU编解码器发挥出巨大作用的工作负载。

从测试结果中可以看出,凭借着GeForceRTX3050Ti笔记本电脑GPU的NVIDIAAmpere架构所支持的新一代NVENC编码器和NVDNC解码器,机械革命Z3Air在进行H264和H265视频出方面都有着较高的效率。

此外,GeForceRTX3050Ti笔记本电脑GPU还支持NVIDIABroadcast直播应用程序,通过此应用可将笔记本电脑转换为直播工作室,原理是通过调用NVIDIAAmpere架构的第3代TensorCore,用AI算法对外部环境进行优化,让直播变得更加轻松;最新的12版本还新增了AI增强下的房间回声消除和视频噪点消除等功能,并更新了音频降噪功能,可有效消除猫、狗和昆虫的声音,最终幅提高直播时的音视频质量。

打开NVIDIABroadcast直播应用程序,提供三个选项,非常直观。首先是麦克风和扬声器的噪音消除功能(也可选择房间回音消除beta),能够有效提高录制音频的效果。

除了麦克风和扬声器优化外,NVIDIABroadcast直播应用程序还能对摄像头录制效果进行优化,例如TensorCore的算法带来背景模糊、背景消除、背景更换等功能,功能强大又易于上手。

不开启特效:

开启背景删除:

开启背景更换:

目前搭载GeForceRTX3050Ti和RTX3050笔记本电脑GPU的 游戏 本已经陆续上市发售,截至目前型号已经超过140款,本次评测的机械革命Z3Air就是其中之一。

通过评测数据可以直观发现,相比于此前的x50系列GPU,全新的GeForceRTX3050Ti笔记本电脑GPU性能提升非常显著,甚至可以接近Turing架构甜品级RTX2060笔记本电脑GPU的性能,结合最新的处理器,让主流价位的 游戏 本运行大部分3A 游戏 都能在1080P分辨率下获得良好的帧率表现,以及较为出色的生产力性能,这都是以往搭载GTX1650笔记本电脑GPU的中低端 游戏 本无法提供的。

对于想体验最新NVIDIAAmpere架构的用户来说,搭载GeForceRTX3050Ti笔记本电脑GPU的新品 游戏 本,有很大的购买价值;当然,考虑到次一级的GeForceRTX3050笔记本电脑GPU也采用了GA107核心,且规模保留较为完整,估算下来性能损失不大,性价比更为出色,是购机预算较低玩家的性价比之选。

以上就是关于linux中哪些工具可以测试cuda程序,监控gpu内存性能全部的内容,包括:linux中哪些工具可以测试cuda程序,监控gpu内存性能、怎样进行GPU-Z测试、完美胜任1080P游戏,RTX 3050 Ti笔记本电脑GPU性能测试等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/zz/9733738.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-01
下一篇2023-05-01

发表评论

登录后才能评论

评论列表(0条)

    保存