黄仁勋称世界被重置


黄仁勋称世界被重置 ,1个相关介绍黄仁勋称世界被重置揭秘 。

  1. 如何看待NVIDIA正式公布Turing架构显卡

如何看待NVIDIA正式公布Turing架构显卡

虽然NVIDIA正式公布新一代的GeForce游戏卡应该要等到下周科隆游戏展前的“GeForce Gaming Celebration ”活动,但是在昨天正式开幕的SIGGRAPH 2018,这场图形界顶级大会上 ,NVIDIA是不可能空手到来的,而事实上他们昨晚确实有很多重量级的公布,包括全新的Turing架构(注意 ,官博现在还没有使用任何中文命名) ,包括第一张专用于光线追踪的GPU:Quadro RTX,但是我们还是应该从它的根基:新的Turing架构开始说起。

NVIDIA的官方直播大概是早上的8:45结束的,现在还有很多细节没有公布出来 ,所以我们先来看看官方的Newsroom,首先关于Turing架构,NVIDIA对其非常有自信 ,称其为自从2006年通过统一渲染架构带来CUDA后最伟大的飞跃,所以你可想而知NVIDIA对其的期望,或者说野心。新的Turing架构很重要的一点就是混合渲染(Hybrid Rendering)来实现光线追踪 ,具体来说包括引入全新的RT Core来加速光线追踪,还有我们已经在Volta架构看到的Tensor Core来加速AI处理,当然还有光栅化 ,毕竟现在我们还没有厉害到能够抛弃光栅化的程度,所以新的Turing架构是包含多种力量的,而这种包含多方力量来实现光线追踪的混合渲染 ,应该会成为日后的关键词 。

每次有新架构到来 ,我们最关心的就是微架构级别的变化:有哪些新增的特性,有哪些精简的部分,如果说Volta架构我们开始看到Tensor Unit ,那么新的Turing架构当中最重要的就是新引入的RT Core。既然是“RT”,顾名思义就是冲着光线追踪(Ray Tracing)来的,它的作用是用来加速处理光线在三维环境中的传播 ,处理光线的速度是目前Pascal架构的25倍,同时让GPU作为节点处理最末帧(Final Frame)的效果渲染要比将CPU作为节点的速度快30倍。

同时让人兴奋的是,自从Volta架构开始引入的Tensor Core ,我们都知道它能提供远远高于传统GPU的人工智能 、深度学习性能,这部分性能能够赋予我们的GPU去做很多以往没有的工作,比如说在Turing架构当中的Tensor Core ,能够在每秒处理500万亿的张量运算,通过这部分性能,我们能实现以往无法奢望的功能 ,比如说新的基于深度学习的抗锯齿技术:DLAA(Deep Learning Anti-Aliasing ,万物基于深度计算) 。

最后在传统的架构方面,Turing在我们熟悉的SM单元当中新增整数处理(Integer Unit)单元,以及新的统一缓存架构 ,能够带来目前架构两倍的带宽 。规格方面,Turing架构能够搭载最多4608 CUDA,并且能够带来最高16 TFlops浮点性能。当然这是新发布的三款Quadro RTX显卡当中性能最强的RTX 8000而言的。

具体来说 ,昨晚NVIDIA共发布三款显卡,分别是Quadro RTX 5000\6000\8000,最高端的RTX 8000跟次旗舰的RTX 6000两张显卡在流处理器数量、张量单元数量、光线追踪性能方面都是一致的 ,分别是4608 CUDA 、576 TC、10 GigaRays,只有显存存在差异,RTX 6000是搭载24GB GDDR6显存 ,通过NVLink桥接可以实现48GB显存,按照现在16Gb的显存来看,也是很夸张的 ,而RTX 8000的显存直接翻倍 。“入门级”的RTX 5000则是3072 CUDA ,384 TC(Tensor Cores)、6 GiagaRys,16GB GDDR6显存。

在流处理器方面,如果是按照Volta V100的架构 ,那就是每组SM单元包含64 CUDA,即72组SM单元,但是72组SM单元怎么构成GPC单元呢?过去的Volta V100是每组GPC单元包含14组SM单元 ,那这里就是除不尽的,难道NVIDIA还暗藏多余的SM单元?因为GPC单元肯定是4组 、6组 、8组的组成,如果是按照6组 ,就应该是6*14=84组SM单元,就算是按照128 CUDA/SM的构成,要么每组GPC单元的构成已经精简 ,要么目前的RTX 8000还不是完整架构。

至少就卡本身的规格方面,目前AnandTech已经拿到部分消息,他们已经做成架构之间的对比 ,就是RTX 8000分别对比GV 100、P6000、M6000 ,我们首先能看到在核心面积 、晶体管数量、CUDA数量、纹理单元数量方面对比V100的规格是有精简的(甚至核心面积都变小),频率提高到1730MHz,显存频率14Gbps ,位宽384-Bit,单精度16 TFlops,最后核心代号是尚不清楚的 ,GT102?现在谁知道呢 。

图片来源于AnandTech

想了解更多有关科技 、数码、游戏、硬件等专业问答知识,欢迎右上角点击关注我们【超能网】头条号。

这次最意外的还是新核心Turing(图灵)架构和gddr6显存居然在英伟达的专业图形卡上首发,其中的RTX(光线追踪)技术无疑是这款显卡最大的亮点。

尽管是采用了12nm工艺 ,但是Turing架构仍然比Pascal架构规模大得多,GP102和GP104分别为6组GPC和4组GPC,图灵架构在删除了FP64双精度单元后 ,新加入了RTX单元用于处理RTX计算,实际上新款Quadro RTX的光线追踪性能如此之强应该就是归结于这些专用RTX单元,这和当年Fermi架构推出的“曲面细分单元 ”似乎有异曲同工之处 ,但是尚且不知道RTX单元是否也属于CUDA核心 ,能否参与常规图形运算,这些就需要以后NVIDIA提供的技术白皮书来了解了 。

最强的Quadro RTX8000所用的GT102核心(暂称)很有可能就是未来2080TI显卡采用的核心,754的核心面积 ,最高4608个流处理器(很可能给不了这么多),384bit位宽(也有可能缩减),但是作为游戏显卡 ,核心频率和显存频率有望继续提高,整体单精度运算能力应该仍然在16T左右,比1080TI高出近6T的计算性能。

至于主流高端2080和2070显卡 ,我们可以参照目前最低端的Quadro RTX5000,GT104核心很可能是3072个流处理器,256bit位宽 ,8G-16G的gddr6显存,如果算上更高的核心/显存频率,算力达到12-13T应该问题不大 ,所以即使是精简版的2070 ,其性能应该至少也会和1080TI旗鼓相当,如果算上光线追踪性能的话,拿自然就是秒杀老卡了。

功耗方面 ,官方给出的GT102只有225W 。GT104只有180w。这么看并不高,当然这是说的专业卡,游戏卡如果频率提升的话 ,功耗可能还会增加,但是在核心规模增大不少的情况下,能效比仍然不错。

综合看来 ,GTX20这一代显卡的性能提升应该不小,尽管工艺仅仅是从16nm升级到12nm,但是这次的Turing架构规模增大了很多 ,还有RTX和nvlink等技术的引入,难怪黄仁勋称这是一次堪比当年G80(8800GTX)显卡的变革 。

对于黄仁勋称世界被重置的问题就介绍到这了,希望介绍关于黄仁勋称世界被重置的1点揭秘对大家有用 。

中国名将王聪遭裸绞
上一篇 2024年11月25日
年底工资或多几笔钱
下一篇 2024年11月25日
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 88888888@qq.com 举报,一经查实,本站将立刻删除。

相关推荐