温故而知新 GF116核心架构浅析 您所在的位置:网站首页 gf116核心gt710 温故而知新 GF116核心架构浅析

温故而知新 GF116核心架构浅析

2024-01-28 10:28| 来源: 网络整理| 查看: 265

在本页阅读全文(共32页)

温故而知新 GF116核心架构浅析

        根据NVIDIA针对GF110、GF114和GF116的定位为除了一个较为形象的比喻,GF110拥有最猛火力的重装战士,而GF114是具备杀伤力武器的机动战士。而GF116被定义为“Sniper”(狙击手),拥有一击毙命的本事,足见NVIDIA对这款产品的厚望。

NV"富"二代DX11千元主力 GTX550Ti首测 GF110(左)和GF114(右)核心架构图

NV"富"二代DX11千元主力 GTX550Ti首测 GF116核心架构图

        通过上面GF110、GF114和GF116的核心架构图,我们发现虽然在整体架构上三者保持了Fermi的完整性,例如GPC→SM→CUDA Core由广到微的等级结构,例如独立的Polymorph Engine和Raster Engine的设计等。

        而且从GF114和GF116架构图中不难看出,就GPC、SM、CUDA Cores、MC控制器而言,GF106正好均为GF114的一半。

GF110 SM vs. GF114/GF116 SM Graphics Core Graphics Core GF110 GF114/GF116 SM CUDA Cores 32 48 Warp Scheduler 2 2 Dispatch Unit 2 4 SFU 4 8 LD/ST 16 个 16 个 INT Unit 32 48 FP Unit FP32:32FP64:16 FP32:48FP64:24 Texture Unit 4 8

        不过在微架构上,例如SM的CUDA Core等功能模块的组成,GF116延续了GF114的设计,即每组SM中包含48个CUDA Core、8个SFU和8个纹理单元等改良设计。相比拥有庞大规格的GF110而言,GF114的微架构的优化能够弥补先天规格不足的弊端,所以GF116传承了GF114微架构体系设计。

       ● GF116核心SM模块的设计优势

        GF116由于传承了GF114的SM微架构设计,原因很简单,从基于GF114核心打造的GeForce GTX 560 Ti性能表现就能看出,这种微架构的调整换来了在3D性能上更突出的表现,而GF116产品针对的用户群体更加明确,针对主流消费者用户设计,自然这类占绝对大比例的用户对产品的体验主要集中在3D效能体验,所以有了GF116这样的设计。

        当然这样并不是否定GF110核心SM微架构设计的不合理,毕竟GF110针对的用户群体是最高端的,同时还要兼顾通用计算方面的性能,所以才会有了GF110核心SM微架构设计。与其说NVIDIA针对不同用户群设计不同的定位的核心,不如说NVIDIA针对不同用户群设计了不同SM微架构的核心。

NV"富"二代DX11千元主力 GTX550Ti首测 GF110 SM架构图

NV"富"二代DX11千元主力 GTX550Ti首测 GF114/GF116 SM架构图

        GF116的一个SM中现在拥有48个CUDA Core,每个CUDA Core由两个Dispatch Port、Operand Collector、Result Queue以及INT整型数单元与FP浮点数单元构成。其中GF106的ALU和FPU均继承了GF100中CUDA Core的优良特性,例如ALI可以支持64bit精度指令运算,还有比较、布尔和移位等指令计算,值得一提的是Fermi架构的ALU通过改进现已完整支持32bit整数算法。同时FPU支持IEEE 754-2008标准,这一切一切的改变和支持都为Fermi架构在GPU通用计算上打下坚实基础。

        当然,在CUDA Core的优化上可以大幅提升GPU运算能力,但是没有良好的缓存设计及读写机制也无法发挥GPU的能力。在GF116的每个SM中与GF110一样,都包含LD/ST Cache、L1 Cache、Uniform Cache和Texture Cache。其中GF106拥有12KB的L1纹理缓存之外,还拥有真正意义的L1 Cache和L2 Cche可读写缓存。就每组SM而言,每组SM拥有8个纹理单元共享12KB的L1纹理缓存,32个CUDA Core使用16KB L1缓存搭配48KB共享缓存或48KB L1缓存搭配16KB共享缓存两种组合,最后还有768KB超大L2缓存。

        我们可以看到GF116每个SM中CUDA Core数量和Texture Unit数量均有大幅增加,这都会增加SM的3D计算能力,从而让用户在游戏体验上获得更好的效果。不过相反每个CUDA Core和Texture Unit分得的各类Cache有所减少,这应该是NVIDIA GPU架构工程师针对主流用户使用需求的前提下,在性能、晶体管平衡取舍上得出的最佳比例。

本章节文字摘自《NV首款不减配显卡 千元悍将GTS450首测》



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有