自计算机图形学诞生以来,图形处理器(GPU)便逐渐从辅助CPU的角色中脱颖而出,成为现代计算机系统中不可或缺的核心组件。Intel,作为半导体行业的巨头,其GPU架构的演进不仅见证了计算机图形处理能力的飞跃,更深刻地影响了从游戏娱乐、专业设计到高性能计算等多个领域的发展。Intel GPU的架构演进史可以追溯到早期,当时Intel主要聚焦于CPU的发展,而GPU领域则主要由NVIDIA和AMD公司主导。然而,随着计算机图形处理需求的不断增长,Intel也逐渐认识到GPU的重要性,并开始投入资源进行的研发,Intel GPU的每一次进步都是技术创新与市场需求完美结合的典范。
Intel i740
1998年,英特尔发布了旗下首款独立GPU产品—Intel i740,这是REAL3D配合下研发的一款3D加速芯片。i740采用0.35微米工艺制造,64bit图形核心,核心运行速度与AGP总线同步在66MHz,支持AGP 2X,它的3D性能在当时不错,因此销量十分可观。除了占领
规模日益扩大的3D图形市场,Intel推出i740的另一个目的是推广由自己牵头并联合其他厂商推出的AGP标准。
i740是真正的第一个AGP 2X显卡,但其3D性能还是跟不上NVIDIA和AMD的步伐,所以Intel致力于将显示核心整合在主板芯片组之中,改进版i752重获新生。
i752采用128bit核心架构,核心频率100MHz,显存最高可支持133MHz,双像素管线,支持环境雾化、单周期纹理合成、凹凸贴图、纹理压缩等技术,还拥有改进视频加速性能,可以针对当时的视频格式进行各种加速。但后来推出的i810及i850价格更加便宜,所以更受大众欢迎。
Intel GMA
(Graphics Media Accelerator)
2003年,推出GMA,Intel GMA架构不是专门的GPU架构,但它是Intel在芯片组内集成的显示内核产品线的一部分。Intel Graphics Media Accelerator (GMA) 是Intel的显示内核产品线,该产品线的主要特点是集成在芯片组内部,这使得用户在组装电脑时无需购买额外的显卡,有助于降低整个平台的成本和功耗。GMA系列包括多个产品,如GMA 900、GMA 950、GMA 3000、GMA 3100、GMA X3000、GMA X3100、GMA X3500、GMA X4500和GMA 500等。这些产品多数出现在低级或笔记本电脑中。由于GMA显示内核使用时会占用电脑的部分主存,因此在某些情况下可能会导致电脑效能略为降低。这是因为中央处理器以及显示内核需要同时经同一总线来访问主存。虽然GMA系列具有图形处理能力,但与传统意义上的GPU(如NVIDIA或AMD的独立显卡)相比,其性能和功能可能有所限制。
Intel Larrabee
2009年,发布Larrabee架构,Larrabee基于传统的x86架构,是一种可编程的多核心架构,不同的版本会有不同数量的核心,并使用经过调整的x86指令集,性能上将会达到万亿次浮点运算级别。至少有16个核心,主频1.7-2.5GHz,功耗则在150W以上,支持JPEG纹理、物理加速、反锯齿、增强AI、光线追踪等特性。关键是英特尔将让自己的GPU引入X86指令,这会使得编程更加简单,同CPU之间的数据交换可以保持一致性,大大降低图形应用程序的开发周期和难度。Intel指出Larrabee全面支持IEEE标准单、双精度浮点运算,但没有透露具体运算。
Intel HD Graphics
2010年,发布HD Graphics架构,是Intel设计的一系列集成GPU架构,这些GPU通常被集成在Intel的处理器CPU中,形成核芯显卡或集成显卡,但在性能上无法与如NVIDIA与AMD的产品相媲美,在成本与功耗上有明显优势,适合对图形性能要求不高的应用场景。
第一代,推出Nehalem微架构,核心代号‘Clarkdale’和‘Arrandale’,处理器,集成首款产品HD Graphics 1000;
第二代,2011年,Intel发布的微架构‘Sandy Bridge’中,全线产品集成第二代‘HD Graphis’;
第三代,2012年,Inte发布的微架构‘Ivy Bridge’中,产品集成第三代‘HD Graphis’;
第四代,2013年,推出的显示芯片有HD Graphics 5200、HD Graphics 5100/5000、HD Graphics 4200/4400/4600等;
Intel Iris Graphics及Iris Pro Graphics
2013年,推出Iris Graphics及Iris Pro Graphics架构,采用了英特尔的处理器图形体系结构(通常简称为“gen”)。在Haswell处理器中开始使用,规格与HD Graphics相同,但频率及性能更高。
Intel UHD Graphics
2017年,推出UHD Graphics架构,是Jasper Lake Pentium SoC的集成显卡,适用于笔记本电脑和小型台式机,没有专用图形内存,时钟速率因处理器型号而异。
Intel UHD Graphics 770是一种位于桌面和嵌入式CPU上的图形处理器,拥有32个执行单元,通过HDMI,最大分辨率为4096*2160,60Hz。
Intel Xe
2020年,英特尔正式发布了名为Xe的GPU架构。和之前的集成GPU不同,Xe更多是一个基础架构,并可由此衍生出多种针对不同应用领域和场景的GPU产品。
目前基于Xe架构的产品主要有四类,分别是主打集成显卡和入门级独显的Xe-LP、针对游戏和桌面性能进行优化的Xe-HPG、主要用于数据中心和AI应用的Xe-HP,还有面向高性能计算的Xe-HPC。
Xe-LP
Xe-LP并不是专注于高性能的产品,更多的是在GPU的架构细节上展现。Xe-LP支持DirectX FL 12_1 API,支持比率可变着色,能够实现基本的VRS技术,借助Xe-LP的延展性,Intel将所有单元扩充了50%,意味着Xe-LP比之前的Gen11增加了50%的执行单元,包括增加了50%的EU,50%的纹理单元以及50%的ROP单元。Xe-LP也升级了几何前端,与早期GPU不一样的是,原本1个时钟内只能实现1个背面删除,在Xe-LP上实现了2个,使得GPU的峰值性能提升了1倍。从Haswell的Gen7.5开始,Intel就引入了SubSlice的概念(类似于NVIDIA的SM),在GPU中构建小的模块,用来专注各种各样形式的计算、着色、纹理化操作。
Xe-LP完整版拥有6个SubSlice,每一个SubSlice包含16个EU,子纹理采样器达到8像素/时钟,每个SubSlice有一个L1数据/纹理缓存,容量64KB,可以在L2数据/纹理存储之间动态分配。EU是Xe-LP GPU架构中最小的线程级构建块,Intel对其也进行了数次调整,在Gen11开始,EU由一个线程控制单元和两组4-wide SIMD单元组成,其中一组负责浮点运算或整数运算,另外一组负责浮点运算或者特殊函数运算。Xe-LP的设计给EU带来了一些变化,它不再是一个独立的控制区域,两个EU共享一个线程控制单元,SIMD单元进行了重组,8-wide SIMD用来执行2倍的INT16、INT32整数运算,特殊函数运算则交给边上的2-wide SIMD(ALU单元)进行。
Xe-LP介于集成GPU和独立GPU之间,需要兼容CPU共享的IMC,并且还能兼容某些独立显卡使用,从SubSlice开始,Xe-LP引入了全新的L1缓存,同时L3缓存提升到16MB,Xe架构之前的GPU主要是支持FP32、FP16及Int16浮点,而Xe架构开始开始支持INT8指令,AI性能是FP32的4倍,Xe-LP支持AV1、DisplayPort 1.4、HDMI 2.0、8K显示器,在压缩算法上也带来很多的优化,同时数据压缩功能还将扩展到媒体和显示界面中,图形引擎、媒体引擎和显示器可以直接交换压缩状态的数据。
Xe-HP
Xe-HP专为高性能计算和数据中心应用而设计。它继承了Xe架构的并行矢量矩阵处理能力和高度可扩展性,并针对特定的工作负载进行了优化。采用一种“Tile”的模块化堆积设计方式,包括1Tile、2Tile、4Tile三种方式,1Tile集成512个EU单元,共4096个核心,类推4Tile就是2048个EU单元,16384个核心,核心频率可以达到1.6GHz。Intel给出结果,4Tile的单精度浮点性能达到42TFLOPS,但Xe-HP只面向数据中心。
Xe-HPG
Xe-HPG是针对高性能游戏应用进行深度优化的独立显卡微架构,它就是一个可扩展设计的典型例子。首先,它的基本组成单元叫做Xe-core,也就是Xe内核。每个Xe内核包含16个矢量引擎和16个矩阵引擎,前者主要用来计算浮点或者整型运算,后者主要用来加速AI应用中常见的卷积和矩阵运算。
四个Xe内核可以组成一个名叫“Render slice”的单元,中文可翻译成渲染切片。这个单元在Xe内核的基础上增加了针对DX12 Ultimate的优化、用来做实时3D渲染的硬件,以及4个光追模块。最高8个渲染切片可以共享二级缓存并连接在一起,就组成了Xe-HPG的主要计算架构。
Alchemist是基于Xe-HPG架构的独立显卡系列中的首款产品,台积电6nm工艺制程,除了硬件架构的创新之处,软件架构也进行了重构,Intel还引进了全新技术XeSS(Xe Super Samping),也就是Xe超采样技术,本质就是通过深度学习来合成非常接近原生高分辨率的图像。类似于NVIDIA DLSS和AMD FSR,旨在以更低的运算资源换取更高的性能和图像质量。每个Xe核心包含16个矢量引擎和16个矩阵引擎,矢量引擎每周期可处理256bit数据,每个矢量引擎内包含8个FP32 ALU(算术逻辑单元),因此每个Xe核心每时钟周期可处理128次FP32操作。矩阵引擎(XMX)主要用于AI加速、矩阵/张量计算,每个XMX引擎使用一个8深度脉动阵列制,每周期可执行8套512位宽的矩阵计算运算。
Alchemist GPU由多个渲染切片组成,每个渲染切片包含4个Xe核心、4个光线追踪单元、4个纹理采样器、几何前端、光栅前端和2个像素后端。完整的Alchemist GPU最多拥有8个渲染切片,总计32个Xe核心和4096个FP32 ALU。
Xe-HPC
Xe HPC则是最顶级的存在,主攻高性能计算。Xe HPC架构的基础也是Xe核心(Xe Core),但因为面向的是计算而非图形,内部结构有所不同,每个Xe核心可以集成多达8个512-bit矢量引擎和8个4096-bit矩阵引擎,矢量引擎每时钟周期可执行256个FP32、256个FP64、512个FP16等数据操作,矩阵引擎则每时钟周期支持2048个FP32、4096个FP64、4096个BF16、8192个INT8。
Xe核心的上一层级叫做“切片”(Slice),不同于Xe HPG上的渲染器切片(Slice),毕竟一个是做计算,一个是做图形渲染。Xe HPC每个切片集成多达16个Xe核心,四倍于Xe HPG渲染切片的规模,同时还有8MB一级缓存、16个光追单元、一个硬件上下文(Hardware Context)单元,其中光追支持光线遍历、边界框相交、三角形相交,提供固定函数计算。切片的上一级则是“堆栈”(Stack),至此才算一个完整的GPU。一个堆栈包含4个切片,因此总计64个Xe核心、64个光追单元、4个硬件上下文。
Ponte Vecchio是Intel基于Xe HPC高性能计算架构推出的首款GPU产品,它专为满足超级计算机和数据中心对高性能计算能力的需求而设计。Ponte Vecchio采用了先进的封装技术,内部封装了多达47个不同的芯片/单元(Tile),包括计算单元、RAMBO缓存单元、Foveros封装单元、基础单元、HBM单元、Xe链路单元、EMIB单元等。这些单元通过高速互连通道紧密连接在一起,形成了一个高度集成的计算系统。据悉,Ponte Vecchio的晶体管数量突破了1000亿个,这使得它在计算能力上达到了前所未有的高度。
Intel Xe2
2024年,发布Xe2架构,将被应用于Lunar Lake CPU与代号为"Battlemage"的下一代 Arc 独立显卡阵容。新一代架构可实现50%的性能提升,配备全新光线追踪单元和VVC支持。与Xe架构一样,Xe2架构具有高度可扩展性,这将促使其集成到Lunar Lake等低功耗移动SoC中。
第二代Xe内核中配备了多种计算资源,这些资源被重新划分为SIMD16引擎,以便提高效率。8个512 位矢量引擎,8个2048位XMX引擎,支持64b原子运算,192KB共享 L1缓存/SLM。
第一款采用Xe2 GPU的产品是集成配置的Lunar Lake。Lunar Lake中的多个区块都与GPU有关,如媒体引擎和显示引擎。Lunar Lake Xe2 GPU有8个Xe2内核,每个Xe2内核有8个XMX和8个矢量单元、一个负载/存储单元、一个线程排序单元和一个专用的 L1/L$ 缓存。这4个Xe2内核中的每一个都能生成一个渲染片。
Xe2架构配备了全新光线追踪单元和VVC(Versatile Video Coding,万能视频编码)支持,进一步优化了图形处理和视频编码能力。
Intel的新一代显卡Battlemage将采用了Xe2-HPG架构,预示着性能的大幅提升。这一系列显卡预计将在2024年下半年亮相,并配备有高达32个Xe2核心的旗舰级型号。
回顾Intel GPU的发展史,其实不难看出这是一个从默默无闻到崭露头角、从野心勃勃到全面布局的过程。Intel凭借其深厚的技术积累、敏锐的市场洞察力和不懈的创新精神,在GPU领域逐步奠定了自己的地位。从最初的集成显卡到如今覆盖游戏、数据中心、高性能计算等多个领域全方位的GPU解决方案,Intel的每一步都走的坚定有力。随着技术的不断进步与市场的持续拓展,Intel GPU的发展道路将愈加广阔,为用户带来更加丰富的计算与图形体验。
参考资料:
[1]https://baijiahao.baidu.com/s?id=1679915381574706633
[2]https://www.intel.cn/content/www/cn/zh/products/docs/discrete-gpus/arc/technology/xe-hpg-microarchitecture.html
[3]https://zhuanlan.zhihu.com/p/262684665
[4]https://baijiahao.baidu.com/s?id=1778522272347910852
[5]https://www.jb51.net/hardware/cpu/13324_all.html
[6]https://news.mydrivers.com/1/777/777793.htm
[7]https://www.intel.com/content/www/us/en/products/details/discrete-gpus/iris-xe.html
[8]https://blog.csdn.net/charleslei/article/details/51203243
[9]https://m.163.com/dy/article/HT4QUNK505561CHZ.html
[10]https://www.notebookcheck-cn.com/Intel-UHD-Graphics-Jasper-Lake-32-EU.555227.0.html
[11]http://www.360doc.com/content/22/0623/13/72127748_1037123531.shtml