Intel Xe HPG微架構淺析 初露端倪潛力無窮

2022年Intel接連發力,在6月份率先推出了旗下首款高效能桌面級GPU A380,雖然定位入門級,卻也初具規模。而在同年10月再次推出了中高效能的A750/A770桌面級GPU,本次的兩款顯示卡一躍達到了市場主流產品的水準,雖然尚未達到旗艦級發燒效能,但其潛力可見一斑。

下面則為大家簡單解析一下Intel的Xe HPG微架構,到底有何玄妙之處。

1 Xe HPG 微架構淺析

本代Intel 3款顯示卡採用了Xe HPG微架構設計,最初發布的入門級A380顯示卡包含8個Xe核心(Xe Core),即兩個渲染切片(Rendering Slice),下面我們從最小的Xe Core逐步為大家講解。

Intel Xe HPG微架構淺析 初露端倪潛力無窮

Xe Core

每個Xe Core包含16個256位寬的(XVE)向量引擎,它主要負責傳統影象處理計算的任務,且提供大部分運算。

同時由於AI演算法核心幾乎完全圍繞著一系列大型矩陣演算法和累加演算法,所以每個Xe Core還包含16個1024位寬的矩陣引擎(XMX),主要為加速AI運算而生。

為了滿足矩陣、向量和光線追蹤單元的高頻寬需求,每個Xe Core中還構建了一個192KB的大型本地記憶體。它可以根據每個工作負載的需要在L1快取和共享本地記憶體(SLM) 之間動態分配。

Intel Xe HPG微架構淺析 初露端倪潛力無窮

Render slice

綜上所述,每4個微小的Xe Core,將構成一個Render slice(渲染切片)。除此之外,每個Render slice還集成了幾何處理、光柵化、紋理取樣、畫素處理和光線跟蹤等主流圖形技術。

新的光線追蹤單元架構可為DirectX Raytracing和Vulkan RT提供全面支援,透過加速光線遍歷、光線盒交叉點和光線基元交叉點實現逼真的閃電和視覺保真度。

Intel Xe HPG微架構淺析 初露端倪潛力無窮

Xe HPG

Xe HPG架構最大的特點就是出色的靈活性,Intel可透過疊加渲染切片的方法來構建不同核心,目前最少為2個(8 Xe Core),最大可以做到8個(32 Xe Core),A380為兩個,而A770則為8個Render slice。

透過此方法,可實現GPU配置從低功耗解決方案擴充套件到旗艦級的遊戲引擎。每個Render slice透過大型L2快取的高頻寬記憶體交換矩陣,能夠靈活地擴充套件到強大的多切片配置,並連線到獨立的GPU基礎架構。

具有連線每個切片的大型二級快取的高頻寬記憶體交換矩陣能夠靈活地擴充套件到強大的多切片配置,並連線到獨立的 GPU 基礎架構。

2 Intel Xe HPG微架構 其他特性

XeSS 超級取樣

針對遊戲幀數最佳化方面,目前NVIDIA擁有DLSS、NIS技術,AMD擁有FSR、RSR技術,這幾種技術旨在降低渲染解析度,輸出高幀率畫面,但原理有所不同。

而Intel的XeSS超級取樣技術,同樣在未釋出時就引起了玩家的高度關注。

Intel Xe HPG微架構淺析 初露端倪潛力無窮

它是由機器學習透過相鄰畫素以及運動補償先前幀重建子畫素細節,可以幫助合成非常接近於原生超高解析度渲染質量的影象。

整體演算法採用了人工智慧演算法和硬體加速,以較低解析度渲染所要求的效能水平,提高輸出解析度,提供超高畫質視覺效果,效能可提高2倍。

根據官方的描述,XeSS採用了與DLSS相似的時間演算法,它類似於用相機拍攝長曝光,捕捉的時間越長,收集到的細節也就越多。

Intel Xe HPG微架構淺析 初露端倪潛力無窮

在多個不同幀之間,AI會透過運動向量來跟蹤物件並分析資料,並決定如何將它們結合在一起。XeSS會透過中間幀和前後幀,收集超高畫素後,再經由AI網路處理,輸出相對較小且清晰的畫面。

和時間演算法相比,NIS、FSR、RSR這類空間縮放演算法則只能取一個畫素點附近的低解析度影象進行取樣,然後縮放銳化。但銳化並不能從低解析度影象中建立額外的細節,只能提高低解析度資訊中已經存在的細節對比度。

Intel Xe HPG微架構淺析 初露端倪潛力無窮

令人驚喜的是,XeSS是採用開放標準實現的。換句話說,在遊戲廠商的支援下,它可以適配多家GPU廣泛使用。當然,XeSS演算法在Xe GPU的DP4a和XMX硬體功能下,會呈現更好的效能效果。

Deep Link

Deep Link可充分利用Intel CPU和GPU協同工作,完成如影片轉碼,直播推流等任務,編解碼優勢顯著。Deep Link並不是某種具象技術,而是多項技術的總稱,下面我們來分別講解。

Intel Xe HPG微架構淺析 初露端倪潛力無窮

Stream Assist

Stream Assist技術主要針對遊戲主播,或者有直播需求的使用者。在開啟直播時,Stream Assist可將直播負載分載到系統中的輔助引擎,從而最佳化遊戲效能。效能更強的獨顯則依舊負責遊戲運算,以獲得最高的幀率和協同工作效率。

另外集顯負責直播的同時,還負責捕獲任務(如虛擬綠屏、自動構圖、清晰直播和自動捕捉遊戲精彩時刻)。

Intel Xe HPG微架構淺析 初露端倪潛力無窮

需要注意的是,桌上型電腦如果想使用Stream Assist技術,前提是與12代酷睿處理器或代次更高的處理器搭配使用,另外需要帶有整合顯示卡的處理器,字尾帶有“F”的則無法使用。

超級編碼、超級計算

超級編碼可以讓Intel平臺上並行工作的多個媒體引擎(適用於看重工作效率的選定應用程式),加速編碼。從而讓使用者花更少的時間等待專案輸出,最大限度地發揮創作動力。

而超級計算則需要用到XMX引擎,它可以利用Intel平臺上的多個計算引擎和 AI 加速器(適用於看重工作效率的選定應用程式),加速內容創作。

Intel Xe HPG微架構淺析 初露端倪潛力無窮

同樣,這兩項技術均需要搭載12代酷睿處理器或代次更高的處理器搭配使用,另外需要帶有整合顯示卡的處理器。

這裡著重說一下超級編碼,它可以使用CPU和GPU上所有可用的媒體編碼引擎,某種意義上說,可以看做雙顯示卡共同編碼。

我們此前的編碼工作,無論使用CPU或者GPU,都是單執行緒工作。而Intel超級編碼則是透過OneVPL這個跨平臺的開放性框架,讓CPU和GPU協同工作。

Intel Xe HPG微架構淺析 初露端倪潛力無窮

當超級編碼開始工作時,一組組解碼後的原始幀透過特定的API函式被交給oneVPL,進而按組被分配到不同的多媒體引擎上,複製到相應的記憶體中快取起來。

不論每一組有多少幀,相應的集顯或者獨顯的多媒體引擎會開始按照設定的格式編碼。而OneVPL會完成後續的打包工作,把編碼後的幀一組組拼接成最終影片來輸出。這種並行處理,編碼效率比單一顯示卡更加顯著。

高階Xe媒體引擎

高階Xe媒體引擎帶有專門AI加速、寬編解碼器支援,包含H。264/AVC、H。265/HEVC、VP9以及AV1。並且得益於強大的媒體引擎,它也是全球首款支援AV1硬體編碼的GPU。與軟體編碼相比,編碼速度提高了50倍。

Intel Xe HPG微架構淺析 初露端倪潛力無窮

AV1與H。265編解碼誰才是未來一直廣受爭議,從壓縮效率來講,AV1比最為常見的H。264編解碼器高出50%,比H。265高30%。換句話說,對於相同的影象質量,AV1可以比HEVC節省多達30%的檔案大小。

當然,如此強大的AV1也需要更強大的硬體來解碼,即便如此,它也比HEVC需要更長的時間來解碼。並且HEVC已經由AMD、NVIDIA、Intel、Apple、高通等公司的GPU/CPU支援,而AV1目前的支援是有限的。

最重要的是,AV1是完全開放沒有任何授權費用的編解碼器。雖然目前還沒有被廣泛採用,但行業內使用者對其前景非常認可。

目前,包括FFMPEG、Handbrake、Adobe和XSplit都已集成了對銳炫AV1的支援。

結語:

作為Intel第一代高效能獨顯架構,Xe HPG微架構從硬體水準來說,顯然已經達到預期,目前欠缺的只是軟體方面的最佳化。根據Intel官方說明,剛剛釋出的A770已經達到了最大的8個Render Slice成為完全體,效能的提升也是有目共睹。

當然一代架構並不能說明太多問題,我們還要看後續以Xe HPG微架構為藍本的迭代升級效果如何,不過無論怎樣,在NVIDIA和AMD兩強相爭多年的格局下,Intel重回高效能GPU市場,無疑會在未來幾年內對市場格局帶來巨大沖擊。

(8085837)