Tech

NVIDIA推出Windows版TensorRT-LLM大型語言模型！加速Stable Diffusion、RTX Video Super Resolution等生成式AI工具

2023-10-19

生成式AI人工智慧是個人電腦運算技術史上最重要的趨勢之一，促進遊戲、創作、影像、生產力、開發等領域的發展。GeForce RTX和NVIDIA RTX GPU，具備專用的AI處理器Tensor核心，直接為超過一億台Windows PC和工作站帶來生成式AI所需的動能。日前宣布供資料中心使用的TensorRT-LLM，也即將登陸Windows平台，讓生成式AI在PC上的表現快上四倍。TensorRT-LLM能為如Llama 2和Code Llama這一類最新大型語言模型（LLM）加速推論效能。

另外，NVIDIA還發布了協助開發人員加速LLM運作的工具，包括使自訂模型能夠相容於TensorRT-LLM的腳本、TensorRT最佳化的開源模型，以及展示LLM反應速度和品質的開發人員參考專案等。TensorRT加速技術現在亦可用於Automatic1111所發布之熱門Web UI圖形化界面中的Stable Diffusion。與先前最快的執行速度相比，它可為生成式人工智慧擴散模型加速高達兩倍。

此外，RTX Video Super Resolution（VSR）1.5版本同樣包含於最新發布的Game Ready驅動程式中，也將會加入於11月初發布的下一版本NVIDIA Studio驅動程式。

使用TensorRT增強LLM的能力

LLM創造出許多新的提高生產力應用案例，例如參與聊天、彙整文件和網路內容、起草電子郵件和部落格的內容，也是人工智慧新管道和其他軟體的核心，可自動分析資料與生成大量內容。NVIDIA用於加速人工智慧推論的TensorRT-LLM函式庫讓開發人員與終端使用者可以運用LLM的優勢，在支援RTX的Windows PC上運行速度可提高四倍。

在處理批量較大的情況下，這種加速功能將讓用戶在使用更複雜的LLM時獲得更好的體驗，例如利用寫作和編碼助手同時輸出多種自動完成的結果。這能加快處理效能、提高品質，讓用戶可以選擇最好的結果。

將LLM功能與其他技術進行整合之際，TensorRT-LLM加速技術同樣大有裨益，例如在檢索增強生成（RAG）中，LLM搭配向量庫或向量資料庫使用，RAG使得LLM能夠根據特定資料集（例如用戶的電子郵件或網路上的文章）產生回應，以提供更有針對性的答案。

在實際應用中，當有人問LLaMa 2基礎模型「《心靈殺手2（Alan Wake 2）》這款遊戲裡使用了NVIDIA的哪些技術」時，它給出的回答是「遊戲尚未發布」，即很好地說明了這一點。

▲使用RAG與近期載入向量庫中的GeForce新聞報導內容，並在TensorRT-LLM加速技術的協助下，可更快速地生成更準確的答案。

相反，使用RAG與近期載入向量庫中的GeForce新聞報導內容，並連接到同一個Llama 2模型時，不僅能生成正確答案，即NVIDIA DLSS 3.5、NVIDIA Reflex和全光線追蹤，而且在TensorRT-LLM加速技術的協助下，生成答案的速度更快，展現出速度加上熟練度將為用戶提供更聰明的解決方案。TensorRT-LLM將開放在NVIDIA開發者網站下載。

自動加速

Stable Diffusion這一類擴散模型，廣泛被用於想像和創造各式精美、新穎的藝術作品。影像生成需要反覆進行調整運算，可能得經過數百次調整才能獲得完美的輸出結果。當在效能較不足的電腦來進行這項作業時，則可能需增加長達數小時的等待時間。TensorRT藉由層融合、精確校準、核心自動調整及其他功能以加速人工智慧模型，顯著提高推論效率和速度，這使得它成為執行即時應用和資源密集型任務時不可或缺的工具，現在TensorRT又將執行Stable Diffusion的速度提升一倍。

Stable Diffusion with TensorRT加速技術相容於Automatic1111所推出最受用戶歡迎的WebUI圖形化介面，能夠協助用戶更快地反覆進行調整運算、減少等待電腦輸出結果的時間，更迅速地產生出最終影像畫面。在GeForce RTX 4090上，它的運行速度比在搭載Apple M2 Ultra的Mac電腦上的最高執行速度快上七倍。該擴充功能今日已開放下載。

在Stable Diffusion執行管道的TensorRT展示內容中，為開發人員介紹了如何準備擴散模型及使用TensorRT進行加速的參考實作內容。有興趣加速執行擴散處理管道，讓應用程式更飛快進行推論的開發人員，則可以從這方面著手。

影片看起來更細膩銳利

人工智慧所有用戶在PC進行許多日常作業時，可以享受到更好的體驗。人們最常在PC上觀看YouTube、Twitch、Prime Video、Disney+等許多來源的串流影片，而人工智慧與RTX將再次提升這些串流影片的畫質。RTX VSR是人工智慧像素處理領域的一項突破性技術，能夠減少或消除壓縮影片時產生的失真，提高串流影片內容的畫質。它還能讓影像邊緣更銳利，呈現更豐富的細節。RTX VSR 1.5版現已正式發布，其利用最新版本的模型進一步提高影像品質，消除以原始解析度播放內容的失真，並加入支援Turing架構的RTX GPU（包括專業版RTX和GeForce RTX 20系列GPU）。

重新訓練VSR人工智慧模型，有助於它學會準確辨識微妙細節和壓縮失真之間的差異。因此經過人工智慧強化的影像，在放大影像解析度的過程中能更準確地保留細節。更細膩的細節得以更加清晰可見，整體影像看起來更清晰銳利。1.5版的新功能是消除以顯示器原始解析度播放影片所產生的失真。最早發布的版本僅在放大影像解析度時，讓畫面看起來更精美。但現在，舉例而言，將1080p解析度的影片串流到1080p解析度的顯示器上播放時，由於減少了嚴重的失真，整體畫面將顯得更加流暢。

▲RTX VSR消除以原始解析度播放影片所產生的失真。

RTX VSR 1.5版本已加入最新版本的Game Ready驅動程式，今日開放所有RTX用戶下載，同時將在預計於十一月初推出的NVIDIA Studio驅動程式中提供。RTX VSR是NVIDIA軟體、工具、函式庫及SDK裡的一員，如上述提及的其他項目，再加上DLSS、Omniverse、AI Workbench等眾多其他軟體，將共同協助讓玩家享用到將四百多款支援人工智慧的應用程式和遊戲。

人工智慧時代就在我們眼前。RTX將助力推動人工智慧時代發展的每一步。

延伸閱讀：
Apple推出搭載A17 Pro晶片、動作按鈕、USB-C的鈦金屬iPhone 15 Pro｜15 Pro Max
拍照最有徠味的Xiaomi 13旗艦手機開箱動手玩
野外露營車遊最佳供電夥伴 PHILIPS 600W儲能行動電源開箱動手玩
 蘋果推出首批碳中和產品Apple Watch Series 9智慧型手錶