NVIDIA讓Meta Llama 3大型語言模型可在雲端個人電腦的NVIDIA GPU上運行

【新聞照片】全面開放:NVIDIA-加速-Meta-Llama-3-上的推論

NVIDIA於4/19宣布對其所有平台進行最佳化,以加速最新一代大型語言模型(LLM)Meta Llama 3。此開放式模型與NVIDIA加速運算相結合,使開發人員、研究人員和企業能夠在各種應用中負責任地進行創新。在NVIDIA AI上訓練Meta的工程師們使用了一個搭載24,576個NVIDIA H100 Tensor核心GPU的電腦叢集,與NVIDIA Quantum-2 InfiniBand網路連接,對Llama 3進行了訓練。在NVIDIA的支援下,Meta為其旗艦大型語言模型調整了網路、軟體和模型架構。

為了進一步推進生成式AI人工智慧發展,Meta最近說明了將其基礎設施擴展到35萬個H100 GPU的計劃。讓Llama 3發揮作用在NVIDIA GPU上加速的Llama 3版本,已經可以在雲端、資料中心、邊緣和個人電腦上使用。開發者可以從瀏覽器上嘗試在ai.nvidia.com上使用Llama 3。它被打包為NVIDIA NIM微服務,具有標準的應用程式介面,可以在任何地方部署。

企業可以使用NVIDIA NeMo根據其資料微調Llama 3,NVIDIA NeMo是一個適用於大型語言模型的開源框架,並為安全、受到支援的NVIDIA AI Enterprise平台的一部分。客製化模型可以使用NVIDIA TensorRT-LLM進行推論最佳化,並使用NVIDIA Triton推論伺服器進行部署。將Llama 3帶入設備和個人電腦上Llama 3也可以在NVIDIA Jetson Orin上運行,用於機器人和邊緣運算設備,創建像Jetson AI實驗室中互動式代理人一樣的應用。

此外,適用於工作站和個人電腦的NVIDIA RTX和GeForce RTX GPU,可以加速Llama 3的推論速度。這些系統為開發者提供了全球超過一億個NVIDIA加速系統的目標。使用Llama 3獲得最佳效能為聊天機器人部署大型語言模型時,最佳狀態是在低延遲、良好的讀取速度和最佳的GPU使用之間取得平衡,以降低成本。這樣的服務需要以大約每秒10個詞元、使用者閱讀速度兩倍左右的速度來傳送詞元,這些詞元大致相當於大型語言模型的詞彙。

應用這些指標,在使用具有700億個參數的Llama 3版本的初始測試中,單一NVIDIA H200 Tensor核心GPU每秒可產生約3,000個詞元,足以同時為約300個使用者提供服務。這意味著一台配備8個H200 GPU的NVIDIA HGX伺服器每秒可提供24,000個詞元,並透過同時支援2,400多個使用者來進一步最佳化成本。

針對邊緣設備,具備80億個參數的Llama 3版本在Jetson AGX Orin上每秒最多可生成40個詞元,在Jetson Orin Nano上則每秒可生成15個詞元。推動社群模型作為積極的開源貢獻者,NVIDIA致力於最佳化社群軟體,幫助使用者應對最棘手的挑戰。開源模型還可以提高AI的透明度,讓使用者廣泛分享AI安全性和彈性方面的工作。

延伸閱讀:
皮衣哥兆男黃仁勳領軍的NVIDIA推出Blackwell平台迎接AI運算新時代
[USB-C宇宙] iPhone 15 Pro × SanDisk Extreme Portable SSD 行動固態硬碟 開箱動手玩

vivo X100 Pro超強蔡司長焦微距攝影手機開箱動手玩
Dyson推出創新洗地科技WashG1雙驅四刷無線洗地機