Tech

不讓ChatGPT專美於前！Google隆重推出最強大的AI模型Gemini

2023-12-10

每一次的技術變革，都是推進科學探索、加速人類成長與改善生活的機會。Google暨Alphabet執行長Sundar Pichai相信Google現在目睹AI帶來的轉變，將會是Google一生中最深遠的變革，遠大於之前行動裝置或網路所帶來的轉變。AI有潛力為世界上的每一個人創造各種機會，從平凡到不凡。它將會大舉推進創新和經濟的進步，並以前所未有的規模驅動知識、學習、創造與生產力。而讓Sundar Pichai感到興奮的，是有機會讓AI為世界上的每個人帶來幫助。

Google展開以AI為優先的旅程已經將近第八個年頭，但是進程的速度才正要加快：數以百萬計的人每天都在Google的各種產品裡使用生成式AI，做到一年前做不到的事情，無論是替更複雜的問題尋找答案，或是用新的工具來協作和創造。與此同時，開發人員也正在使用Google的模型和基礎架構來打造新的生成式AI應用程式，而世界各地的新創和企業也透過Google的AI工具持續成長。

這樣的動能令人驚豔，但是，Google其實才正要開始探索這段旅程的各種可能性。

Google正以大膽且負責任的方式展開這項任務。這表示Google要有野心去研究，同時追求能力，可以為人類和Google的社會帶來極大益處，同時建立保障措施，並且與政府和專家合作，來應對隨著AI能力提高所帶來的風險。在AI原則的指導下，Google會繼續投資最好的工具、基礎模型和基礎設施，並將應用到Google和別人的產品。

現在，Google邁出下一步、繼續和Gemini的旅程；這是Google目前為止最強大、最通用的模型，在很多領先的基準測試裡都展現最先進的性能。Google的第一個版本、Gemini 1.0，有依照不同模型的大小進行最佳化：Ultra、Pro和Nano。這些是Gemini時代的第一批模型，也是Google第一次實現今年稍早成立Google DeepMind的願景。這些模型的新時代，是Google公司在科學和工程上最大的努力。Sundar Pichai真的對未來感到興奮，也期待Gemini會為世界各地的人們帶來的機會。

Gemini示範影片

Google Demind執行長Demis Hassabis，代表Gemini開發團隊分享

就跟Sundar Pichai很多鑽研AI的同事一樣，AI也一直都是Sundar Pichai工作的重心。從Sundar Pichai青少年的時候替電腦遊戲設計AI程式開始，一直到Sundar Pichai成為神經科學的研究者，在不斷地探討人類大腦運作的過程中，Sundar Pichai始終相信，如果能打造出更聰明的機器、並且加以善用，Google可以造福人類的方式，將會難以想像。

Google在Google DeepMind持續致力以負責任的方式，透過人工智慧AI為世界賦能。長久以來，Google的願景是根據人類理解世界、與世界互動的方式，建立新一代的AI模型，讓AI不再只是一個聰明的軟體，而是像專業的合作夥伴或是助手，變得更加實用、而且符合直覺。

如今，Google推出Google目前最強大、通用性最高的模型Gemini，也讓Google離這個願景更近了一步。Gemini是Google跨部門大型合作的成果，包括Google Research團隊的成員也參與其中。從一開始，Google就把Gemini設計為多模態的模式，讓Gemini能夠通用化，並流暢地理解、操作和結合包括文字、圖像、音訊、視訊和程式碼在內的不同類型資訊。Gemini也是Google至今推出最有彈性的模型，從資料中心到行動裝置的各種平台上，都能高效運行。而開發人員和企業客戶在使用AI構建和拓展業務的時候，Gemini的先進功能可以為他們帶來極大的幫助。

Google已經針對Gemini 1.0版本的模型進行了最佳化，並推出共三種不同的規模：Gemini Ultra：規模最大、功能最強大的模型，專為高度複雜的任務而設計。Gemini Pro：最適合擴展、橫跨各種類型的任務。Gemini Nano：處理裝置上的任務最有效率的模型。

最先進的性能

Google不斷對Gemini模型進行嚴格的測試，評估Gemini在處理各種任務上的表現。從理解自然圖像、音訊和視訊，到數學推理；Google發現Gemini Ultra在大型語言模型（LLM）研究和開發中廣泛採用的32個學術基準測試中，有30個取得了超越了當前的最先進基準的效能。

Google透過32個在研究和開發大型語言模型（LLM）的時候會採用的學術基準，去測試Gemini Ultra從理解自然圖像、音訊和視訊到數學推理的表現，而從其中30個測試基準得到的結果，都超越目前最先進的模型。

在MMLU（大規模多任務語言理解；Massive Multitask Language Understanding）的測試裡，結合了包括數學、物理、歷史、法律、醫學和倫理學等57個主題，去測試模型對世界的理解還有解決問題的能力；而Gemini Ultra以90.04%的高得分，成為第一個在MMLU測試裡超越人類專家的模型。

Google新的MMLU衡量方法，讓Gemini能夠利用它的推理能力在回答難題前更仔細地思考，相比僅使用第一印象的評估方式有顯著進化。

Google採用MMLU當作基準測試的方法，讓Gemini能夠利用它的推理能力在回答難題前更仔細地思考，比起Gemini第一時間的反應有顯著的進步。

▲Gemini在文字和程式碼等多個測試面向中，超越了先進性能的基準。

新的MMMU基準測試包括了多模態的任務，跨越不同的領域，要完成的話需要刻意的去推理，而Gemini Ultra也在MMMU的基準測試裡得到59.4%的領先分數。

光學字元識別（Object Character Recognition, CR）系統，會協助模型從影像擷取出文字訊息，再近一步處理；但是在Google的圖像基準測試裡，Gemini Ultra在沒有使用OCR的情況下，還超越了先前的最先進模型。這些基準測試，突顯出Gemini原生多模態的特性，也初步展現了Gemini具備更複雜的推理能力。

▲Gemini在多項多模態基準測試中，展現出超越先進基準的性能。

新一代功能

到目前為止，打造多模態模型的標準方法，是針對不同的模態去訓練個別的元件，再把元件組合在一起，大致模擬出一部分的多模態功能。這些模型在執行某些任務的時候會表現很好，例如描述圖像，但在處理比較概念性或是比較複雜的推理時，就會比較有困難。

Google把Gemini設計成原生就是多模態的模型，一開始就在不同的模態上進行預先的訓練。接著，Google透過額外的多模態資料進行微調，進一步提升效能。這樣可以幫助Gemini從一開始就能順暢地理解和推理各種輸入的資訊，效能遠比現有的多模態模型來得好，並幾乎在所有的領域都展現出最先進的能力。

成熟的推理能力

Gemini 1.0成熟的多模態推理能力，有助於理解複雜的書面和視覺訊息，也因此使得Gemini具備了獨特的技能，可以從大量資料中整理出難以理解的知識。Gemini在閱讀、篩選和理解資訊方面的能力相當令人驚豔，能夠從數十萬份文件中擷取出觀點，能夠更快速地幫助許多領域帶來新的突破，從科學到金融都是。

理解文字、圖像、音訊等更多資訊

Gemini 1.0所受的訓練，是同時識別和理解文字、圖像和音訊等資訊，所以能進一步的理解更細微的資訊，並回答涉及複雜主題的問題。這也讓Gemini在解釋、推理像是數學和物理這樣複雜的問題上，表現特別出色。

進階的程式設計能力

Google第一個版本的Gemini能夠理解、解釋世界上最常用的程式語言，像是Python、Java、C++和Go，並且生成高品質的程式碼。能夠跨語言工作、解讀複雜資訊的能力，更讓Gemini成為世界數一數二的程式設計基礎模型。Gemini Ultra在幾個程式設計的基準測試中表現出色，包括程式設計業界衡量成效標準的HumanEval測試，以及Google自己的截留（held-out）驗證資料集，用的是程式設計者自己生成的來源，而不是來自網路的資訊。Gemini也可以當作引擎，來驅動更進階的程式生成系統。兩年前，Google推出了AlphaCode，是第一個在程式設計競賽當中能夠達到有競爭實力的AI程式碼生成系統。

透過一個專門版本的Gemini，Google建立了更進階的程式碼生成系統AlphaCode 2。這個系統除了擅長程式設計，還能處理和數學與理論電腦科學相關、複雜的競技程式設計的問題。

當與AlphaCode在相同的平台上進行評估時，AlphaCode 2展現出大幅度的進步，解決的問題數量幾乎是兩倍。Google評估AlphaCode 2的表現超過85%的參賽者，相較於AlphaCode只贏過50%左右的參賽者，有所提升。而且，如果程式設計師和AlphaCode 2協作，協助定義程式碼需要遵循的特定屬性時，表現甚至更好。

Google迫不及待看到程式設計師更多去使用性能強大的AI模型作為協作工具，讓這些模型幫助他們解讀問題、提出程式設計，並且在實作上進行協助，可以更快地發表應用程式、設計出更好的服務。

更可靠、更具可擴充性和更高效

Google透過AI最佳化的基礎架構，有規模的去訓練Gemini 1.0，而這個架構使用的是Google自行設計的Tensor Processing Unit（TPU）v4及v5e；而Google也把Gemini設計成最可靠、擴充能力最強的模型，同時把服務的效率提到最高。

和先前性能較低的小型模型相比，Gemini在TPU上執行的速度甚至高出許多。TPU是Google專門打造的AI加速器，運用在Google搜尋、YouTube、Gmail、Google地圖、Google Play和Android等採用AI技術的產品當中，服務數十億名使用者；此外，Gemini也讓全球許多企業能以經濟實惠的方式大規模的訓練AI模型。

今天，Google也宣布推出Cloud TPU v5p，這是Google到目前為止性能最佳、效率最高、擴充性最強的TPU系統，專為訓練頂尖AI模型所設計。新一代的TPU可以加快Gemini的發展，幫助開發人員和企業客戶更快的訓練大規模的生成式AI模型，因此能更早推出全新的產品和功能給客戶。

▲Google資料中心的一排Cloud TPU v5p AI加速器超級電腦。

安全建構，責任至上

Google致力以大膽且負責任的態度，推動先進的AI技術。在建構Gemini的過程中，除了遵循Google AI準則和Google針對各項產品嚴謹的安全政策，Google也考量到了Gemini多模態的能力，新增了相應防護措施，並在開發作業的每一個階段，考量潛在的風險，同時盡可能去測試、降低風險。

在截至目前Google所有的AI模型中，Gemini在偏誤、資料毒性（toxicity）等方面，都接受了最全面的安全性評估。在網路攻擊、說服能力和自主性等可能存在風險的領域，Google都進行了最新的研究，也運用Google Research團隊領先業界的對抗測試技巧，在部署Gemini前就率先找出關鍵的安全問題。

為了辨識出內部測試方法的盲點，Google也和許多不同背景的外部專家及夥伴合作，運用各式各樣的問題對模型進行壓力測試。

為了診斷模型的內容安全性，並確保輸出的內容符合Google的政策，Google在Gemini的各個訓練階段使用了不同的基準測試，包括真實有害指令提示（Real Toxicity Prompts），是由Allen Institute of AI的專家開發，從網路上集合了有害程度不一的10萬個指令提示。有關於這項工作的更多細節，Google將在未來逐步分享。

為限制AI造成的危害，Google打造專用的安全分類機制，可用來辨識、標籤及篩選內容，像是有關暴力或是負面刻板印象的內容。另外，搭配健全的篩選機制，Google能夠透過這種分層處理的方式，確保Gemini對每個人來說都更具安全性與包容性。而Google也會持續解決Google所知模型既有的挑戰，包括事實性、錨定、歸因和實證等領域。

在開發、部署AI模型的路上，堅持負責任並維護安全性，永遠都會是Google的核心要務。這樣長期的承諾需要同心協力，所以Google和業界及整個生態體系合作，希望能定義出有關安全方面的基準與最佳做法，並且和機構一起建立安全基準，包括MLCommons、Frontier Model Forum和他們設立的AI Safety Fund基金，還有Google的AI安全架構Secure AI Framework（SAIF）。Google設計SAIF的宗旨，就是希望能夠幫助公私部門降低AI系統的安全風險。同時，Google未來繼續開發Gemini的過程中，也會持續和全球的研究人員、政府及公民團體保持合作。

讓更多人能夠使用Gemini

Gemini 1.0將在Google的眾多產品與平台推出：

Gemini Pro導入Google產品

Google將在Google產品中導入Gemini，讓數十億人都能使用。

從今天起，Bard將使用專門調整的Gemini Pro模型，帶來更進階的邏輯推理、規劃與理解等能力。這將是Bard自推出以來，最大幅度的升級更新。

採用Gemini Pro模型的Bard將先以英文版本在超過170多個國家和地區提供使用，並預計在不久後開放其他模態應用，並持續拓展對於不同語言與地區的支援。

另外，Google也將把Gemini帶到Pixel裝置上。Pixel 8 Pro是第一款能夠運行Gemini Nano的智慧型手機，並透過Gemini支援全新功能，像是在錄音工具中提供摘要服務，以及Gboard中的智慧回覆。其中，Gboard智慧回覆將可以率先在WhatsApp使用，並將在明年持續拓展至更多即時通訊應用程式。

接下來幾個月，Gemini將整合至Google的更多核心產品與服務中，包括Google搜尋、廣告、Chrome瀏覽器以及Duet AI。

Google也開始嘗試在Google搜尋裡測試使用Gemini，可以讓Google生成式搜尋體驗（Search Generative Experience）的速度更快，在美國英文介面上的延遲會降低40%，品質也會提高。

用Gemini進行開發

從今年12/13開始，開發人員和企業客戶將可以透過Google AI Studio或Google Cloud Vertex AI中的Gemini API使用Gemini Pro。Google AI Studio是免付費的網頁型開發者工具，只要使用API金鑰，就能快速建立原型並發布應用程式。到了需要全代管AI平台的時候，則可以選擇使用Vertex AI對Gemini進行自訂設定，可以全權掌控資料，同時利用Google Cloud提供的額外功能，來維護企業的安全、保全、隱私、資料管理，並且符合規定。Android開發人員也可以透過AICore，在建構作業中運用Gemini Nano。以處理裝置端的任務而言，Gemini Nano是Google目前最有效率的模型，而AICore是適用於Android 14的最新系統功能，會率先在Pixel 8 Pro上推出。歡迎登記使用AICore的提前預覽版。

Gemini Ultra即將推出

在Gemini Ultra方面，Google目前仍在執行全方位的信任和安全檢查，例如透過Google信任的外部團隊進行攻擊演練，並透過專門調整的機制與人工回饋的強化式學習（Reinforcement Learning From Human Feedback, Lhf），在正式發布之前持續改良模型。

在調整的過程中，Google會開放特定客戶、開發人員、合作夥伴及安全專家使用Gemini Ultra，透過這樣的早期實驗收集意見回饋，然後在明年年初讓更多開發人員及企業客戶使用。明年年初，Google也會推出Bard Advanced，這是一個全新且最為先進的AI體驗，讓你能夠體驗Google最好的模型和效能，屆時就會是Gemini Ultra。

開啟Gemini世代：解鎖未來創新

在AI發展的進程中，Gemini是重大的里程碑；在Google持續快速創新、以負責任的方式提升模型效能的同時，Gemini為Google在AI的進程開啟了全新的時代。

Google在Gemini上面已經有長足的進步，同時也努力讓未來的版本能有更好的能力，包括提升規劃與記憶的功能，並且擴大模型參考的資訊範圍，提供更好的回應。

在負責任的AI幫助下，世界會有許多美好的可能，讓Google感到很興奮：這樣創新的未來會激發創意、拓展知識、促進科學進步，還能改變全球數十億人的生活和工作。

文章轉載自

延伸閱讀：
Apple推出搭載A17 Pro晶片、動作按鈕、USB-C的鈦金屬iPhone 15 Pro｜15 Pro Max
Google Pixel 8 Pro搭載Gemini Nano模型成為首款內建AI的智慧型手機
野外露營車遊最佳供電夥伴 PHILIPS 600W儲能行動電源開箱動手玩
 蘋果推出首批碳中和產品Apple Watch Series 9智慧型手錶