發布日期 2023 年 12 月 12 日 8:00 | 作者 品玩 |
Google 大語言模型 Gemini 1.0 一問世就技驚四座。表現方面,無論文字、圖像、音訊理解,或 57 種領域文本及數學問題推理,幾乎都超過自然語言界霸主 GPT-4 , Google Gemini 官網還有一句話是「Gemini 是第一個 MMLU (大量多任務語言理解)超過人類專家的模型」。
為什麼 Google Gemini 這麼厲害?其實最核心原因來自訓練 Google Gemini 兩種伺服器端推理晶片 TPU v4 和 TPU v5e ,雖然從結果看, TPU 跟 GPU 都用於訓練和推理,但兩方「解題思路」相距甚遠。
Google 在 TPU v4 採用光學迴路開關( optical circuit switch , OCS ),顧名思義,就是伺服器群組以光傳遞訊息。上方是注入模組,使用 850 奈米雷射二極體,發射 850 奈米的顯示光。中間是用來分割或合併光的二向色分光器;下方是用來反射的 2D MEMS 陣列;左右兩端是用來投射 O 波段訊號光的 2D 透鏡陣列和光纖準直器陣列。
傳統伺服器群組用的是銅線導電,透過規定時間內銅線上電子傳輸的數量來傳遞訊息,但是任何介質、就算是不計成本的採用金或銀,依然有電阻的存在,必然會減慢電子在這之間傳遞的速度。沒有任何的光電轉換環節,全都是由光來運送訊息,沒有中間商賺差價。
我們不妨比較一下市面上最常見,也是 Open AI 目前的解決方案,輝達 H100 所使用的 Infiniband 技術。這個技術使用交換結構拓樸。所有傳輸都在通道配接器處開始或結束。每個處理器都包含一個主機通道配接器( HCA ),每個週邊都有一個目標通道配接器( TCA )。
說的直白一點, H100 就跟過去的驛站差不多。驛站會取代權利中心接收訊息,讓管理者可以直接去驛站來查看自己未來的任務。但 TPU v4 則是直接燒狼煙,不僅快,而且跳過中間所有的消息轉達設施,一步到位。根據 Google 的說法, OCS 系統和底層光學組件成本價格不到 TPU v4 系統成本的 5%,其功耗不到整個系統的 5%,又便宜又好用。
說到這,不得不提一個 Google 創造的概念,叫做 MFU 。全稱為模型 FLOPs 利用率( Model FLOPs Utilization ),這是一個不同於其他衡量計算利用率的方法,不包含任何反向傳遞期間的作業,這意味著 MFU 衡量的效率直接轉換為端到端的訓練速度。也就是說, MFU 最大上限一定是 100%,同時數字越高代表訓練速度越快。
Google 想透過 MFU 這個概念,來評估 TPU v4 的負載能力以及運作效率,以此得出到底可以給 Google Gemini 多少強度。對一系列純解碼器變壓器變壓器語言模型(下圖以 GPT 為例)配置進行了深入的基準測試,這些配置的參數從數十億到數萬億不等。測試規定,模型大小(參數單位十億)是晶片數的二分之一。