Google Gemma｜GPT-4閉源惹議！Google推開源模型Gemma，為AI競爭添新變數，扭轉OpenAI獨大局面？-方展策

01/03/2024

Google Gemma｜GPT-4閉源惹議！Google推開源模型Gemma，為AI競爭添新變數，扭轉OpenAI獨大局面？

#Smart Living #OpenAI #GPT-3.5 #GPT-4 #開源 #閉源 #Google #Gemma #智慧生活

　　OpenAI雖有「Open」之名，但釋出的GPT-3.5與GPT-4卻非開放源碼（Open Source）模型，故常被人詬病違背初心。隨著AI業界要求開源的呼聲愈來愈高，科技巨頭開始意識到開源模型大有可為。繼推出閉源模型Gemini後，Google剛發布旗下首個開源模型Gemma，擺出同時搶攻閉源、開源AI領域的陣勢。對生成式AI競爭上陷於劣勢的Google而言，此舉到底是藥石亂投的爛招、還是對症下藥的奇策呢？

Gemma模型可在AI PC運行

　　2024年2月15日，Google發表新版本大型語言模型Gemini 1.5 Pro，全力挑戰OpenAI GPT-4。相隔不到一個星期後，該公司同月21日宣布推出首個輕量級開源模型Gemma，採用與Gemini相同的技術建構而成，適用於AI聊天或內容摘要等較小的任務。

　　該模型設有兩個版本：「Gemma 7B」基於70億項內容參數進行數據訓練，適合在Google Cloud雲端平台或大型伺服器上運行；「Gemma 2B」則使用20億項參數，能夠直接在桌面電腦、筆記簿型上運行。

　　Gemma的參數量與複雜性當然遠遠比不上旗艦級模型Gemini，惟在速度與成本上卻擁有較大優勢。Google宣稱，該模型在18項通用語言理解、推理、數學、編程等關鍵基準測試中，有11項分數超越參數量更大的Meta開源模型Llama-2。

Google已跟NVIDIA合作，針對Gemma模型在NVIDIA GPU上的運算效能作出優化，務求從雲端伺服器到搭載NVIDIA顯示卡的AI PC上運行Gemma，均可獲得最佳表現。（圖片來源：Google官方網誌）

根據Google提供的資料，Gemma模型在推理、數學和編程的關鍵基準測試中，其效能均優Meta Llama-2。（圖片來源：Google官方網誌）

Google為Gemma提供了AI開發工具包「Responsible Generative AI Toolkit」，內含模型偵錯工具，可協助開發者調查Gemma的行為並糾正問題。（圖片來源：Freepik圖庫）

AI模型開源與閉源爭論不休

　　事實上，AI業界早在2023年已出現「開源與閉源」的爭論。OpenAI將GPT-4定位為非開放的AI模型，被科技社群批評為不夠「Open」之舉，破壞該公司作為一家科研機構的創始精神。有鑑於此，Meta遂以開源姿態進軍生成式AI領域，釋出開源模型Llama系列，因而贏得不少好掌聲。

　　OpenAI GPT-4或Google Gemini這類閉源模型，不會公開程式碼，開發者要繳付月費，始可透過API存取模型來進行開發。至於開源模型Gemma，則容許開發者免費下載程式碼，再自行編程，創建屬於自己的AI模型，並允許商用授權。與Llama-2的不同之處是，Meta加入了特別授權條款，限制其競爭對手使用該模型，而Gemma則完全沒有類似的商業限制。

Google開源與閉源兩面押注

　　Google成為首家同時擁有開源與閉源模型的AI公司，意味著在開源與閉源兩面押注。其實，該公司單靠Gemini Advanced的訂閱費，已可穩賺大量收入，為甚麼要加入開源行列呢？主要理由是，OpenAI現已成為生成式AI市場的領頭羊，Google明白到自己處於落後位置，如採用同樣招數跟對方正面硬撼，絕對沒有勝算，所以決定出手攪亂市場遊戲規則：破壞既有獲利模式，迫使對手在有利於自己的領域一決勝負。

　　目前OpenAI主要依靠GPT API授權費和ChatGPT Plus訂閱費來獲取收入，於是Google索性祭出可免收費使用的開源模型Gemma。此後，那些每月付費使用GPT API的開發商可以選擇使用免費的Gemma，創建自己的AI模型在自家電腦上運行，這樣不但成本更低，還可以免去商業機密外洩的風險。如此一來，OpenAI的商業模式可能會難以持續下去。

複製Android策略攻開源AI

　　倘若此奇策成功的話，未來AI市場競爭關鍵將落在生態系統上，這正正是Google的強項。正如蘋果（Apple）於2007年1月發表初代iPhone一鳴驚人，成功開創其智能手機霸業。當時Google自知手機硬件設計能力遠遜對手，遂決定另闢蹊徑與Apple較量。

　　2007年11月，Google發表開源手機系統《Android》，不僅把Gmail、Google Search、Google Maps、Google Docs等雲端應用整合其中，更鼓勵開發者基於《Android》開發各種App，結果吸引蘋果以外的手機廠商樂意採用。之後Google透過出售搜尋結果頁面、手機版網站和App上的廣告位，賺取大量廣告收益。

　　如今Google嘗試複製Android的成功策略，將Gemma開源模型當作是《Android》開源系統，開放給AI開發者免費使用，藉此激發眾人創意，開發各種用途的AI模型和工具，並可整合到Google雲端應用，甚至是Android手機；只要基於Gemma開發的AI工具愈多，應用層面愈廣，便可以吸引愈多用戶和廠商加入，逐漸成長為完整的生態圈；然後，再藉由生態圈的通路賣廣告，賺回模型開發成本，帶來新的收入來源。

OpenAI、Meta受到一定衝擊

　　假如AI競賽演變成比拼生態圈的整合能力，沒有完整生態通路的OpenAI幾可說是處於劣勢。OpenAI當然明白本身的不足，因此才會在2024年1月啟動GPT Store，嘗試建構自家AI軟件生態圈，惟遠水卻難救近火。若果OpenAI要在短時間內作出抗衡，唯有進一步依附於微軟（Microsoft），通過其《Windows》與《Microsoft 365》生態圈進行反擊，但這樣只會增強微軟的AI業務，對OpenAI未必有益。

　　另一邊廂，Meta在2023年率先推出開源模型Llama，成為AI開源社群的首選開發平台。現在有一個更強勁的開源模型Gemma出現了，究竟有幾多開發者會蟬過別枝，目前尚難以判斷，但無論如何都會對Meta造成一定的打擊。由是觀之，Google推出Gemma，實不失為一箭雙鵰的妙著。

AI假照片 | 有圖未必有真相？AI生成假圖觸發不實資訊傳播危機，以數碼浮水印作防偽標記是否最佳解決方法？

#創科

#Smart Living

#Google

#AI

#OpenAI

#不實資訊

#假圖片

#假圖

#數碼浮水印

#生成式AI

#智慧生活

　　俗語說：「有圖有真相」，但隨著生成式AI愈來愈流行，用戶可以輕鬆地利用AI工具產製以假亂真的圖片後，此說法已開始站不住腳了！為降低假圖片、假消息等不良資訊的傳播風險，Google、OpenAI等科技巨頭已先後替AI生成內容加入數碼浮水印，幫助用戶確認圖片是否為AI產製。數碼浮水印是甚麼呢？它是否真的可以有效地幫助人們辨識圖片真偽？

建立內容憑證緩解AI假圖亂象

　　2023年3月，網上瘋傳天主教教宗方濟各身穿白色羽絨外套、戴上墨鏡的圖片，讓人誤以為教宗想改變形象，但這其實是網民使用AI製圖工具Midjourney生成的影像，外界稱之為全球首宗大規模AI假消息傳播事件。2024年1月，詐騙集團利用深偽（Deepfake）技術冒充一家跨國企業的財務長，透過視訊會議要求香港員工將錢轉入指定的銀行帳戶，騙取約2億港元（2,600萬美元），這是香港首起深偽詐騙案件。

網民Pablo Xavier利用Midjourney產生教宗方濟各身穿白色羽絨外套的照片，一度在社交媒體上瘋傳。（相片來源：Facebook@Guerrero Art）

　　為遏制上述亂象，AI科技巨頭與影像產業公司遂著手制定內容憑證標準，藉由數碼浮水印技術，在AI生成作品中加入一些人眼不可見的資訊，惟用戶可以透過特殊工具識別該作品是否由AI產製。這種AI內容識別技術可以分為3大陣營，分別為Google的SynthID技術、C2PA聯盟的內容憑證、以及IPTC的中繼資料。

添加SynthID浮水印無損畫質

　　由Google DeepMind開發的SynthID技術，依靠兩個深度學習AI模型來運行：第一個為浮水印產生模型，使用嵌入式浮水印技術，將數碼浮水印直接添加到AI產生的內容，過程中會將浮水印與原始內容對齊，以提高浮水印的不可察覺性；第二個為識別模型，能夠掃描影像或音訊中的浮水印，藉此辨識數碼作品是否由AI生成。

　　添加SynthID浮水印後，影像畫質不會受損。就算影像曾被裁切、加入濾鏡、更改顏色、甚至使用有損壓縮方案來儲存檔案，浮水印依然會存在。目前可被加上SynthID的影像只限由Google製圖工具Imagen所產生的作品，同時該公司亦表示這項技術「並非萬無一失」且「並不完美」。

影像被添加肉眼不可見的SynthID浮水印後，畫質不會受到絲毫損害。（相片來源：Google官方網誌）

即使圖片被加入多重濾鏡，影像中暗藏的SynthID浮水印依然無法去除。（相片來源：Google官方網誌）

點擊CR憑證圖示查看影像來源

　　另一AI內容識別技術是來自C2PA，其全名是「Coalition for Content Provenance and Authenticity」（內容來源和真實性聯盟）。這是由Adobe發起的技術聯盟，成員包括：Nikon、Leica、Microsoft、Intel、ARM等。

　　這個聯盟建立一個名為「內容憑證」（Content cRedentials，CR）的開放性標準，任何廠商均可以遵循標準替圖片、影片或文件檔案嵌入數碼內容標記。當支援CR憑證的網站發現影像中含有憑證標記，即會在影像右上方加入「cr」圖示；用戶點擊圖示，即可以查看影像的來源資訊，確認作品是否由AI產生。

由Adobe Firefly生成的影像作品，右上方均會嵌入「cr」圖示，可供用戶查看影像的來源資訊。（相片來源：Adobe官網）

　　即使刊登圖片的網站不支援CR憑證識別，用戶也可以把圖片拿到C2PA提供的驗證網站進行辨識，讀取內裏的憑證資訊。再者，CR憑證亦會記下影像的編輯歷史，讓用戶可以追蹤圖片的詳細變化記錄。OpenAI表示，2024年初已替AI繪圖工具DALL·E 3加入CR憑證功能，未來更會把這項識別技術整合到影片生成模型Sora。此外，Adobe影像生成模型Firefly產製的作品，也會自動加插入CR憑證。

IPTC中繼資料支援性最為廣泛

　　最後要介紹的是一項較古舊、但支援性卻更廣泛的內容識別技術——IPTC中繼資料（Metadata）。國際新聞及通訊組織IPTC（International Press Telecommunications Council）在1990年訂定一項描述多媒體狀況的資訊標準，裏面定義了照片標題、照片描述、分類標籤、攝影師與版權等資訊欄目。

　　IPTC在影像業界已成為廣泛採用的標準，譬如《Photoshop》就可以直接編輯相片中的IPTC資訊。Google I／O 2023開發者大會上，該公司表示計劃在Google圖片搜尋結果中參考IPTC資料來標記圖片。Midjourney、Stability AI、Shutterstock亦已宣布採用IPTC中繼資料來標記其AI生成內容。

互聯網一切事物不再是眼見為實

　　雖然業界已研發出各種AI識別浮水印，但美國馬利蘭大學計算機科學教授蘇希爾·費茲（Soheil Feizi）卻指出，目前沒有任何一款浮水印是完全可靠的，有心人仍可以想方設法繞過浮水印，這情況就好比資訊安全公司與黑客之間長年累月的網絡攻防戰。

　　此外，當AI生成內容被插入到人類創作的作品中，浮水印應該如何標註將是一大挑戰。假如有人將真實錄製的錄音檔放入經過AI處理的照片或影片上，那麼平台就要弄清楚如何標記那個部分是AI產生的、那個部分是人類製作的，這將是一項非常繁瑣、易犯錯、兼且具爭議性的任務。盡管如此，有浮水印總比沒有好，至少可以讓公眾意識到，在AI時代下網上一切事物不再是眼見為實！

數碼新秩序

Google Gemma｜GPT-4閉源惹議！Google推開源模型Gemma，為AI競爭添新變數，扭轉OpenAI獨大局面？

AI假照片 | 有圖未必有真相？AI生成假圖觸發不實資訊傳播危機，以數碼浮水印作防偽標記是否最佳解決方法？