數碼新秩序

智城物語
01/03/2024

Google Gemma|GPT-4閉源惹議!Google推開源模型Gemma,為AI競爭添新變數,扭轉OpenAI獨大局面?

#Smart Living #OpenAI #GPT-3.5 #GPT-4 #開源 #閉源 #Google #Gemma #智慧生活

  OpenAI雖有「Open」之名,但釋出的GPT-3.5與GPT-4卻非開放源碼(Open Source)模型,故常被人詬病違背初心。隨著AI業界要求開源的呼聲愈來愈高,科技巨頭開始意識到開源模型大有可為。繼推出閉源模型Gemini後,Google剛發布旗下首個開源模型Gemma,擺出同時搶攻閉源、開源AI領域的陣勢。對生成式AI競爭上陷於劣勢的Google而言,此舉到底是藥石亂投的爛招、還是對症下藥的奇策呢?

 

Gemma模型可在AI PC運行

 

  2024年2月15日,Google發表新版本大型語言模型Gemini 1.5 Pro,全力挑戰OpenAI GPT-4。相隔不到一個星期後,該公司同月21日宣布推出首個輕量級開源模型Gemma,採用與Gemini相同的技術建構而成,適用於AI聊天或內容摘要等較小的任務。

 

  該模型設有兩個版本:「Gemma 7B」基於70億項內容參數進行數據訓練,適合在Google Cloud雲端平台或大型伺服器上運行;「Gemma 2B」則使用20億項參數,能夠直接在桌面電腦、筆記簿型上運行。

 

  Gemma的參數量與複雜性當然遠遠比不上旗艦級模型Gemini,惟在速度與成本上卻擁有較大優勢。Google宣稱,該模型在18項通用語言理解、推理、數學、編程等關鍵基準測試中,有11項分數超越參數量更大的Meta開源模型Llama-2。

 

Google已跟NVIDIA合作,針對Gemma模型在NVIDIA GPU上的運算效能作出優化,務求從雲端伺服器到搭載NVIDIA顯示卡的AI PC上運行Gemma,均可獲得最佳表現。(圖片來源:Google官方網誌)

根據Google提供的資料,Gemma模型在推理、數學和編程的關鍵基準測試中,其效能均優Meta Llama-2。(圖片來源:Google官方網誌)

Google為Gemma提供了AI開發工具包「Responsible Generative AI Toolkit」,內含模型偵錯工具,可協助開發者調查Gemma的行為並糾正問題。(圖片來源:Freepik圖庫)

 

AI模型開源與閉源爭論不休

 

  事實上,AI業界早在2023年已出現「開源與閉源」的爭論。OpenAI將GPT-4定位為非開放的AI模型,被科技社群批評為不夠「Open」之舉,破壞該公司作為一家科研機構的創始精神。有鑑於此,Meta遂以開源姿態進軍生成式AI領域,釋出開源模型Llama系列,因而贏得不少好掌聲。

 

  OpenAI GPT-4或Google Gemini這類閉源模型,不會公開程式碼,開發者要繳付月費,始可透過API存取模型來進行開發。至於開源模型Gemma,則容許開發者免費下載程式碼,再自行編程,創建屬於自己的AI模型,並允許商用授權。與Llama-2的不同之處是,Meta加入了特別授權條款,限制其競爭對手使用該模型,而Gemma則完全沒有類似的商業限制。

 

Google開源與閉源兩面押注

 

  Google成為首家同時擁有開源與閉源模型的AI公司,意味著在開源與閉源兩面押注。其實,該公司單靠Gemini Advanced的訂閱費,已可穩賺大量收入,為甚麼要加入開源行列呢?主要理由是,OpenAI現已成為生成式AI市場的領頭羊,Google明白到自己處於落後位置,如採用同樣招數跟對方正面硬撼,絕對沒有勝算,所以決定出手攪亂市場遊戲規則:破壞既有獲利模式,迫使對手在有利於自己的領域一決勝負。

 

  目前OpenAI主要依靠GPT API授權費和ChatGPT Plus訂閱費來獲取收入,於是Google索性祭出可免收費使用的開源模型Gemma。此後,那些每月付費使用GPT API的開發商可以選擇使用免費的Gemma,創建自己的AI模型在自家電腦上運行,這樣不但成本更低,還可以免去商業機密外洩的風險。如此一來,OpenAI的商業模式可能會難以持續下去。

 

複製Android策略攻開源AI

 

  倘若此奇策成功的話,未來AI市場競爭關鍵將落在生態系統上,這正正是Google的強項。正如蘋果(Apple)於2007年1月發表初代iPhone一鳴驚人,成功開創其智能手機霸業。當時Google自知手機硬件設計能力遠遜對手,遂決定另闢蹊徑與Apple較量。

 

  2007年11月,Google發表開源手機系統《Android》,不僅把Gmail、Google Search、Google Maps、Google Docs等雲端應用整合其中,更鼓勵開發者基於《Android》開發各種App,結果吸引蘋果以外的手機廠商樂意採用。之後Google透過出售搜尋結果頁面、手機版網站和App上的廣告位,賺取大量廣告收益。

 

  如今Google嘗試複製Android的成功策略,將Gemma開源模型當作是《Android》開源系統,開放給AI開發者免費使用,藉此激發眾人創意,開發各種用途的AI模型和工具,並可整合到Google雲端應用,甚至是Android手機;只要基於Gemma開發的AI工具愈多,應用層面愈廣,便可以吸引愈多用戶和廠商加入,逐漸成長為完整的生態圈;然後,再藉由生態圈的通路賣廣告,賺回模型開發成本,帶來新的收入來源。

 

OpenAI、Meta受到一定衝擊

 

  假如AI競賽演變成比拼生態圈的整合能力,沒有完整生態通路的OpenAI幾可說是處於劣勢。OpenAI當然明白本身的不足,因此才會在2024年1月啟動GPT Store,嘗試建構自家AI軟件生態圈,惟遠水卻難救近火。若果OpenAI要在短時間內作出抗衡,唯有進一步依附於微軟(Microsoft),通過其《Windows》與《Microsoft 365》生態圈進行反擊,但這樣只會增強微軟的AI業務,對OpenAI未必有益。

 

  另一邊廂,Meta在2023年率先推出開源模型Llama,成為AI開源社群的首選開發平台。現在有一個更強勁的開源模型Gemma出現了,究竟有幾多開發者會蟬過別枝,目前尚難以判斷,但無論如何都會對Meta造成一定的打擊。由是觀之,Google推出Gemma,實不失為一箭雙鵰的妙著。

 

13/05/2024

AI假照片 | 有圖未必有真相?AI生成假圖觸發不實資訊傳播危機,以數碼浮水印作防偽標記是否最佳解決方法?

#創科 #Smart Living #Google #AI #OpenAI #不實資訊 #假圖片 #假圖 #數碼浮水印 #生成式AI #智慧生活

  俗語說:「有圖有真相」,但隨著生成式AI愈來愈流行,用戶可以輕鬆地利用AI工具產製以假亂真的圖片後,此說法已開始站不住腳了!為降低假圖片、假消息等不良資訊的傳播風險,Google、OpenAI等科技巨頭已先後替AI生成內容加入數碼浮水印,幫助用戶確認圖片是否為AI產製。數碼浮水印是甚麼呢?它是否真的可以有效地幫助人們辨識圖片真偽?

 

建立內容憑證緩解AI假圖亂象

 

  2023年3月,網上瘋傳天主教教宗方濟各身穿白色羽絨外套、戴上墨鏡的圖片,讓人誤以為教宗想改變形象,但這其實是網民使用AI製圖工具Midjourney生成的影像,外界稱之為全球首宗大規模AI假消息傳播事件。2024年1月,詐騙集團利用深偽(Deepfake)技術冒充一家跨國企業的財務長,透過視訊會議要求香港員工將錢轉入指定的銀行帳戶,騙取約2億港元(2,600萬美元),這是香港首起深偽詐騙案件。

 

網民Pablo Xavier利用Midjourney產生教宗方濟各身穿白色羽絨外套的照片,一度在社交媒體上瘋傳。(相片來源:Facebook@Guerrero Art)

 

  為遏制上述亂象,AI科技巨頭與影像產業公司遂著手制定內容憑證標準,藉由數碼浮水印技術,在AI生成作品中加入一些人眼不可見的資訊,惟用戶可以透過特殊工具識別該作品是否由AI產製。這種AI內容識別技術可以分為3大陣營,分別為Google的SynthID技術、C2PA聯盟的內容憑證、以及IPTC的中繼資料。

 

添加SynthID浮水印無損畫質

 

  由Google DeepMind開發的SynthID技術,依靠兩個深度學習AI模型來運行:第一個為浮水印產生模型,使用嵌入式浮水印技術,將數碼浮水印直接添加到AI產生的內容,過程中會將浮水印與原始內容對齊,以提高浮水印的不可察覺性;第二個為識別模型,能夠掃描影像或音訊中的浮水印,藉此辨識數碼作品是否由AI生成。

 

  添加SynthID浮水印後,影像畫質不會受損。就算影像曾被裁切、加入濾鏡、更改顏色、甚至使用有損壓縮方案來儲存檔案,浮水印依然會存在。目前可被加上SynthID的影像只限由Google製圖工具Imagen所產生的作品,同時該公司亦表示這項技術「並非萬無一失」且「並不完美」。

 

影像被添加肉眼不可見的SynthID浮水印後,畫質不會受到絲毫損害。(相片來源:Google官方網誌)

即使圖片被加入多重濾鏡,影像中暗藏的SynthID浮水印依然無法去除。(相片來源:Google官方網誌)

 

點擊CR憑證圖示查看影像來源

 

  另一AI內容識別技術是來自C2PA,其全名是「Coalition for Content Provenance and Authenticity」(內容來源和真實性聯盟)。這是由Adobe發起的技術聯盟,成員包括:Nikon、Leica、Microsoft、Intel、ARM等。

 

  這個聯盟建立一個名為「內容憑證」(Content cRedentials,CR)的開放性標準,任何廠商均可以遵循標準替圖片、影片或文件檔案嵌入數碼內容標記。當支援CR憑證的網站發現影像中含有憑證標記,即會在影像右上方加入「cr」圖示;用戶點擊圖示,即可以查看影像的來源資訊,確認作品是否由AI產生。

 

由Adobe Firefly生成的影像作品,右上方均會嵌入「cr」圖示,可供用戶查看影像的來源資訊。(相片來源:Adobe官網)

 

  即使刊登圖片的網站不支援CR憑證識別,用戶也可以把圖片拿到C2PA提供的驗證網站進行辨識,讀取內裏的憑證資訊。再者,CR憑證亦會記下影像的編輯歷史,讓用戶可以追蹤圖片的詳細變化記錄。OpenAI表示,2024年初已替AI繪圖工具DALL·E 3加入CR憑證功能,未來更會把這項識別技術整合到影片生成模型Sora。此外,Adobe影像生成模型Firefly產製的作品,也會自動加插入CR憑證。

 

IPTC中繼資料支援性最為廣泛

 

  最後要介紹的是一項較古舊、但支援性卻更廣泛的內容識別技術——IPTC中繼資料(Metadata)。國際新聞及通訊組織IPTC(International Press Telecommunications Council)在1990年訂定一項描述多媒體狀況的資訊標準,裏面定義了照片標題、照片描述、分類標籤、攝影師與版權等資訊欄目。

 

  IPTC在影像業界已成為廣泛採用的標準,譬如《Photoshop》就可以直接編輯相片中的IPTC資訊。Google I/O 2023開發者大會上,該公司表示計劃在Google圖片搜尋結果中參考IPTC資料來標記圖片。Midjourney、Stability AI、Shutterstock亦已宣布採用IPTC中繼資料來標記其AI生成內容。

 

互聯網一切事物不再是眼見為實

 

  雖然業界已研發出各種AI識別浮水印,但美國馬利蘭大學計算機科學教授蘇希爾·費茲(Soheil Feizi)卻指出,目前沒有任何一款浮水印是完全可靠的,有心人仍可以想方設法繞過浮水印,這情況就好比資訊安全公司與黑客之間長年累月的網絡攻防戰。

 

  此外,當AI生成內容被插入到人類創作的作品中,浮水印應該如何標註將是一大挑戰。假如有人將真實錄製的錄音檔放入經過AI處理的照片或影片上,那麼平台就要弄清楚如何標記那個部分是AI產生的、那個部分是人類製作的,這將是一項非常繁瑣、易犯錯、兼且具爭議性的任務。盡管如此,有浮水印總比沒有好,至少可以讓公眾意識到,在AI時代下網上一切事物不再是眼見為實!

 

#食譜 #素食 #數碼營銷 #電影 #移民 #減肥 #創科 #Netflix #外賣 #辦公室貼士 #疫情 #在家運動 #WFH #抗疫不悶 #限聚令 #辦公室求生術
more on etnet.com.hk