當大家愈來愈依賴生成式 AI搜尋資料、撰寫報告、甚至作為決策參考時，有沒有想過其回覆內容是否真實可靠？AI因自身的幻覺問題，偶爾會生成局部虛構答案，但隨著黑客開始將攻擊目標轉移至AI模型，施以資料投毒等攻擊手段，AI胡言亂語的頻率或許會因此而大增。當 AI應用逐漸滲透至醫療、法律、金融、軍事等重要領域，任何虛假資訊都有可能誘發嚴重災難。究竟各國政府、企業、AI業者是否已準備好應對這場「AI中毒」危機？

AI模型訓練期間難辨資料真偽

要理解 AI 為何會中毒，必須先回到模型訓練的本質。AI依賴其背後的大型語言模型（Large Language Model），模型運作原理是從海量文本中學習字詞與字詞之間的統計關聯性，並在推論時根據這些關聯性預測下一個最可能出現的詞語，以組成最終答案。這個機制本身沒有「理解真偽」的能力，只有「辨識規律」的能力。換言之，模型是甚麼資料都吃的，不懂得判斷輸入資訊是否正確，只會忠實地從中提煉規律。

訓練資料的規模龐大，是第二個結構性弱點。ChatGPT、Gemini 等主流模型均以數以兆計的網頁文本進行數據訓練，資料來源涵蓋維基百科、新聞網站、網上討論區、學術論文、以至各類公開網頁內容。這意味著AI開發商難以對每一筆資料進行人工審核。當訓練資料的邊界等同於整個互聯網，任何人都有機會在其中埋下惡意種子。

Anthropic究指出，無論6億抑或130億參數的AI模型，只要250份惡意文件，便能毒害個模型。（圖片來源：Anthropic官網）

攻擊AI模型成本低至60 美元

第三個弱點在於攻擊成本極低、門檻卻出乎意料地低。蘇黎世聯邦理工學院電腦科學助理教授弗洛里安·特拉默（Florian Tramèr）的研究團隊，曾以60 美元（約468港元）購買數千個過期網域，以控制大量網頁內容，然後從中注入錯誤資訊，藉此影響抓取這些網頁作為訓練資料的 AI 模型。即使AI開發商意識到這個問題，也無法從數以兆計的訓練資料中找出錯誤資訊。惡意內容甚至可以偽裝成正常文章，只在特定觸發條件下才顯現異常；這種隱蔽性使得數據清洗工作形同大海撈針。

OpenAI主要對手Anthropic 在 2025 年10 月發布的研究，對「AI中毒」做了相當直接的驗證：研究人員發現，只要在訓練資料中注入 250 份惡意文件，就能在 6 億到 130 億知識參數的模型中成功植入後門；而攻擊是否成功，取決於惡意樣本的絕對數量，而不是它佔整體資料集的比例。這個發現之所以重要，是因為它打破很多人對大型模型安全性的直覺：模型大，並不等於較難中毒；資料多，也不等於少量惡意樣本就會被稀釋。

AI 中毒的影響，遠不只是輸出幾行亂碼那麼簡單，直接損害是決策品質的崩潰。2024 年底，澳洲政府委託全球四大會計師事務所之一的德勤（Deloitte），撰寫一份涉及社會福利政策的研究報告。有學者發現，報告中引用了根本不存在的學術論文，以及子虛烏有的聯邦法院判決。後來調查結果確認，德勤部分內容是由OpenAI GPT-4o 生成，並未有進行嚴謹的事實查核。事後 Deloitte 被迫退還部分諮詢費，其聲譽更因此而嚴重受損。

社會信任的侵蝕是最難量化、最難挽回的損失。當 AI 被整合進法律諮詢、醫療診斷、政府報告等高度敏感的場景，一次被揭發的造假事件，可能讓整個產業的公信力倒退數年。誠如澳洲工黨參議員黛博拉·歐尼爾（Deborah O'Neill）在 Deloitte 事件後的諷刺言論：「或許政府機構應直接訂閱 ChatGPT，而非聘請大型諮詢公司。」這句玩笑背後，是對「付費即信任」舊有邏輯的根本質疑。

針對Deloitte事件，澳洲參議員歐尼爾戲言，政府機構「或許該直接訂閱 ChatGPT，而非聘請大型諮詢公司」，並要求日後提交給澳洲政府的任何報告，都要明確披露有否使用 AI參與撰寫。（圖片來源：維基百科）

低質數據訓練促使AI認知退化

對企業而言，AI 中毒的後遺症還包括高昂的修復成本。當大型語言模型長期由低質數據進行訓練，可能會出現認知退化，即是所謂「認知漂移」（Cognitive Drift）。退化後的模型會跳過邏輯推理步驟，以武斷猜測取代嚴謹推導，生成誤導性回覆。要重新訓練受污染的模型不僅耗費巨大的運算資源與人力，而且結果仍可能不完美，因為低質數據造成的損害屬於「持續性表徵漂移」，難以透過簡單的再訓練完全逆轉。

面對如此複雜的威脅情況，AI業界、學術界與監管機構正從不同角度嘗試建立防線，但目前坦白說，仍沒有萬無一失的解方。最根本的防禦從源頭著手。資料驗證是核心手段——在訓練前對資料集進行分析，識別惡意、可疑或異常資料。但如前所述，惡意文件的隱蔽性使這項工作極為困難。更實際的做法是實施最低權限原則，嚴格限制能夠修改訓練資料的人員與系統範圍；同時多元化資料來源，降低單一被污染來源的影響力；並建立完整的監控與稽核機制，記錄每一筆資料的存取與修改歷程。

設置人工核查與引用驗證流程

Deloitte 事件最深刻的教訓是：技術安全無法取代人類的專業判斷。德國聯邦資訊安全辦公室（BSI）明確警告，在企業敏感業務領域不加驗證而使用 AI，將造成日益嚴重的安全風險，因此建議法律、財務、政府諮詢等高風險領域必須設置人工事實核查與引用驗證流程。

對企業而言，這意味著必須建立一套三層防護機制：合約層面明確規定 AI 使用披露要求與驗證標準；治理層面設立 AI 治理委員會審核外包諮詢成果；教育層面則投資員工培訓，使其具備辨識 AI 生成內容典型特徵的能力。

在一次實驗中，特拉默的研究團隊購入數以千計的過期網域，並將網頁的部分圖片換成錯誤內容，例如色情圖片，結果發現成功干擾 AI模型的資料訓練。（圖片來源：ZISC官網）

AI監管法規框架逐步成形中

監管層面，歐盟《人工智能法案》（AI Act）已明確將資料中毒列為網絡攻擊的一種形式，要求 AI 開發者實施對應的安全控制。美國國家標準暨技術研究院（NIST）則提出「人工智能風險管理框架」（AI RMF），將 AI 風險管理分為治理、映射、量測與管理四大核心功能；它要求企業從 AI 生命週期的初始階段就進行風險識別，並建立持續監控機制。

AI 模型的中毒危機，是技術進步必須承受的風險。隨著 AI 深入到我們的手機、商務流程、甚至是政府決策中，確保數據的「乾淨」與「可驗證性」已成為當代最重要的基礎設施建設。對於政府、企業與用戶而言，在使用AI時保持適度的懷疑與警覺，可說是在這片未知森林中生存的唯一法則。