返回架构笔记
Arch Day 144

Arch Day 144: LLM Guardrails与Prompt Engineering — 生产级防御纵深

LLM Guardrails是防止AI"脱轨"的护栏系统——从输入过滤、对话控制、输出验证到业务规则,构成五层纵深防御。Gartner调查显示75%的AI项目因集成问题(不一致响应)失败,Guardrails是解决方案。

2026-08-21
第六阶段 - LLM与AI架构
GuardrailsPromptEngineeringStructuredOutputNeMo安全幻觉

日期: 2026-08-21 (Day 144) 阶段: 第六阶段 - LLM与AI架构 标签: #Guardrails #PromptEngineering #StructuredOutput #NeMo #安全 #幻觉


核心概念

一句话定义

LLM Guardrails是防止AI"脱轨"的护栏系统——从输入过滤、对话控制、输出验证到业务规则,构成五层纵深防御。Gartner调查显示75%的AI项目因集成问题(不一致响应)失败,Guardrails是解决方案。


知识点详解

1. 五层防御架构

Layer 1: Input Screening    → 注入检测、PII脱敏
Layer 2: Dialog Control     → NeMo Guardrails主题限制
Layer 3: LLM Generation     → Structured Output + System Prompt
Layer 4: Output Validation  → Guardrails AI格式/事实验证
Layer 5: Business Rules     → 确定性业务规则后处理

2. Guardrails框架对比

框架核心能力最佳用途
NeMo Guardrails (NVIDIA)主题控制/PII/越狱防护对话管理,80%通用安全
Guardrails AI (开源)自定义Validator/结构化验证输出验证/业务规则
Llama Guard (Meta)内容分类(有害/安全)输入/输出过滤
Constitutional AI (Anthropic)基于原则的自我修正Claude内建约束

3. Structured Output

方式保证适用
JSON Mode格式保证,无schema保证简单数据提取
Structured Outputs格式+Schema双保证表单/API参数
Function Calling结构化参数保证工具调用

JSON Schema强制执行可减少**70%**错误率。

4. Prompt Engineering关键模式

模式效果
Chain-of-Thought复杂推理准确率显著提升
Few-shot Examples格式一致性大幅提升
Self-Consistency多次采样取多数答案
System Prompt Engineering2026年比多数人认知的更强大

面试题

问题:如何防止LLM应用中的Prompt Injection?

回答:多层防御——1) 输入层:正则/ML模型检测注入模式;2) 隔离层:用户输入与系统指令严格分离(system/user message边界);3) 输出层:Guardrails AI验证输出不包含敏感操作;4) 架构层:最小权限原则,LLM无法直接执行危险操作。