Day 74:zkML 与可验证 AI 推理 — 让链上信任 AI
深入对比 zkML/opML/TEE 三种可验证 AI 方案、EZKL/ORA/Phala 协议分析、混合方案趋势与 PM 产品机会
Day 74:zkML 与可验证 AI 推理 — 让链上信任 AI
日期:2026-03-17 主题:zkML/opML/TEE 三种可验证 AI 方案对比、EZKL/Giza/Modulus 协议分析、PM 产品机会 产出:学习笔记 + 面试题答案
今日目标
| 类型 | 内容 |
|---|---|
| 学习 | 可验证 AI 的三种技术路线及各自取舍 |
| 分析 | zkML 协议对比、实际应用场景 |
| 产出 | 面试题答案:为什么 Web3 需要可验证 AI |
一、核心问题:AI 的"信任危机"
1.1 为什么链上需要验证 AI?
区块链的核心价值 = 无需信任(Trustless)
AI 的本质 = 黑箱推理(不可审计)
当 AI Agent 代替用户做链上决策(Day 73),如何证明:
1. Agent 真的用了声明的模型(不是随机输出)?
2. Agent 没有被篡改输入数据?
3. Agent 的推理过程可以被第三方独立复现?
1.2 信任问题的层次
| 层次 | 问题 | 例子 |
|---|---|---|
| 模型身份 | 这个 Agent 跑的真是 GPT-4 吗? | AI 审计工具声称用了最强模型,实际用廉价模型 |
| 输入完整性 | 喂给模型的数据是真实的吗? | AI 价格预言机被喂入虚假数据 |
| 推理正确性 | 相同输入能否产生相同输出? | AI 治理代理被暗中修改投票偏好 |
| 输出应用 | 推理结果被正确应用了吗? | Agent 推理正确但执行层偷换结果 |
二、三种可验证 AI 方案
2.1 方案概览
安全性高 性能高
│ │
┌─────────┼─────────┐ ┌─────────┼─────────┐
│ │ │ │ │ │
zkML opML TEE TEE opML zkML
│ │ │ │ │ │
└─────────┼─────────┘ └─────────┼─────────┘
│ │
安全性排序 性能排序
2.2 zkML(Zero-Knowledge Machine Learning)
原理:将 ML 模型推理转化为 ZK 电路,生成数学证明。任何人都能验证"这个输出确实来自这个模型+这个输入",但不暴露模型权重或输入数据。
流程:
1. 模型推理(链下)→ 得到输出
2. 生成 ZK 证明(链下,耗时)→ 证明"输出正确"
3. 链上验证证明(便宜,~200K gas)→ 合约信任输出
优势:
- 最强安全保证:数学级别的正确性证明
- 隐私保护:不暴露模型和数据
- 链上验证成本低
劣势:
- 证明生成极慢:一次推理可能需要几分钟到数小时
- 模型规模受限:目前只能处理小型模型(<1B 参数)
- 开发复杂度高
代表项目:
| 项目 | 定位 | 支持模型 | 现状 |
|---|---|---|---|
| EZKL | 通用 zkML 框架 | ONNX 模型 → ZK 电路 | 最成熟,可处理 CNN/小型 Transformer |
| Giza | zkML 基础设施(Starknet 生态) | ONNX → Cairo 程序 | STARK 证明,验证更快 |
| Modulus | zkML 加速 | 自研证明系统 | 专注高性能 zkML |
| Risc Zero | 通用 ZK VM | 任意 Rust 程序 → ZK | 可运行完整 ML 框架 |
2.3 opML(Optimistic Machine Learning)
原理:借鉴 Optimistic Rollup 思路。默认信任 AI 推理结果,设置挑战期,任何人发现结果错误可提交欺诈证明。
流程:
1. 推理者提交结果 + 保证金(链上)
2. 挑战期(如 7 天):任何人可重新执行推理
3a. 无挑战 → 结果确认,保证金退还
3b. 有挑战 → 链上仲裁(二分查找定位分歧步骤)
优势:
- 性能高:正常情况下只需一次推理
- 支持大模型:理论上支持任意大小模型
- 成本低:无 ZK 证明开销
劣势:
- 延迟高:需等待挑战期
- 活性假设:至少需要一个诚实验证者在线
- 仲裁复杂:链上重现 ML 推理非常困难
代表项目:
| 项目 | 方案 | 特点 |
|---|---|---|
| ORA Protocol | opML + 链上 AI 预言机 | 为 Ethereum 提供可验证 AI 推理 |
| Gensyn | 去中心化 ML 训练验证 | Probabilistic 审计 + 经济博弈 |
2.4 TEE(Trusted Execution Environment)
原理:在硬件级别的安全隔离区(如 Intel SGX/TDX、AMD SEV、AWS Nitro)中运行 AI 推理。硬件保证代码和数据不被外部观察或篡改。
流程:
1. 将模型和输入加载到 TEE 飞地(Enclave)
2. 在隔离环境中执行推理
3. TEE 生成硬件签名的证明(Attestation)
4. 链上验证 TEE 证明 → 信任输出
优势:
- 性能最高:接近原生执行速度
- 支持任意大模型
- 隐私保护(数据在飞地中处理)
- 实时出结果
劣势:
- 信任硬件厂商(Intel/AMD/AWS)→ 不是真正"去信任"
- 侧信道攻击风险(历史上多次被攻破)
- 硬件可用性受限
代表项目:
| 项目 | TEE 方案 | 应用 |
|---|---|---|
| Phala Network | Intel SGX → 迁移到 TDX | 隐私计算 + AI Agent 执行 |
| Marlin Protocol | AWS Nitro + GPU TEE | 去中心化 AI 推理服务 |
| Flashbots SUAVE | TEE + MEV | 用 TEE 保护 MEV 拍卖 |
三、三种方案对比
3.1 全面对比
| 维度 | zkML | opML | TEE |
|---|---|---|---|
| 安全假设 | 数学(最强) | 经济博弈 + 至少1诚实者 | 硬件厂商可信 |
| 隐私 | ✅ 完全 | ❌ 挑战时需公开 | ✅ 飞地内保护 |
| 模型规模 | 小型(<1B) | 理论上无限 | 受硬件内存限制 |
| 延迟 | 分钟-小时 | 秒(+挑战期) | 秒 |
| 链上成本 | 低(验证便宜) | 低(正常路径) | 低(验证签名) |
| 成熟度 | ⭐⭐ | ⭐ | ⭐⭐⭐ |
| 去中心化 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐ |
3.2 选择指南
需要最强安全保证 + 小模型 → zkML(如链上信用评分)
需要大模型 + 可接受延迟 → opML(如 AI 治理投票)
需要实时 + 大模型 + 可接受信任假设 → TEE(如 AI 交易代理)
生产环境的务实选择 → TEE + zkML 混合
3.3 混合方案趋势
2026 年的主流趋势是混合使用:
TEE 负责实时推理(速度)
+ zkML 负责事后验证(安全)
+ opML 作为经济保障层(兜底)
例:AI Agent 用 TEE 执行交易决策(毫秒级响应)
→ 事后用 zkML 生成证明(分钟级)
→ 如果 zkML 验证失败,通过 opML 争议解决
四、实际应用场景
4.1 链上 AI 预言机
传统预言机:Chainlink 报价 ETH=$3800
AI 预言机:模型预测 ETH 30天波动率=45%
→ 用 zkML 证明"这个预测确实来自这个训练好的模型"
→ DeFi 协议可以信任这个预测用于风控参数调整
4.2 AI 信用评分
去中心化借贷想要低抵押率(<100%)
→ 需要链上信用评分
→ AI 模型分析地址历史行为(还款记录、资产稳定性)
→ 用 zkML 证明评分正确且不泄露隐私
→ 智能合约自动设置抵押率
4.3 AI 内容验证
AI 生成的 NFT 艺术品
→ 用 zkML 证明"这幅图确实由 Stable Diffusion v3 生成"
→ 防止人类画作冒充 AI 作品(或反之)
→ NFT 市场可以标注"verified AI-generated"
4.4 可验证的 AI Agent
AI Agent 代替 DAO 执行财务操作(Day 73)
→ 每次操作附带 TEE attestation
→ 定期用 zkML 生成完整证明
→ DAO 成员可以随时审计 Agent 行为的正确性
五、核心协议深度
5.1 EZKL(最成熟的 zkML 框架)
工作流:
1. 开发者训练 ML 模型(PyTorch/TensorFlow)
2. 导出为 ONNX 格式
3. EZKL 将 ONNX → ZK 电路(Halo2 证明系统)
4. 生成 proving key + verification key
5. 推理时生成 ZK 证明
6. 部署 Solidity 验证合约到链上
支持的模型类型(2026):
- 线性回归、逻辑回归
- CNN(图像分类)
- 小型 Transformer(NLP)
- 决策树/随机森林
- ⚠️ 不支持:GPT-4 级别的大语言模型
性能基准(2026):
| 模型 | 参数量 | 证明时间 | 验证 Gas |
|---|---|---|---|
| 线性回归 | ~100 | <1秒 | ~100K |
| CNN (MNIST) | ~10K | ~30秒 | ~200K |
| 小型 Transformer | ~1M | ~5分钟 | ~300K |
5.2 ORA Protocol(opML 代表)
定位:为 Ethereum 提供可验证 AI 推理的预言机网络
架构:
用户/合约 → 发送 AI 推理请求
ORA 网络 → 执行推理 + 提交结果
挑战期 → opML 欺诈证明保护
链上合约 → 接收验证过的 AI 输出
产品:
- IMO(Initial Model Offering):链上发布 AI 模型,Token 化模型所有权
- OAO(Onchain AI Oracle):合约可直接调用的 AI 推理
5.3 Phala Network(TEE 代表)
定位:TEE 驱动的去中心化 AI 执行层
Agent Contract 架构:
智能合约定义 Agent 逻辑
→ TEE 节点执行 AI 推理
→ 硬件证明推理过程可信
→ 结果回传链上
优势:可以跑完整的 LLM(GPT-4 级别),不受 zkML 的模型大小限制。
六、PM 产品机会
6.1 基础设施机会
| 方向 | 产品形态 | 目标用户 |
|---|---|---|
| zkML 即服务 | API:上传模型 → 返回证明 | DApp 开发者 |
| 可验证 AI 预言机 | 喂 AI 预测到合约 | DeFi 协议 |
| AI Agent 审计平台 | 验证 Agent 行为记录 | DAO、机构 |
| 模型市场 | 链上交易/租赁 AI 模型 | 模型开发者/消费者 |
6.2 应用层机会
| 方向 | 需要的验证方式 | 可行性 |
|---|---|---|
| AI 信用评分 → 低抵押借贷 | zkML | ⭐⭐⭐(模型够小) |
| AI 价格预言机 | TEE + zkML | ⭐⭐⭐⭐ |
| AI 交易代理 | TEE | ⭐⭐⭐⭐ |
| AI 内容认证(NFT) | zkML | ⭐⭐⭐ |
| AI 治理投票 | opML / TEE | ⭐⭐⭐ |
6.3 关键挑战
| 挑战 | 说明 |
|---|---|
| 用户教育 | "可验证 AI"对普通用户太抽象 |
| 性能瓶颈 | zkML 无法处理大模型是硬限制 |
| 标准碎片化 | 每个项目用不同的证明系统 |
| 商业模式 | 基础设施项目的价值捕获困难 |
七、面试题答案
Q:为什么 Web3 需要可验证的 AI?用哪种方案?
30秒版本: 区块链的核心是无需信任,AI 的核心是黑箱推理——两者天然矛盾。可验证 AI 解决这个矛盾,让链上合约能信任链下 AI 的输出。三种方案各有取舍:zkML 最安全但慢且只支持小模型,TEE 最快但依赖硬件信任,opML 折中但有延迟。实际项目通常混合使用。
2分钟版本:
问题本质:
- 智能合约是确定性的:相同输入 → 相同输出,所有节点可验证
- AI 推理是非确定性的(浮点精度、随机种子)且计算量大
- 如果合约要使用 AI 输出(价格预测、信用评分、治理建议),必须有验证机制
三种方案:
- zkML:数学证明推理正确,最强安全保证。适合小模型(信用评分、简单分类)。EZKL 是最成熟的框架
- TEE:硬件隔离保证执行可信。适合大模型实时推理(AI Agent、交易策略)。Phala Network 是代表
- opML:乐观假设+欺诈证明。适合非实时场景(治理投票、内容审核)。ORA Protocol 是代表
PM 选择逻辑:
- 金额大 + 安全优先 → zkML
- 实时性强 + 可接受硬件信任 → TEE
- 延迟可接受 + 模型大 → opML
- 2026 主流趋势 → TEE 实时执行 + zkML 事后审计
Q:zkML 目前最大的限制是什么?什么时候能跑大语言模型?
回答: 最大限制是电路规模——将 ML 计算转化为 ZK 电路后,模型越大证明时间指数级增长。2026 年 EZKL 能处理 ~1M 参数模型(小型 CNN/Transformer),但 GPT-4 有 1.8T 参数,差距 6 个数量级。
乐观估计,zkML 跑 10B 参数模型可能需要 3-5 年(硬件加速+证明系统优化+模型量化压缩)。在此之前,大模型验证的务实方案是 TEE + 事后 zkML 对关键输出做抽样验证。
八、与前几天的知识关联
Day 70(AI+Crypto 全景)
└→ 提到"验证层:zkML/opML/TEE"但未展开
Day 71(Intent-Based 架构)
└→ Solver 的执行可以用 TEE 验证
Day 73(AI Agent 产品设计)
└→ Agent 的决策正确性需要可验证 AI 保障
Day 74(本篇)
└→ 深入三种验证方案的原理、取舍和产品机会
九、今日总结
| 概念 | 一句话 |
|---|---|
| zkML | 把 ML 推理变成 ZK 证明,数学级安全但慢 |
| opML | 乐观信任 + 欺诈证明,类比 Optimistic Rollup |
| TEE | 硬件隔离执行,快但信任硬件厂商 |
| EZKL | 最成熟的 zkML 框架,ONNX→ZK 电路 |
| 混合方案 | TEE 实时 + zkML 审计 = 2026 主流趋势 |
核心洞察(PM 视角): 可验证 AI 是 AI+Web3 真正融合的必要条件。没有可验证性,AI Agent 永远只能做"辅助建议"(用户确认才执行)。有了可验证性,AI Agent 才能真正获得链上自主权——合约可以像信任其他合约一样信任 AI 输出。这是从"AI 辅助工具"到"AI 链上公民"的关键跨越。
Day 74 完成 · 下一步:Day 75 去中心化算力深度