TR Day 51

Week 7 复盘 + AI 信号能不能 work？

2026-06-29

Phase 2: 策略实战 + AI 信号

WeeklyReviewAISignalsLLMPromptEngineeringFeatureExtractionWeek8Prep

日期: 2026-06-29 方向: Week 7 AI 复盘阶段: Phase 2: 策略实战 + AI 信号标签: #WeeklyReview #AISignals #LLM #PromptEngineering #FeatureExtraction #Week8Prep

今日目标

类型	内容
复盘	Week 7 七项交付物逐项打分，AI 信号在 OOS 上的实证 IC 评估
决策	决定 Phase 2 后续是否继续投入 LLM features，还是切回纯量化
产出	TR-DAY51 笔记 + 能力雷达图 + Week 8 计划锚定

引子：本周问的不是「学了什么」，是「赌对了什么」

Week 7 是 Phase 2 唯一一周把整周都押在 AI 增强信号 上。10 年金融 PM 的本能反应是「先看花了多少时间、产出了多少 deliverable」，但量化的判断标准只有一个：OOS 上跑出来的 IC（信息系数）是不是显著大于 0。

所以今天不是写 weekly summary，是做 科学验证报告：

假设：LLM 能从 10-Q / 财报电话会 / 8-K 里提取出量化 features 没法捕捉的信号
实验：把 LLM features 喂进 XGBoost，与 baseline（只用 quant features）的模型对比 OOS IC
判定：边际 IC > 0.02 且统计显著 → 继续投；否则砍掉

这个判定要诚实做，不能因为「花了一周不忍心放弃」而 motivated reasoning。Phase 2 还有 Week 8 + Week 9 + Week 10，时间是最贵的资源。

一、Week 7 七项交付物完成度自评

Day	主题	交付物	完成度	关键发现
Day 45	PEAD 学术研究	文献综述 + 18 篇核心 paper 摘要	★★★★★	PEAD 在 small-cap 残留 alpha 显著，large-cap 已被 arb 殆尽
Day 46	Claude 解读 10-Q	prompt 模板 + 100 份 10-Q 抽取结果	★★★★☆	结构化输出（JSON schema）+ self-check 把 hallucination 压到 <3%
Day 47	Pipeline 端到端	EDGAR → parse → Claude → store → join	★★★★☆	工程难度被严重低估，80% 时间在 PDF/HTML parsing 不在 LLM 调用
Day 48	IV crush 现象	earnings IV term structure 分析	★★★★★	front-month IV 财报后平均 collapse 35%，back-month 仅 8%
Day 49	Iron Condor 实操	paper trade 8 单 earnings IC	★★★☆☆	6 胜 2 负，但样本太小不足证伪
Day 50	LLM + XGBoost 混合	4 组 features 对比模型	★★★★☆	LLM features 提升 OOS IC 但与 quant 部分共线
Day 51	AI 信号评估（今日）	本笔记 + 能力分级	进行中	—

自评总分：6.5 / 7.0（按完成度加权）

减分项：

Day 47 Pipeline 还没做到「调度自动化」，目前是手工触发；上 cron 至少要再 1-2 天
Day 49 样本量（n=8）远远不够做策略级判定，需要 Week 8 继续累积

二、AI 信号实证评估（本周核心结论）

2.1 实验设计

Universe：Russell 3000，剔除 ADR / SPAC，剔除 price < $5 的标的，剔除日均成交额 < $1M 的尾部 Period：

Train: 2020-01 → 2022-12
Validation: 2023-01 → 2023-12
Test (untouched until today): 2024-01 → 2024-12

Target：earnings 后 5 日累计超额收益（vs SPY），下一财季公告 Features：

组别	Features	数量
Q1: Quant only	动量、估值、盈利惊喜、IVR、成交量、机构持仓	28
Q2: + LLM sentiment	+ 「财报电话会 sentiment」「forward guidance tone」「risk language density」	+6
Q3: + LLM structured	+ 「mgmt 是否首次提及某关键词」「YoY 段落语义距离」「audit 段落风险词」	+9
Q4: LLM only	仅 LLM features	15

2.2 OOS IC 评估表

模型	Validation IC	Test IC	Test IC t-stat	Sharpe (long-short Q5-Q1)
Q1 Quant only (baseline)	0.041	0.038	2.6	0.71
Q2 + LLM sentiment	0.048	0.045	3.0	0.83
Q3 + LLM structured	0.058	0.054	3.6	1.04
Q4 LLM only	0.027	0.022	1.4	0.39

核心发现：

LLM features 单独不行（Q4 IC 0.022，t-stat 1.4 不显著）—— 这一条很重要：LLM 不是预测器
LLM + Quant 组合显著优于 Quant only（IC 0.054 vs 0.038，提升 +42%）
结构化抽取 > 情感分析（Q3 > Q2 IC 提升 +20%），印证 LLM 的真正价值是「结构化解析非结构化文本」而不是「读情绪」
Sharpe 从 0.71 跳到 1.04 是策略级别的差异（不是统计噪声），值得继续投入

2.3 Feature Importance Top-10

Rank	Feature	Type	Importance
1	earnings_surprise_pct	Quant	0.124
2	momentum_3m	Quant	0.098
3	mgmt_guidance_tone_shift	LLM	0.087
4	ivr_pre_earnings	Quant	0.076
5	risk_language_density_yoy	LLM	0.069
6	analyst_revision_5d	Quant	0.064
7	first_mention_new_segment	LLM	0.061
8	institutional_ownership_chg	Quant	0.055
9	size_log_mcap	Quant	0.048
10	conf_call_qa_dodge_rate	LLM	0.043

LLM features 在 top-10 中占 4 个，top-5 占 2 个。重要的是「LLM 抽取的是 quant 完全看不见的维度」：guidance tone shift、是否首次提及某 segment、Q&A 是否在回避问题——这些在传统 quant feature set 里没有对应物。

2.4 Sub-Period 稳健性

Period	Quant only IC	Q3 IC	LLM 边际贡献
2023H1（hawkish Fed）	0.034	0.052	+0.018
2023H2（rate plateau）	0.042	0.057	+0.015
2024H1（rate cut 预期反复）	0.029	0.046	+0.017
2024H2（AI capex 主题）	0.046	0.064	+0.018

结论：四个 sub-period 全部 LLM 边际贡献 > 0.015，没有任何一段 LLM 完全失效。这是比 full-period IC 更值得相信的信号——避免「过拟合到某个 regime」。

三、本周三个核心认知

认知 1：LLM 不是预测器，是特征提取器

这是 Phase 2 到目前为止最大的认知。

刚启动 Week 7 时我潜意识里把 LLM 当成「能直接预测涨跌的黑箱」——给它喂财报，问它「这只股票下季度会涨吗」。Day 46 第一版 prompt 就是这么写的，结果验证集 IC 接近 0。

转折发生在 Day 47 把 prompt 改成「从这份 10-Q 抽取以下 12 个结构化字段」之后。LLM 的输出立刻变得可用：

不要让 LLM 做「判断」（涨/跌、好/坏），让它做「抽取」（数据、词频、是否首次出现）
LLM 输出的「数据」喂给 XGBoost / LightGBM 做最终预测，让模型学因果
LLM 负责「把非结构化变成结构化」，模型负责「在结构化里找统计规律」

类比金融 PM 的经验：业务方的「直觉判断」（这单子能成）信号噪声很大，但业务方提供的「事实数据」（客户上次见面提了 3 次预算）信号很干净——LLM 跟业务方是一样的角色。

认知 2：$15/月 LLM 成本换 SP500 全量财报扫描 = 极不对称的杠杆

实际成本核算（按 Claude Sonnet 4.7 定价，2026-06）：

任务	Token 量	单次成本	月度频率	月度成本
10-Q 抽取（输入 30K + 输出 1K）	31K	$0.105	~500 份/季 ÷ 3 ≈ 170/月	$17.85
财报电话会 transcript 抽取	25K	$0.085	同上 170/月	$14.45
8-K 重大事件抽取	8K	$0.028	~80/月	$2.24
小计	—	—	—	~$34.5/月

加上 prompt caching（重复的 system prompt 和 schema），实际账单跑下来约 $22-28/月。

这是什么概念：传统机构做这件事需要雇 2-3 个 junior analyst 全职覆盖，年成本 $200K+。我个人花 $25/月做到 80% 的覆盖度。这是 fintech 里少见的「机构特权被技术打破」的窗口。

对个人量化的战略含义：

不要去做机构有数据/计算优势的事（HFT、做市、大单分拆）
要去做机构没动力 / 成本结构不划算的事：small-cap 的财报深度解析、低 coverage 标的的事件驱动
LLM 让「人力密集 + 标的分散」这一类工作的边际成本崩塌

认知 3：Pipeline 的工程难度 >> 模型本身

这周时间分配实际记录（按 commit + 时间日志统计）：

类别	实际耗时	占比
数据获取（EDGAR API / yfinance / IBKR）	9h	21%
文本清洗（HTML/PDF parsing、表格抽取）	11h	26%
Prompt engineering + schema 设计	7h	16%
Pipeline 调度 / 错误处理 / 重试	6h	14%
Feature engineering + Join	4h	9%
Model training + evaluation	3h	7%
笔记 / 复盘	3h	7%
合计	43h	100%

模型相关只占 23%（prompt + train + eval），数据工程占 70%。

这与 Andrew Ng 早就讲过的「ML in production 80% 是数据工程」完全一致。但金融 PM 视角里很容易忽视——我们习惯了用 PowerPoint 讨论「用 AI 做 XX」，把 AI 当成可以插电就用的黑箱。实际做下来才知道「数据进出」「错误处理」「成本控制」「schema 演化」才是 90% 的工作量。

对 PM 求职面试的迁移意义：被问「你怎么用 AI 提升 XX 流程」时，重点不要放在「调用什么模型」，要放在「数据通路怎么搭、错误怎么兜底、cost cap 怎么设、schema 怎么 evolve」。后者才是真懂过 LLM in production 的人才会答出来的。

四、AI 信号「能 work」的证据

把上面散落的证据集中放在一起，便于以后被人 challenge 时引用：

OOS IC 0.054（t-stat 3.6）显著为正，远超 2-sigma 阈值
Sharpe 从 0.71（quant）→ 1.04（quant+LLM），这是策略级别提升不是 noise
LLM features 在 model feature importance top-10 占 4 个，且 top-5 有 2 个
四个 sub-period 都有 +0.015 以上的边际 IC，没有 regime-dependent 失效
small-cap（mcap < $2B）子样本 LLM 边际贡献 0.026，large-cap 子样本仅 0.011 ——散户在 small-cap 上的相对优势更显著，符合机构 coverage 稀疏的先验
LLM features 与 quant features 相关性中位数 0.18（低），保证了 marginal value 不是共线性带来的虚高

五、AI 信号「不 work」的潜在反例（必须列出来）

诚实地做对立面分析，否则就是 motivated reasoning：

若 validation IC < 0.03 且 t-stat < 2 → 直接砍。本周实测 0.058 / 3.6 都通过，过关
若 LLM features 与 quant 相关性 > 0.5 → 砍。本周实测中位数 0.18，过关
若任何 sub-period 完全失效（IC < 0） → 砍或要求 regime detection。本周四个 sub-period 都 > 0.015，过关
若 small-cap 优势消失 → 警告（意味着 alpha 已被 arb）。本周 small-cap 边际 0.026 还在，过关
若 monthly LLM cost 超过 $100 → 砍（个人账户经济性破坏）。本周实测 $25，过关
若 Test 与 Validation 差异 > 30%（过拟合迹象） → 警告。本周 Validation 0.058 vs Test 0.054，差 7%，过关

六条 sanity check 全部 pass，结论：Phase 2 继续投入 LLM features，Week 8-10 进入「策略组合 + 实盘 paper trading」阶段。

六、本周潜在坑（已踩 + 待防）

6.1 已经踩过的坑

坑	表现	解决方案
LLM hallucination	第一版 prompt LLM 编造了不存在的 segment 名称	用 JSON schema + enum 限制 + 二次 self-check
PDF parse 错误	EDGAR 老格式 10-Q（2008 之前）OCR 失败率 30%	限定 universe 在 2010 后，并对 parse 失败做明确 `parse_failed=True` 标记而非静默 fillna
Rate limit	并发 50 时被限流	改成 token-bucket 限流 + 指数退避 + cache 命中检查
Prompt drift	中途升级 Claude 模型版本，部分字段输出格式微变	锁定 model snapshot 版本，evals 跑通才升级
Cost 失控	第一晚跑 batch 跑到 $14 还没停	强制设置 monthly budget cap，hit 后 hard stop

6.2 还没踩但要防的坑

坑	风险	预防
Look-ahead bias	用了「公告后才知道」的 LLM features 去预测「公告时」的反应	严格按 EDGAR 接收时间戳做时间对齐
Prompt 过拟合到 train 样本	在 train 期反复改 prompt 直到「好看」	Validation / Test 集只跑一次 prompt，迭代仅在 train
LLM 版本漂移导致历史 features 失效	Claude 4.7 → 5.x 后旧 features 不可复现	保存原始 LLM 输出 + raw prompt + model snapshot 三件套
多 LLM provider 切换破坏 feature consistency	万一 Anthropic API 中断换到 OpenAI	同一 feature 在两家上跑校准实验，确认 IC 稳定后才切

七、当前 AI 量化能力分级

能力	状态	说明
能用 LLM extract features	✓	Week 7 已实操
能 prompt engineering	✓	schema + self-check + few-shot 都用过
能搭 pipeline	△	端到端跑通，但调度自动化还在手工
能验证模型 OOS	△	做了 train/val/test 三段切分，但还没做 walk-forward 滚动验证
能做 prompt A/B testing	✗	目前 prompt 改了就改了，没有 evals + version control 体系
能用 fine-tuned model	✗	不需要——成本与收益不对称（fine-tune $5K+，但提升 < 5% IC）
能在 production 跑 LLM at scale	△	月度 $25 量级跑得动，年化几千美元也 OK，但若到月度 $500+ 还没系统性 cost control
能 debug LLM 异常输出	✓	已经有 schema validation + retry + alerting
能讲清楚 LLM 在 quant 中的边界	✓	三个核心认知能讲清楚

能力雷达（自评 1-5 分）

                     prompt eng (4)
                          *
              schema (4) /|\  pipeline (3)
                       / | \
        debug (4) ---*  |  *--- OOS valid (3)
                     \  |  /
              cost (4) \|/ A/B test (1)
                        *
                  fine-tune (0)

当前画像：合格的「LLM 应用工程师 + 量化研究员」组合，但还不是「LLM 平台工程师」。后者要求的 evals / prompt versioning / canary release / cost dashboard，这一周没碰。

八、PM 视角：AI 在不同领域的统一规律

10 年金融 PM 经验告诉我，今天 LLM 在 quant 上看到的现象，跟以前在 Web2 / Web3 / 零售 PM 时遇到的本质是同一套规律：

行业	「LLM 万能」误区	「LLM 优势」正解
金融 quant	让 LLM 直接预测涨跌	LLM 抽取财报/电话会的结构化字段，喂给统计模型
Web3 产品	让 LLM agent 直接做交易决策	LLM 解析白皮书、合约 doc、链上 tx 注释，辅助 PM 写分析
零售 PM	让 LLM 直接写需求文档	LLM 提取用户反馈中的结构化抱怨，辅助 PM 做归因
客服	让 LLM 直接回答用户	LLM 把用户问题 route 到正确知识库 + 给人工 agent 补充上下文

共性结论：找「LLM 优势」（非结构化处理 / 模式识别 / 跨语言 / 长文档总结）而非「LLM 万能」（直接决策 / 替代专家判断 / 端到端预测）。

这条规律对于 Web3 PM 求职面试也直接有用——被问「AI Agent 在 Web3 怎么落地」时，不要答「自动交易」（这是 LLM 万能误区），而是答「Intent 解析、协议文档解读、链上行为聚类、用户教育 onboarding」（这是 LLM 优势）。

九、Week 7 → Week 8 的衔接

9.1 Week 7 留下的「Phase 2 资产」

完成本周后，已经入库的可复用资产：

pipeline/edgar_fetch.py — EDGAR 自动抓取
pipeline/parse_10q.py — PDF/HTML → 文本
prompts/extract_10q_v3.md — 锁定版本的抽取 prompt
prompts/extract_call_v2.md — 财报电话会 prompt
models/xgb_q3_2024.pkl — 当前最优模型（IC 0.054）
notebooks/IC_eval_week7.ipynb — OOS 评估笔记
data/llm_features_2020_2024.parquet — 4 年全样本特征库

9.2 Week 8 预告（Day 52-60）

进入「组合管理 + 黑天鹅 + Phase 2 总结」：

Day	主题
Day 52	多策略归因 — 把 wheel / earnings IC / momentum / LLM-enhanced 四个策略的收益贡献拆开
Day 53	策略相关性矩阵 + Risk Parity 雏形
Day 54	单一策略 drawdown 上限 + portfolio-level circuit breaker
Day 55	黑天鹅 stress test（2020-03 / 2018-02 / 2008-09 历史复盘）
Day 56	Tail-risk hedge — 用 OTM put 做 portfolio insurance 的成本结构
Day 57	资金管理 — Kelly fraction 在多策略下的退化与修正
Day 58	Phase 2 笔记总归档 + 知识图谱整理
Day 59	Phase 2 面试题集（35 道）整理
Day 60	Phase 2 总结 + Phase 3 规划（实盘小资金试运行）

十、本周对 Phase 2 全局的影响

回到 Phase 2 启动时的元问题（Day 31 记的）：

「<$5k 的个人账户能否通过 LLM 获取传统量化没有的 edge？」

经过 Week 7 实证，答案是条件性 Yes：

✓ 在 small-cap / 低 coverage 标的上有 0.026 的边际 IC（条件 1）
✓ 成本结构经济（$25/月，可承受）（条件 2）
✓ 工程上可复现可监控（条件 3）
✗ 但不是「LLM 直接预测」，而是「LLM 抽取 → 模型预测」的两段式（条件 4 限定）
✗ 但需要持续监控 prompt drift / model upgrade 带来的 feature 不稳定（条件 5 限定）

作为 Phase 2 的核心结论，这一条会写进 Phase 2 总结里。也会作为求职面试时「你做过什么有意思的项目」的核心 talking point——具体到「Sharpe 0.71 → 1.04，月成本 $25，4 个 sub-period 全部 work」这种可量化的描述。

十一、执行记录

启动一项填一项。

[09:00] 完成 Week 7 七项交付物逐项打分
[10:30] 跑 Test 集（2024 全年）评估 — IC 0.054 显著
[12:00] 跑 sub-period 稳健性分析 — 四段都 work
[14:00] 计算月度 LLM 实际成本 — $25.30
[15:30] 整理 feature importance + 雷达图
[17:00] 写本笔记
[19:30] 写 Week 8 启动计划
[明日] 把 Test 集 IC 0.054 复盘的可视化图加进作品集
卡点 / 学到的：
- LLM 不是预测器是特征提取器——这条认知会改变我后续 Phase 3-4 所有相关设计
- 不要因为「投入感」而 motivated reasoning——sanity check 列表必须每周跑一遍
- 数据工程占 70% 工时这件事，作为 PM 以后做 AI 项目排期要直接乘 3 倍

总字数：约 5,900 字 今日完成度：复盘 ✓ / OOS 评估 ✓ / 能力分级 ✓ / Week 8 计划 ✓