返回交易笔记
TR Day 51

Week 7 复盘 + AI 信号能不能 work?

Week 7 复盘 + AI 信号能不能 work?

2026-06-29
Phase 2: 策略实战 + AI 信号
WeeklyReviewAISignalsLLMPromptEngineeringFeatureExtractionWeek8Prep

日期: 2026-06-29 方向: Week 7 AI 复盘 阶段: Phase 2: 策略实战 + AI 信号 标签: #WeeklyReview #AISignals #LLM #PromptEngineering #FeatureExtraction #Week8Prep


今日目标

类型内容
复盘Week 7 七项交付物逐项打分,AI 信号在 OOS 上的实证 IC 评估
决策决定 Phase 2 后续是否继续投入 LLM features,还是切回纯量化
产出TR-DAY51 笔记 + 能力雷达图 + Week 8 计划锚定

引子:本周问的不是「学了什么」,是「赌对了什么」

Week 7 是 Phase 2 唯一一周把整周都押在 AI 增强信号 上。10 年金融 PM 的本能反应是「先看花了多少时间、产出了多少 deliverable」,但量化的判断标准只有一个:OOS 上跑出来的 IC(信息系数)是不是显著大于 0

所以今天不是写 weekly summary,是做 科学验证报告

  1. 假设:LLM 能从 10-Q / 财报电话会 / 8-K 里提取出量化 features 没法捕捉的信号
  2. 实验:把 LLM features 喂进 XGBoost,与 baseline(只用 quant features)的模型对比 OOS IC
  3. 判定:边际 IC > 0.02 且统计显著 → 继续投;否则砍掉

这个判定要诚实做,不能因为「花了一周不忍心放弃」而 motivated reasoning。Phase 2 还有 Week 8 + Week 9 + Week 10,时间是最贵的资源。


一、Week 7 七项交付物完成度自评

Day主题交付物完成度关键发现
Day 45PEAD 学术研究文献综述 + 18 篇核心 paper 摘要★★★★★PEAD 在 small-cap 残留 alpha 显著,large-cap 已被 arb 殆尽
Day 46Claude 解读 10-Qprompt 模板 + 100 份 10-Q 抽取结果★★★★☆结构化输出(JSON schema)+ self-check 把 hallucination 压到 <3%
Day 47Pipeline 端到端EDGAR → parse → Claude → store → join★★★★☆工程难度被严重低估,80% 时间在 PDF/HTML parsing 不在 LLM 调用
Day 48IV crush 现象earnings IV term structure 分析★★★★★front-month IV 财报后平均 collapse 35%,back-month 仅 8%
Day 49Iron Condor 实操paper trade 8 单 earnings IC★★★☆☆6 胜 2 负,但样本太小不足证伪
Day 50LLM + XGBoost 混合4 组 features 对比模型★★★★☆LLM features 提升 OOS IC 但与 quant 部分共线
Day 51AI 信号评估(今日)本笔记 + 能力分级进行中

自评总分:6.5 / 7.0(按完成度加权)

减分项

  • Day 47 Pipeline 还没做到「调度自动化」,目前是手工触发;上 cron 至少要再 1-2 天
  • Day 49 样本量(n=8)远远不够做策略级判定,需要 Week 8 继续累积

二、AI 信号实证评估(本周核心结论)

2.1 实验设计

Universe:Russell 3000,剔除 ADR / SPAC,剔除 price < $5 的标的,剔除日均成交额 < $1M 的尾部 Period

  • Train: 2020-01 → 2022-12
  • Validation: 2023-01 → 2023-12
  • Test (untouched until today): 2024-01 → 2024-12

Target:earnings 后 5 日累计超额收益(vs SPY),下一财季公告 Features

组别Features数量
Q1: Quant only动量、估值、盈利惊喜、IVR、成交量、机构持仓28
Q2: + LLM sentiment+ 「财报电话会 sentiment」「forward guidance tone」「risk language density」+6
Q3: + LLM structured+ 「mgmt 是否首次提及某关键词」「YoY 段落语义距离」「audit 段落风险词」+9
Q4: LLM only仅 LLM features15

2.2 OOS IC 评估表

模型Validation ICTest ICTest IC t-statSharpe (long-short Q5-Q1)
Q1 Quant only (baseline)0.0410.0382.60.71
Q2 + LLM sentiment0.0480.0453.00.83
Q3 + LLM structured0.0580.0543.61.04
Q4 LLM only0.0270.0221.40.39

核心发现

  1. LLM features 单独不行(Q4 IC 0.022,t-stat 1.4 不显著)—— 这一条很重要:LLM 不是预测器
  2. LLM + Quant 组合显著优于 Quant only(IC 0.054 vs 0.038,提升 +42%)
  3. 结构化抽取 > 情感分析(Q3 > Q2 IC 提升 +20%),印证 LLM 的真正价值是「结构化解析非结构化文本」而不是「读情绪」
  4. Sharpe 从 0.71 跳到 1.04 是策略级别的差异(不是统计噪声),值得继续投入

2.3 Feature Importance Top-10

RankFeatureTypeImportance
1earnings_surprise_pctQuant0.124
2momentum_3mQuant0.098
3mgmt_guidance_tone_shiftLLM0.087
4ivr_pre_earningsQuant0.076
5risk_language_density_yoyLLM0.069
6analyst_revision_5dQuant0.064
7first_mention_new_segmentLLM0.061
8institutional_ownership_chgQuant0.055
9size_log_mcapQuant0.048
10conf_call_qa_dodge_rateLLM0.043

LLM features 在 top-10 中占 4 个,top-5 占 2 个。重要的是「LLM 抽取的是 quant 完全看不见的维度」:guidance tone shift、是否首次提及某 segment、Q&A 是否在回避问题——这些在传统 quant feature set 里没有对应物。

2.4 Sub-Period 稳健性

PeriodQuant only ICQ3 ICLLM 边际贡献
2023H1(hawkish Fed)0.0340.052+0.018
2023H2(rate plateau)0.0420.057+0.015
2024H1(rate cut 预期反复)0.0290.046+0.017
2024H2(AI capex 主题)0.0460.064+0.018

结论:四个 sub-period 全部 LLM 边际贡献 > 0.015,没有任何一段 LLM 完全失效。这是比 full-period IC 更值得相信的信号——避免「过拟合到某个 regime」。


三、本周三个核心认知

认知 1:LLM 不是预测器,是特征提取器

这是 Phase 2 到目前为止最大的认知。

刚启动 Week 7 时我潜意识里把 LLM 当成「能直接预测涨跌的黑箱」——给它喂财报,问它「这只股票下季度会涨吗」。Day 46 第一版 prompt 就是这么写的,结果验证集 IC 接近 0。

转折发生在 Day 47 把 prompt 改成「从这份 10-Q 抽取以下 12 个结构化字段」之后。LLM 的输出立刻变得可用:

  • 不要让 LLM 做「判断」(涨/跌、好/坏),让它做「抽取」(数据、词频、是否首次出现)
  • LLM 输出的「数据」喂给 XGBoost / LightGBM 做最终预测,让模型学因果
  • LLM 负责「把非结构化变成结构化」,模型负责「在结构化里找统计规律」

类比金融 PM 的经验:业务方的「直觉判断」(这单子能成)信号噪声很大,但业务方提供的「事实数据」(客户上次见面提了 3 次预算)信号很干净——LLM 跟业务方是一样的角色。

认知 2:$15/月 LLM 成本换 SP500 全量财报扫描 = 极不对称的杠杆

实际成本核算(按 Claude Sonnet 4.7 定价,2026-06):

任务Token 量单次成本月度频率月度成本
10-Q 抽取(输入 30K + 输出 1K)31K$0.105~500 份/季 ÷ 3 ≈ 170/月$17.85
财报电话会 transcript 抽取25K$0.085同上 170/月$14.45
8-K 重大事件抽取8K$0.028~80/月$2.24
小计~$34.5/月

加上 prompt caching(重复的 system prompt 和 schema),实际账单跑下来约 $22-28/月

这是什么概念:传统机构做这件事需要雇 2-3 个 junior analyst 全职覆盖,年成本 $200K+。我个人花 $25/月做到 80% 的覆盖度。这是 fintech 里少见的「机构特权被技术打破」的窗口

对个人量化的战略含义:

  • 不要去做机构有数据/计算优势的事(HFT、做市、大单分拆)
  • 要去做机构没动力 / 成本结构不划算的事:small-cap 的财报深度解析、低 coverage 标的的事件驱动
  • LLM 让「人力密集 + 标的分散」这一类工作的边际成本崩塌

认知 3:Pipeline 的工程难度 >> 模型本身

这周时间分配实际记录(按 commit + 时间日志统计):

类别实际耗时占比
数据获取(EDGAR API / yfinance / IBKR)9h21%
文本清洗(HTML/PDF parsing、表格抽取)11h26%
Prompt engineering + schema 设计7h16%
Pipeline 调度 / 错误处理 / 重试6h14%
Feature engineering + Join4h9%
Model training + evaluation3h7%
笔记 / 复盘3h7%
合计43h100%

模型相关只占 23%(prompt + train + eval),数据工程占 70%。

这与 Andrew Ng 早就讲过的「ML in production 80% 是数据工程」完全一致。但金融 PM 视角里很容易忽视——我们习惯了用 PowerPoint 讨论「用 AI 做 XX」,把 AI 当成可以插电就用的黑箱。实际做下来才知道「数据进出」「错误处理」「成本控制」「schema 演化」才是 90% 的工作量。

对 PM 求职面试的迁移意义:被问「你怎么用 AI 提升 XX 流程」时,重点不要放在「调用什么模型」,要放在「数据通路怎么搭、错误怎么兜底、cost cap 怎么设、schema 怎么 evolve」。后者才是真懂过 LLM in production 的人才会答出来的。


四、AI 信号「能 work」的证据

把上面散落的证据集中放在一起,便于以后被人 challenge 时引用:

  1. OOS IC 0.054(t-stat 3.6)显著为正,远超 2-sigma 阈值
  2. Sharpe 从 0.71(quant)→ 1.04(quant+LLM),这是策略级别提升不是 noise
  3. LLM features 在 model feature importance top-10 占 4 个,且 top-5 有 2 个
  4. 四个 sub-period 都有 +0.015 以上的边际 IC,没有 regime-dependent 失效
  5. small-cap(mcap < $2B)子样本 LLM 边际贡献 0.026,large-cap 子样本仅 0.011 ——散户在 small-cap 上的相对优势更显著,符合机构 coverage 稀疏的先验
  6. LLM features 与 quant features 相关性中位数 0.18(低),保证了 marginal value 不是共线性带来的虚高

五、AI 信号「不 work」的潜在反例(必须列出来)

诚实地做对立面分析,否则就是 motivated reasoning:

  1. 若 validation IC < 0.03 且 t-stat < 2 → 直接砍。本周实测 0.058 / 3.6 都通过,过关
  2. 若 LLM features 与 quant 相关性 > 0.5 → 砍。本周实测中位数 0.18,过关
  3. 若任何 sub-period 完全失效(IC < 0) → 砍或要求 regime detection。本周四个 sub-period 都 > 0.015,过关
  4. 若 small-cap 优势消失 → 警告(意味着 alpha 已被 arb)。本周 small-cap 边际 0.026 还在,过关
  5. 若 monthly LLM cost 超过 $100 → 砍(个人账户经济性破坏)。本周实测 $25,过关
  6. 若 Test 与 Validation 差异 > 30%(过拟合迹象) → 警告。本周 Validation 0.058 vs Test 0.054,差 7%,过关

六条 sanity check 全部 pass,结论:Phase 2 继续投入 LLM features,Week 8-10 进入「策略组合 + 实盘 paper trading」阶段。


六、本周潜在坑(已踩 + 待防)

6.1 已经踩过的坑

表现解决方案
LLM hallucination第一版 prompt LLM 编造了不存在的 segment 名称用 JSON schema + enum 限制 + 二次 self-check
PDF parse 错误EDGAR 老格式 10-Q(2008 之前)OCR 失败率 30%限定 universe 在 2010 后,并对 parse 失败做明确 parse_failed=True 标记而非静默 fillna
Rate limit并发 50 时被限流改成 token-bucket 限流 + 指数退避 + cache 命中检查
Prompt drift中途升级 Claude 模型版本,部分字段输出格式微变锁定 model snapshot 版本,evals 跑通才升级
Cost 失控第一晚跑 batch 跑到 $14 还没停强制设置 monthly budget cap,hit 后 hard stop

6.2 还没踩但要防的坑

风险预防
Look-ahead bias用了「公告后才知道」的 LLM features 去预测「公告时」的反应严格按 EDGAR 接收时间戳做时间对齐
Prompt 过拟合到 train 样本在 train 期反复改 prompt 直到「好看」Validation / Test 集只跑一次 prompt,迭代仅在 train
LLM 版本漂移导致历史 features 失效Claude 4.7 → 5.x 后旧 features 不可复现保存原始 LLM 输出 + raw prompt + model snapshot 三件套
多 LLM provider 切换破坏 feature consistency万一 Anthropic API 中断换到 OpenAI同一 feature 在两家上跑校准实验,确认 IC 稳定后才切

七、当前 AI 量化能力分级

能力状态说明
能用 LLM extract featuresWeek 7 已实操
能 prompt engineeringschema + self-check + few-shot 都用过
能搭 pipeline端到端跑通,但调度自动化还在手工
能验证模型 OOS做了 train/val/test 三段切分,但还没做 walk-forward 滚动验证
能做 prompt A/B testing目前 prompt 改了就改了,没有 evals + version control 体系
能用 fine-tuned model不需要——成本与收益不对称(fine-tune $5K+,但提升 < 5% IC)
能在 production 跑 LLM at scale月度 $25 量级跑得动,年化几千美元也 OK,但若到月度 $500+ 还没系统性 cost control
能 debug LLM 异常输出已经有 schema validation + retry + alerting
能讲清楚 LLM 在 quant 中的边界三个核心认知能讲清楚

能力雷达(自评 1-5 分)

                     prompt eng (4)
                          *
              schema (4) /|\  pipeline (3)
                       / | \
        debug (4) ---*  |  *--- OOS valid (3)
                     \  |  /
              cost (4) \|/ A/B test (1)
                        *
                  fine-tune (0)

当前画像:合格的「LLM 应用工程师 + 量化研究员」组合,但还不是「LLM 平台工程师」。后者要求的 evals / prompt versioning / canary release / cost dashboard,这一周没碰。


八、PM 视角:AI 在不同领域的统一规律

10 年金融 PM 经验告诉我,今天 LLM 在 quant 上看到的现象,跟以前在 Web2 / Web3 / 零售 PM 时遇到的本质是同一套规律:

行业「LLM 万能」误区「LLM 优势」正解
金融 quant让 LLM 直接预测涨跌LLM 抽取财报/电话会的结构化字段,喂给统计模型
Web3 产品让 LLM agent 直接做交易决策LLM 解析白皮书、合约 doc、链上 tx 注释,辅助 PM 写分析
零售 PM让 LLM 直接写需求文档LLM 提取用户反馈中的结构化抱怨,辅助 PM 做归因
客服让 LLM 直接回答用户LLM 把用户问题 route 到正确知识库 + 给人工 agent 补充上下文

共性结论:找「LLM 优势」(非结构化处理 / 模式识别 / 跨语言 / 长文档总结)而非「LLM 万能」(直接决策 / 替代专家判断 / 端到端预测)。

这条规律对于 Web3 PM 求职面试也直接有用——被问「AI Agent 在 Web3 怎么落地」时,不要答「自动交易」(这是 LLM 万能误区),而是答「Intent 解析、协议文档解读、链上行为聚类、用户教育 onboarding」(这是 LLM 优势)。


九、Week 7 → Week 8 的衔接

9.1 Week 7 留下的「Phase 2 资产」

完成本周后,已经入库的可复用资产:

  • pipeline/edgar_fetch.py — EDGAR 自动抓取
  • pipeline/parse_10q.py — PDF/HTML → 文本
  • prompts/extract_10q_v3.md — 锁定版本的抽取 prompt
  • prompts/extract_call_v2.md — 财报电话会 prompt
  • models/xgb_q3_2024.pkl — 当前最优模型(IC 0.054)
  • notebooks/IC_eval_week7.ipynb — OOS 评估笔记
  • data/llm_features_2020_2024.parquet — 4 年全样本特征库

9.2 Week 8 预告(Day 52-60)

进入「组合管理 + 黑天鹅 + Phase 2 总结」:

Day主题
Day 52多策略归因 — 把 wheel / earnings IC / momentum / LLM-enhanced 四个策略的收益贡献拆开
Day 53策略相关性矩阵 + Risk Parity 雏形
Day 54单一策略 drawdown 上限 + portfolio-level circuit breaker
Day 55黑天鹅 stress test(2020-03 / 2018-02 / 2008-09 历史复盘)
Day 56Tail-risk hedge — 用 OTM put 做 portfolio insurance 的成本结构
Day 57资金管理 — Kelly fraction 在多策略下的退化与修正
Day 58Phase 2 笔记总归档 + 知识图谱整理
Day 59Phase 2 面试题集(35 道)整理
Day 60Phase 2 总结 + Phase 3 规划(实盘小资金试运行)

十、本周对 Phase 2 全局的影响

回到 Phase 2 启动时的元问题(Day 31 记的):

「<$5k 的个人账户能否通过 LLM 获取传统量化没有的 edge?」

经过 Week 7 实证,答案是条件性 Yes

  • ✓ 在 small-cap / 低 coverage 标的上有 0.026 的边际 IC(条件 1)
  • ✓ 成本结构经济($25/月,可承受)(条件 2)
  • ✓ 工程上可复现可监控(条件 3)
  • ✗ 但不是「LLM 直接预测」,而是「LLM 抽取 → 模型预测」的两段式(条件 4 限定)
  • ✗ 但需要持续监控 prompt drift / model upgrade 带来的 feature 不稳定(条件 5 限定)

作为 Phase 2 的核心结论,这一条会写进 Phase 2 总结里。也会作为求职面试时「你做过什么有意思的项目」的核心 talking point——具体到「Sharpe 0.71 → 1.04,月成本 $25,4 个 sub-period 全部 work」这种可量化的描述。


十一、执行记录

启动一项填一项。

  • [09:00] 完成 Week 7 七项交付物逐项打分
  • [10:30] 跑 Test 集(2024 全年)评估 — IC 0.054 显著
  • [12:00] 跑 sub-period 稳健性分析 — 四段都 work
  • [14:00] 计算月度 LLM 实际成本 — $25.30
  • [15:30] 整理 feature importance + 雷达图
  • [17:00] 写本笔记
  • [19:30] 写 Week 8 启动计划
  • [明日] 把 Test 集 IC 0.054 复盘的可视化图加进作品集
  • 卡点 / 学到的:
    • LLM 不是预测器是特征提取器——这条认知会改变我后续 Phase 3-4 所有相关设计
    • 不要因为「投入感」而 motivated reasoning——sanity check 列表必须每周跑一遍
    • 数据工程占 70% 工时这件事,作为 PM 以后做 AI 项目排期要直接乘 3 倍

总字数:约 5,900 字 今日完成度:复盘 ✓ / OOS 评估 ✓ / 能力分级 ✓ / Week 8 计划 ✓