· KEY Editorial Office · Transparency ·
大多数 AI 产品的"信任 signal"是 testimonial / star rating / 几万订阅用户数. 我们没有这些 — 我们刚开始, 邀请制内测中.
我们能给的信任 signal 只有一种: 把我们的内部审计数据直接公开.
每一份决策简报跑完后, 都被 7 个 Inspector check 和 1 套 12 维 Real Grader 评分. 这一页是我们的成绩单 — 不只是高分, 也包括我们目前还没做到 5/5 的地方.
Twelve-Dimension Grader
内部 Real Grader v3 框架: 每份决策输出在 12 个维度被独立评分 (满分 5).
评分由一组合成 persona (27 个常规 + 7 个对抗 + 3 个长程) 跑出来 — 不是用户给好评, 是我们用最难的 case 测自己.
12 维顺序按当前得分排, 最低的那几条排在最下面, 不藏.
综合均分
评分批次
最佳批次
最弱批次
尚无评分数据.
Seven Inspector Checks
除了 Grader 给分, 每次输出还过一道 Inspector. 它是规则引擎, 不是 LLM — 不会被自己的 reasoning 说服.
C1-C15 是 post-generation 审计 (输出后扫). C16 是 pre-injection 强制 (用户跨决策矛盾, 强行 surface 进 Brief).
V0 阶段 C1-C15 走 shadow 模式 — 命中只记日志, 不阻塞输出. 假阳性率 < 5% 后切 active.
Check 数
Active
Shadow
历史命中
AI 声称"我之前帮你 X / 跟你聊过 Y", 但实际无 RMC episodic 对应
AI 声称"我之前提醒过你 X", 但 prior decisions 无对应
AI 引用具体日期 / 星期, 跟真实时间不符
机械列表 / "尊敬的用户" / "加油" / "你已经很棒了" 等清单短语
AI 声称之前答应过, 但 commitments 表无任何记录
AI 引用的具体事实 (年龄/城市等) 跟 RMC 不符
用户跨决策矛盾 (e.g. 历史立场 vs 当前决策) 必须被 Brief 主动 surface
What We Have Produced
每份决策简报: 9 个 section + 附录, 2000-3500 字, 两轮 LLM (Analyst + Editor) 端到端 75-95 秒.
内测期数据小, 我们不藏数据, 也不放大数据.
累计生成
平均字数
Editor pass 通过率
Analyst 耗时
Editor 耗时
平均 tokens
最近 3 份 · 篇幅趋势
最近 3 份 · Analyst 耗时
数据范围: 自 KEY 决策 brief pipeline (Day 17, 2026-05-12) 上线以来累计. 邀请期内测中, 样本量小, 不放大. 数据每次有新 brief 生成时实时刷新.
What We Cannot Yet Measure
诚实声明: 上面的数字是我们能量化的部分. 决策这件事里, 最重要的几件事我们暂时无法量化.
— 用户做完决定 5 年后, 这个决定有没有变好他的生活? Outcome Ledger 30/90/365 天回访已上线, 但 5 年视角需要 5 年时间. 没法跳过.
— AI 写的 PreMortem 跟一位资深顾问写的 PreMortem 比较起来如何? 我们正在邀请几位行业资深者做盲评, 数据待出.
— 用户在长期使用后, 是变得更会做决定了, 还是更依赖我们了? 这是关系型 AI 最难的伦理题. 我们会用 Annie Duke 的"决策日志一致性"指标做长程评估, 但目前没有数据.
凡是我们没法量化的, 不在上面的数字里. 你看到的是真实而非全部.
How to Question Us
如果你看到一份具体的 KEY 输出觉得有问题 — 编了你没说过的事 / 说了一句鸡汤 / 漏掉了你之前提到过的关键事实 / 当前决策跟你历史立场矛盾但 Brief 没 surface — 请告诉我们.
Monthly Failure Log
"Fail visibly, not silently."
邀请期内, 任何被用户上报且我们承认的产品错误, 都会在这一节按月公示 — 错误内容 / 影响范围 / 修复进度.
数据空白时, 我们不会用"敬请期待"占位. 第一份月度公示在第一个真实错误被上报并修复后发布.
暂无已公示错误.
No entries yet.