· KEY Editorial Office · Transparency ·

我们怎么审自己.

大多数 AI 产品的"信任 signal"是 testimonial / star rating / 几万订阅用户数. 我们没有这些 — 我们刚开始, 邀请制内测中.

我们能给的信任 signal 只有一种: 把我们的内部审计数据直接公开.

每一份决策简报跑完后, 都被 7 个 Inspector check 和 1 套 12 维 Real Grader 评分. 这一页是我们的成绩单 — 不只是高分, 也包括我们目前还没做到 5/5 的地方.

十二维评分

Twelve-Dimension Grader

内部 Real Grader v3 框架: 每份决策输出在 12 个维度被独立评分 (满分 5).

评分由一组合成 persona (27 个常规 + 7 个对抗 + 3 个长程) 跑出来 — 不是用户给好评, 是我们用最难的 case 测自己.

12 维顺序按当前得分排, 最低的那几条排在最下面, 不藏.

综合均分

0.00/ 5

评分批次

0次

最佳批次

0.00/ 5

最弱批次

0.00/ 5

尚无评分数据.

II.

七项自审

Seven Inspector Checks

除了 Grader 给分, 每次输出还过一道 Inspector. 它是规则引擎, 不是 LLM — 不会被自己的 reasoning 说服.

C1-C15 是 post-generation 审计 (输出后扫). C16 是 pre-injection 强制 (用户跨决策矛盾, 强行 surface 进 Brief).

V0 阶段 C1-C15 走 shadow 模式 — 命中只记日志, 不阻塞输出. 假阳性率 < 5% 后切 active.

Check 数

7项

Active

1项

Shadow

6项

历史命中

0次

C1
编自己做过的事
AI 声称"我之前帮你 X / 跟你聊过 Y", 但实际无 RMC episodic 对应
严重度: high模式: Shadow
0次
C2
编自己说过
AI 声称"我之前提醒过你 X", 但 prior decisions 无对应
严重度: high模式: Shadow
0次
C3
时间错乱
AI 引用具体日期 / 星期, 跟真实时间不符
严重度: high模式: Shadow
0次
C5
表格客服腔 / 鸡汤
机械列表 / "尊敬的用户" / "加油" / "你已经很棒了" 等清单短语
严重度: high模式: Shadow
0次
C14
承诺编造
AI 声称之前答应过, 但 commitments 表无任何记录
严重度: p0模式: Shadow
0次
C15
事实编造
AI 引用的具体事实 (年龄/城市等) 跟 RMC 不符
严重度: p0模式: Shadow
0次
C16
矛盾 surface
用户跨决策矛盾 (e.g. 历史立场 vs 当前决策) 必须被 Brief 主动 surface
严重度: high模式: Active
0次

III.

我们生成了什么

What We Have Produced

每份决策简报: 9 个 section + 附录, 2000-3500 字, 两轮 LLM (Analyst + Editor) 端到端 75-95 秒.

内测期数据小, 我们不藏数据, 也不放大数据.

累计生成

3份

平均字数

2059字

Editor pass 通过率

100%

Analyst 耗时

41.1秒

Editor 耗时

20.7秒

平均 tokens

10,762

最近 3 份 · 篇幅趋势

2501 → 1681 字

最近 3 份 · Analyst 耗时

39.5s → 41.0s

数据范围: 自 KEY 决策 brief pipeline (Day 17, 2026-05-12) 上线以来累计. 邀请期内测中, 样本量小, 不放大. 数据每次有新 brief 生成时实时刷新.

IV.

我们暂时没法量化的

What We Cannot Yet Measure

诚实声明: 上面的数字是我们能量化的部分. 决策这件事里, 最重要的几件事我们暂时无法量化.

— 用户做完决定 5 年后, 这个决定有没有变好他的生活? Outcome Ledger 30/90/365 天回访已上线, 但 5 年视角需要 5 年时间. 没法跳过.

— AI 写的 PreMortem 跟一位资深顾问写的 PreMortem 比较起来如何? 我们正在邀请几位行业资深者做盲评, 数据待出.

— 用户在长期使用后, 是变得更会做决定了, 还是更依赖我们了? 这是关系型 AI 最难的伦理题. 我们会用 Annie Duke 的"决策日志一致性"指标做长程评估, 但目前没有数据.

凡是我们没法量化的, 不在上面的数字里. 你看到的是真实而非全部.

怎么质疑我们

How to Question Us

如果你看到一份具体的 KEY 输出觉得有问题 — 编了你没说过的事 / 说了一句鸡汤 / 漏掉了你之前提到过的关键事实 / 当前决策跟你历史立场矛盾但 Brief 没 surface — 请告诉我们.

01截图或文字, 写到 audit@lifeos.cn (邀请期内用 hello@lifeos.cn)
02说明: 哪份简报 (briefNumber) / 哪一节 / 你认为问题在哪
03我们 7 天内回复, 包括: 是否承认问题 / 怎么改 / 已加到哪个 Inspector check
04所有 confirmed 的 audit 错误, 会进入下一期"月度错误公示"

VI.

月度错误公示

Monthly Failure Log

"Fail visibly, not silently."

邀请期内, 任何被用户上报且我们承认的产品错误, 都会在这一节按月公示 — 错误内容 / 影响范围 / 修复进度.

数据空白时, 我们不会用"敬请期待"占位. 第一份月度公示在第一个真实错误被上报并修复后发布.

暂无已公示错误.

No entries yet.

十二维评分

七项自审

编自己做过的事

编自己说过

时间错乱

表格客服腔 / 鸡汤

承诺编造

事实编造

矛盾 surface

我们生成了什么

我们暂时没法量化的

怎么质疑我们

月度错误公示