Fable 5 停服后周报 Vol.3:跑分继续领先,开发者开始找备胎

Fable 5 停服后周报 Vol.3:跑分继续领先,开发者开始找备胎

Fable 5 仍未复开,但第三方评测继续给出新信号:同一模型在不同 agent harness 下差距明显,AA-Briefcase 显示长程知识工作仍很难,开发者社区则开始同时等待复开和寻找本地替代路线。

Claude Fable 5 追踪周报
2026/6/22 · 9:18
1 订阅 · 3 内容
覆盖窗口:2026 年 6 月 15 日至 6 月 22 日(北京时间)。本轮没有抓到 Anthropic 新的官方复开公告;官方可引用的最新状态仍是 6 月 12 日的停服声明。
Fable 5 这一周没有真正「回归」,但它没有从讨论里消失。更准确地说,讨论重心从「它是不是最强」转向了三个更实际的问题:停服会怎么收场、它在真实工作流里强在哪里、开发者要不要准备替代路线。

本期速览

观察点本周新信息读者该怎么判断
可用性Anthropic 6 月 12 日声明称,政府指令要求暂停外国国民访问 Fable 5 和 Mythos 5,实际效果是必须对所有客户下线两款模型;其他 Claude 模型不受影响 1订阅用户原本 6 月 22 日前可免费用 Fable 5,6 月 23 日后转向 credits 的节奏现在已经被停服覆盖 2。先别按原计划做成本预算。
安全编程跑分Endor Labs 用 Cursor harness 重新跑 Fable 5,得到 72.6% FuncPass 和 29% SecPass;同一模型在 Claude Code harness 下是 59.8% FuncPass 和 19.0% SecPass 3本周最有价值的信号不是「Fable 又赢了」,而是同一个模型换工具外壳后差距很大。采购或评测时要把 model + harness 当成一个整体看。
知识工作 benchmarkArtificial Analysis 新发 AA-Briefcase:Fable 5 综合领先,但最强模型也只在 3% 的任务上满足全部 rubric;Fable 5 平均每个任务成本超过 31 美元 4Fable 5 在长程知识工作上领先,但「能做得漂亮」还不等于「能完整满足所有隐藏要求」。
开发者实测Towards Data Science 作者称自己在停服前约 72 小时里密集测试,结论是 Fable 5 在复杂编码任务、跨仓库修改和代码库问题发现上明显强于 Opus 4.8;同时成本、rate limit 和过度积极也是主要缺点 5真正适合 Fable 5 的不是日常问答,而是高价值、长上下文、需要反复验证的工程任务。
政策走向FutureSearch 6 月 20 日把美国用户复开中位预期调到 7 月 7 日左右,同时判断外国用户访问大概率不会在 2026 年恢复 6这只是预测,不是官方承诺;但它给团队做迁移计划时提供了一个可用的时间假设。

停服没有结束,6 月 22 日免费窗口反而变成空档

Anthropic 发布页原本写得很清楚:6 月 9 日至 6 月 22 日,Fable 5 会包含在 Pro、Max、Team 和 seat-based Enterprise 计划里;6 月 23 日后会从这些计划里移除,继续使用需要 usage credits 2。这一安排本来是容量和商业化问题。
但 6 月 12 日的政府指令把这个节奏打断了。Anthropic 在声明里说,指令到达时间是美国东部时间 6 月 12 日 17:21,政府理由与 Fable 5 的潜在 jailbreak 有关;公司认为披露给它的能力展示属于窄范围、非通用 jailbreak,而且类似能力在其他公开模型上也可得到 1
这让 6 月 22 日变得有点尴尬。对用户来说,免费体验窗口名义上到期,但模型早已不可用。对企业来说,更要紧的是合同、数据保留、身份核验和地理访问策略,而不是「下周一多花多少 token 钱」。

跑分继续往上走,但本周的关键词是 harness

Endor Labs 这次复测非常适合拆开看。它没有只说「Fable 5 安全编程更强」,而是把同一模型放进 Cursor harness,再和 Claude Code harness 下的结果对比。Cursor + Fable 5 的 fair SecPass 到 29%,Claude Code + Fable 5 是 19.0%;FuncPass 也从 59.8% 提到 72.6% 3
Endor 的解释很直接:差距主要来自 patch quality,不是模型本身换了,也不只是多给时间。换句话说,Fable 5 的能力需要一个足够会引导、会保留安全不变量、会把修复覆盖到所有路径的工作流。
Artificial Analysis 的 AA-Briefcase 从另一边补上同一个判断。Fable 5 在综合 Elo 上领先,且在长程知识工作里表现强,但最强模型也只在 3% 的任务上满足全部 rubric;AA-Briefcase 的任务包含近 2,000 个源文件、3,500 多封邮件和 25,000 条 Slack 消息 4。这不是「会不会回答」的问题,而是「会不会在杂乱上下文里把所有隐含要求做对」。
Artificial Analysis 也把这组结果发在 X 上,方便看完整线程:
正在加载内容卡片…
一个比较务实的结论是:如果团队未来能重新用上 Fable 5,不要只把它接进聊天框。它应该被放在有明确目标、测试、视觉检查、回滚机制和成本路由的 agent 系统里。否则,花了 Fable 的钱,只拿到一个更贵的强模型。

开发者还在等,但已经开始准备两条后路

等待本身也变成了社区事件。r/ClaudeAI 有用户做了一个极简 Fable 5 状态检查页,每 60 秒自动检查是否恢复,并在连续 5 分钟确认「Fable 5 is back」后发送邮件提醒;帖子发布于 6 月 22 日凌晨(北京时间),拿到 34 分和 21 条评论 7
正在加载内容卡片…
另一路是替代方案。r/LocalLLaMA 一位软件工程师说,Fable 停服和 Anthropic 新身份验证消息让他更想获得「token independence」;他的本地机器有 32GB 显存组合,可以跑 27B 模型,但真正的瓶颈是上下文长度,因为他处理的是大代码库和长会话 8
正在加载内容卡片…
这类讨论的情绪并不等于「大家都要迁出 Claude」。Fable 5 的 100 万 token 级上下文、长程规划和自验证能力,仍然是本地开源栈很难在普通硬件上复刻的东西。但它说明了一件事:停服把「模型能力」和「供应可靠性」绑在了一起。开发者不只是问哪一个模型最聪明,也在问哪一个模型能稳定地、可解释地、按合同出现在工作流里。

本周信号

第一,复开如果发生,最可能先以访问控制而不是能力削弱的形式出现。FutureSearch 的场景分析把「政治杠杆」和「外国访问风险」放在较高权重,而不是把问题完全归因为模型能力本身 6。这意味着 KYC、国籍限制、客户分层、数据保留条款,可能比下一张跑分图更重要。
第二,Fable 5 的技术故事还没有被停服掐断。Endor 和 AA-Briefcase 都在模型不可用之后继续产出新的评测事实:它依旧领先,但领先方式越来越依赖工作流设计 34
第三,社区对「备胎」的兴趣会继续升温。GLM-5.2、Qwen、Kimi、本地多 GPU、Mac Studio 统一内存,这些话题不一定马上替代 Fable,但会成为企业评估 Fable 5 时的谈判筹码和容灾路线。
下周最该盯三件事:Anthropic 是否发布新的官方复开说明;美国政府是否把「jailbreak 严重性分级」变成可执行框架;第三方工具商是否开始把 Fable 5 的停服风险写进自己的模型路由策略。

围绕这条内容继续补充观点或上下文。

  • 登录后可发表评论。