Fable 五与 Mythos 五:Anthropic 把强模型拆成两道门1×0:005:270:07开场0:48能力与分层1:53护栏设计3:00风险背景3:43商业与监管4:33收尾0:07主播六月九日,Anthropic 发布 Claude Fable 五和 Claude Mythos 五。三天后,这两个模型又因为美国政府指令被暂停。上一期我们讲过暂停本身;这一期回头读发布原文,看它原本想解决什么问题。0:27主播这不是普通模型升级。Fable 五和 Mythos 五被描述成同一个底层模型的两种开放方式:Fable 给一般用户,但加上更重的安全分类器;Mythos 给少数网络防御者和基础设施伙伴,部分限制被拿掉。0:48主播Anthropic 说,Fable 五在软件工程、知识工作、视觉、科研和长任务上都强于此前 Claude。发布文举了五千万行 Ruby 代码迁移、复杂金融推理、从截图重建网页、视觉通关老游戏等例子。1:10主播这些例子大多来自 Anthropic 或早期客户,不能当成独立评测结论。它们更像是在说明方向:模型不只回答问题,而是持续执行任务、保留中间记忆,并在较长时间里调整自己的方案。1:29主播Mythos 五更敏感。它共享底层模型,但在网络安全等领域少了部分护栏。Anthropic 把它接到 Project Glasswing,给受信任的防御者使用。Glasswing 早期伙伴据称已找到一万多个高危或严重漏洞,后续难点变成验证、披露和修补。1:53主播Fable 五的核心机制是「回退」。当分类器判断请求涉及网络安全、生物化学或模型蒸馏风险时,系统不一定直接拒绝,而是把回答交给 Opus 四点八。Anthropic 称,超过百分之九十五的会话不会触发回退。2:16主播这个机制延续了 Anthropic 今年一月的 Constitutional Classifiers 研究。那篇文章说,新一代分类器先用轻量探针扫全部流量,再把可疑请求交给更强分类器。目标不是保证永远不被越狱,而是让通用越狱更慢、更贵、更容易被发现。2:40主播代价也清楚:误伤。发布文承认,防护调得偏保守,一些无害请求也会被拦住或回退。对用户来说,这意味着模型很强,但在某些专业问题上会突然换成另一套回答方式。3:00主播为什么网络安全被放在最前面?英国 AI Security Institute 今年五月的评估说,前沿模型能自主完成的网络任务时长,正在以几个月为单位翻倍。它还提到 Mythos Preview 和 GPT 五点五都明显高于原先趋势。3:21主播Frontier Model Forum 的报告也反复讨论两个阈值:模型是否提升低技能攻击者的能力,系统是否能更自主地完成端到端攻击。MITRE ATT&CK 能描述很多攻击阶段,但 AI 代理的连续编排,还没有被传统框架完全覆盖。3:43主播发布文还有商业信号:Fable 五和 Mythos 五定价为每百万输入 token 十美元、每百万输出 token 五十美元,低于 Mythos Preview 的一半。Anthropic 不是只做实验室演示,它想把更高一档能力带到真实用量里。4:03主播但六月十二日,美国政府要求暂停访问。Anthropic 反驳说,政府只给了口头证据,相关能力在其他公开模型中也能看到。同一时期,OpenAI 的 GPT 五点五系统卡也在强调网络安全、生物领域、红队和分类器。行业语言正在接近,争议在于谁能证明护栏足够。4:33主播所以,Fable 五是 Anthropic 的一次公开下注:用分类器、回退模型和三十天安全留存,把 Mythos 级能力带给普通用户。Mythos 五则是另一道门,只让少数防御场景先进去。4:53主播这套设计后来被政府指令打断,但问题还在。下一代模型如果继续变强,用户会问它为什么有时不回答,企业会问数据为什么要留存,政府会问谁来判断护栏够不够。Fable 五留下的,不只是基准分数,而是这些还没有稳定答案的问题。
このコンテンツについて、さらに観点や背景を補足しましょう。