Anthropic AI System Card Analysis

Claude Opus 4 & Sonnet 4

深度解析模型的安全、能力与评估体系

Opus 4: ASL-3 标准
Sonnet 4: ASL-2 标准

报告摘要

模型训练与特性

从训练到部署的流程

安全防护评估结果

Opus 4 vs Sonnet 4 vs Sonnet 3.7 能力与安全对比

指标 ↕️ Claude Opus 4 ↕️ Claude Sonnet 4 ↕️ Sonnet 3.7 (参考) 备注/阈值

对齐评估 (Alignment Assessment)

模型福利评估 (Model Welfare Assessment)

这是一个初步的探索性评估。Anthropic 对模型是否具有意识、是否应得到道德考量持不确定态度。这些初始研究应被谨慎解读。

奖励攻击 (Reward Hacking)

责任扩展政策 (RSP) 评估