分析February 17, 2026

用户偏好测试:Claude Sonnet 4.6 胜过 Opus 4.5

Anthropic 披露 59% 的用户在正面测试中偏爱 Sonnet 4.6 而非前旗舰 Opus 4.5,理由是更好的指令遵循。

用户偏好:Sonnet 4.6 胜过 Opus 4.5

Anthropic 公布的盲测数据显示,59% 的用户更偏好 Sonnet 4.6 的响应。

测试方法

  • 盲测设计:用户不知道哪个响应来自哪个模型
  • 大样本量的 A/B 测试
  • 涵盖多种任务类型

关键发现

Sonnet 4.6 胜出原因

1. 更好的指令遵循(67%) - 更准确地执行用户指令

2. 更少的幻觉(62%) - 更少的虚假信息

3. 更好的格式(58%) - 更清晰的输出结构

4. 更自然的语调(55%) - 更像人类的交互

Opus 4.5 仍胜出的领域

  • 极复杂推理任务
  • 非常长的上下文分析
  • 创意写作

影响

这颠覆了"旗舰模型总是最好"的假设。更新的中端模型可能在用户体验上超越旧旗舰。

总结

用户偏好测试表明模型选择不应仅基于基准分数。实际体验中,Sonnet 4.6 在多数场景下提供了更好的体验。

Ready to Experience Claude 5?

Try Now