分析February 17, 2026

用户偏好测试：Claude Sonnet 4.6 胜过 Opus 4.5

Anthropic 披露 59% 的用户在正面测试中偏爱 Sonnet 4.6 而非前旗舰 Opus 4.5，理由是更好的指令遵循。

用户偏好：Sonnet 4.6 胜过 Opus 4.5

Anthropic 公布的盲测数据显示，59% 的用户更偏好 Sonnet 4.6 的响应。

测试方法

盲测设计：用户不知道哪个响应来自哪个模型

大样本量的 A/B 测试

涵盖多种任务类型

关键发现

Sonnet 4.6 胜出原因

1. 更好的指令遵循（67%） - 更准确地执行用户指令

2. 更少的幻觉（62%） - 更少的虚假信息

3. 更好的格式（58%） - 更清晰的输出结构

4. 更自然的语调（55%） - 更像人类的交互

Opus 4.5 仍胜出的领域

极复杂推理任务

非常长的上下文分析

创意写作

影响

这颠覆了"旗舰模型总是最好"的假设。更新的中端模型可能在用户体验上超越旧旗舰。

总结

用户偏好测试表明模型选择不应仅基于基准分数。实际体验中，Sonnet 4.6 在多数场景下提供了更好的体验。

Ready to Experience Claude 5?

Back to All News