BenchmarksFebruary 17, 2026
Claude Sonnet 4.6: 72,5 % OSWorld – Computer-Use-Durchbruch
Claude Sonnet 4.6 erreicht 72,5 % auf OSWorld und setzt damit einen neuen Maßstab für KI-Computer-Nutzung.
Computer-Use-Durchbruch: 72,5 % OSWorld
Claude Sonnet 4.6 setzt mit 72,5 % auf OSWorld einen neuen Maßstab für KI-basierte Computer-Nutzung.
Was OSWorld misst
OSWorld bewertet, wie gut KI-Modelle Computer nutzen können:
- Desktop-Navigation
- Anwendungsbedienung
- Web-Browsing
- Dateimanagement
Ergebnisse im Vergleich
| Modell | OSWorld |
| Sonnet 4.6 | 72,5 % |
| Codex 5.3 | 64,7 % |
| GPT-5.1 | 58,3 % |
Praxisbedeutung
- Zuverlässige GUI-Automatisierung
- Testing durch visuelle Inspektion
- Automatisierte Datenextraktion aus Desktop-Anwendungen
- Workflow-Automatisierung über Anwendungsgrenzen hinweg
Fazit
Sonnet 4.6 macht Computer-Use praktikabel für Produktionsumgebungen.