Противостояние Terminal-Bench: Codex 5.3 (77.3%) против Claude Code (68.4%)
Глубокое погружение в результаты Terminal-Bench 2.0 с сравнением производительности Codex 5.3 и Claude Code в задачах автоматизации CLI, DevOps и терминальных рабочих процессах.
Terminal-Bench 2.0: финальный тест CLI
Terminal-Bench 2.0 стал эталонным бенчмарком для оценки способности ИИ-моделей работать с интерфейсами командной строки, рабочими процессами DevOps и задачами системного администрирования.
Общие результаты
Codex 5.3: 77.3% — новый лидер бенчмарка Claude Code (Opus 4.6): 68.4% — сильный, но отстающий Gemini 3 Pro: 64.1% — третье место Предыдущий лидер (GPT-5.2): 71.2% — свергнутПреимущество Codex в 8.9 процентных пункта над Claude означает значительные различия в реальной производительности.
Разбивка по категориям задач
Операции с Git (80 задач)
Codex 5.3: 84.2% Claude Code: 78.1%Примеры задач: сложные перебазирования, перенос коммитов между ветками, разрешение конфликтов слияния в нескольких файлах, интерактивное добавление
Победитель: Codex — более надёжен в сложных git-рабочих процессахСистемное администрирование (60 задач)
Codex 5.3: 79.8% Claude Code: 71.3%Примеры задач: управление правами пользователей, настройка cron-задач, анализ логов, мониторинг процессов
Победитель: Codex — превосходное владение командами Linux/UnixСборка и развёртывание (70 задач)
Codex 5.3: 81.4% Claude Code: 69.7%Примеры задач: многоэтапные сборки Docker, конфигурации Kubernetes, отладка CI/CD-пайплайнов, управление артефактами
Победитель: Codex — явное преимущество в автоматизации DevOpsCLI баз данных (50 задач)
Codex 5.3: 73.6% Claude Code: 68.9%Примеры задач: сложные запросы PostgreSQL через psql, агрегации MongoDB, миграции данных Redis, модификации схемы
Победитель: Codex — лучше в терминальном взаимодействии с базами данныхОперации с файловой системой (40 задач)
Codex 5.3: 69.2% Claude Code: 58.3%Примеры задач: рекурсивная манипуляция файлами с find/grep/sed, каскадирование прав, управление символическими ссылками, сложный rsync
Победитель: Codex — значительно сильнее в bash-скриптингеПочему Codex лидирует
1. Акцент на обучающих данных
Обучение Codex специально делало акцент на терминальных взаимодействиях и CLI-рабочих процессах, в отличие от более сбалансированного подхода Claude по различным доменам.
2. Надёжность выполнения
Codex генерирует команды, которые выполняются корректно с первого раза на 12% чаще, чем Claude, по результатам бенчмарк-тестирования.
3. Понимание контекста
Лучше поддерживает состояние в многошаговых терминальных рабочих процессах, требующих нескольких последовательных команд.
4. Восстановление после ошибок
При сбое команд Codex предоставляет более практичные предложения по отладке и альтернативные подходы.
Практические последствия
Для разработчиков и DevOps-инженеров, проводящих 30-50% дня в терминале, преимущества Codex означают:
Экономия времени: 15-20 минут в день за счёт более быстрого и надёжного выполнения терминальных задач Меньше ошибок: Меньше неудачных развёртываний и откатов из-за ошибок в терминальных командах Быстрая адаптация: Младшие инженеры могут безопасно выполнять сложные терминальные операции с помощью ИИ Сокращение документации: Терминальные команды самодокументируются через промпты на естественном языкеГде Claude конкурирует
Claude Code сохраняет преимущества в:
Интерактивная отладка: Лучше понимает сложные сообщения об ошибках и состояния системы Аудит безопасности: Более осторожен с деструктивными операциями, лучший анализ прав доступа Межсистемные рассуждения: Превосходит, когда терминальная работа требует понимания архитектуры приложенияСценарии использования: что выбрать
Выбирайте Codex 5.3 для:- Автоматизации DevOps и инфраструктуры как кода
- Автоматизации git-рабочих процессов и управления репозиториями
- Миграций баз данных и CLI-операций
- Настройки и оптимизации систем сборки
- Массового выполнения терминальных задач
- Операций, критичных для безопасности и требующих тщательного анализа
- Сложной отладки, требующей глубокого понимания системы
- Терминальной работы, интегрированной с архитектурой приложения
- Обучающих сценариев, где важны объяснения
Методология бенчмарка
Terminal-Bench 2.0 оценивает модели по:
- Точности генерации команд
- Выполнению многошаговых рабочих процессов
- Обработке ошибок и восстановлению
- Осведомлённости о безопасности и правах доступа
- Оптимизации производительности
Каждая задача получает бинарную оценку успех/неудача с частичным зачётом за правильный подход при незначительных синтаксических ошибках.
Реакции разработчиков
Результаты Terminal-Bench подтверждают то, что многие разработчики наблюдали эмпирически: Codex «ощущается быстрее и надёжнее» для повседневной терминальной работы.
Статья Builder.io заключает: «Для команд, живущих в терминале, Codex 5.3 — однозначный выбор. Claude остаётся ценным для задач сложных рассуждений.»
Заключение
Результат Codex 5.3 в 77.3% на Terminal-Bench утверждает его как ведущий ИИ-ассистент для программирования в CLI-интенсивных рабочих процессах. Разрыв в 8.9 пунктов с Claude Code (68.4%) отражает реальные различия в возможностях, влияющие на повседневную продуктивность разработчиков.
Для DevOps-инженеров, инфраструктурных команд и бэкенд-разработчиков, проводящих значительное время в терминале, Codex 5.3 предлагает измеримые преимущества в скорости, надёжности и проценте выполнения задач.