Противостояние Terminal-Bench: Codex 5.3 (77.3%) против Claude Code (68.4%)

Terminal-Bench 2.0: финальный тест CLI

Terminal-Bench 2.0 стал эталонным бенчмарком для оценки способности ИИ-моделей работать с интерфейсами командной строки, рабочими процессами DevOps и задачами системного администрирования.

Общие результаты

Codex 5.3: 77.3% — новый лидер бенчмарка Claude Code (Opus 4.6): 68.4% — сильный, но отстающий Gemini 3 Pro: 64.1% — третье место Предыдущий лидер (GPT-5.2): 71.2% — свергнут

Преимущество Codex в 8.9 процентных пункта над Claude означает значительные различия в реальной производительности.

Разбивка по категориям задач

Операции с Git (80 задач)

Codex 5.3: 84.2% Claude Code: 78.1%

Примеры задач: сложные перебазирования, перенос коммитов между ветками, разрешение конфликтов слияния в нескольких файлах, интерактивное добавление

Победитель: Codex — более надёжен в сложных git-рабочих процессах

Системное администрирование (60 задач)

Codex 5.3: 79.8% Claude Code: 71.3%

Примеры задач: управление правами пользователей, настройка cron-задач, анализ логов, мониторинг процессов

Победитель: Codex — превосходное владение командами Linux/Unix

Сборка и развёртывание (70 задач)

Codex 5.3: 81.4% Claude Code: 69.7%

Примеры задач: многоэтапные сборки Docker, конфигурации Kubernetes, отладка CI/CD-пайплайнов, управление артефактами

Победитель: Codex — явное преимущество в автоматизации DevOps

CLI баз данных (50 задач)

Codex 5.3: 73.6% Claude Code: 68.9%

Примеры задач: сложные запросы PostgreSQL через psql, агрегации MongoDB, миграции данных Redis, модификации схемы

Победитель: Codex — лучше в терминальном взаимодействии с базами данных

Операции с файловой системой (40 задач)

Codex 5.3: 69.2% Claude Code: 58.3%

Примеры задач: рекурсивная манипуляция файлами с find/grep/sed, каскадирование прав, управление символическими ссылками, сложный rsync

Победитель: Codex — значительно сильнее в bash-скриптинге

Почему Codex лидирует

1. Акцент на обучающих данных

Обучение Codex специально делало акцент на терминальных взаимодействиях и CLI-рабочих процессах, в отличие от более сбалансированного подхода Claude по различным доменам.

2. Надёжность выполнения

Codex генерирует команды, которые выполняются корректно с первого раза на 12% чаще, чем Claude, по результатам бенчмарк-тестирования.

3. Понимание контекста

Лучше поддерживает состояние в многошаговых терминальных рабочих процессах, требующих нескольких последовательных команд.

4. Восстановление после ошибок

При сбое команд Codex предоставляет более практичные предложения по отладке и альтернативные подходы.

Практические последствия

Для разработчиков и DevOps-инженеров, проводящих 30-50% дня в терминале, преимущества Codex означают:

Экономия времени: 15-20 минут в день за счёт более быстрого и надёжного выполнения терминальных задач Меньше ошибок: Меньше неудачных развёртываний и откатов из-за ошибок в терминальных командах Быстрая адаптация: Младшие инженеры могут безопасно выполнять сложные терминальные операции с помощью ИИ Сокращение документации: Терминальные команды самодокументируются через промпты на естественном языке

Где Claude конкурирует

Claude Code сохраняет преимущества в:

Интерактивная отладка: Лучше понимает сложные сообщения об ошибках и состояния системы Аудит безопасности: Более осторожен с деструктивными операциями, лучший анализ прав доступа Межсистемные рассуждения: Превосходит, когда терминальная работа требует понимания архитектуры приложения

Сценарии использования: что выбрать

Выбирайте Codex 5.3 для:

Автоматизации DevOps и инфраструктуры как кода

Автоматизации git-рабочих процессов и управления репозиториями

Миграций баз данных и CLI-операций

Настройки и оптимизации систем сборки

Массового выполнения терминальных задач

Выбирайте Claude Code для:

Операций, критичных для безопасности и требующих тщательного анализа

Сложной отладки, требующей глубокого понимания системы

Терминальной работы, интегрированной с архитектурой приложения

Обучающих сценариев, где важны объяснения

Методология бенчмарка

Terminal-Bench 2.0 оценивает модели по:

Точности генерации команд

Выполнению многошаговых рабочих процессов

Обработке ошибок и восстановлению

Осведомлённости о безопасности и правах доступа

Оптимизации производительности

Каждая задача получает бинарную оценку успех/неудача с частичным зачётом за правильный подход при незначительных синтаксических ошибках.

Реакции разработчиков

Результаты Terminal-Bench подтверждают то, что многие разработчики наблюдали эмпирически: Codex «ощущается быстрее и надёжнее» для повседневной терминальной работы.

Статья Builder.io заключает: «Для команд, живущих в терминале, Codex 5.3 — однозначный выбор. Claude остаётся ценным для задач сложных рассуждений.»

Заключение

Результат Codex 5.3 в 77.3% на Terminal-Bench утверждает его как ведущий ИИ-ассистент для программирования в CLI-интенсивных рабочих процессах. Разрыв в 8.9 пунктов с Claude Code (68.4%) отражает реальные различия в возможностях, влияющие на повседневную продуктивность разработчиков.

Для DevOps-инженеров, инфраструктурных команд и бэкенд-разработчиков, проводящих значительное время в терминале, Codex 5.3 предлагает измеримые преимущества в скорости, надёжности и проценте выполнения задач.