Утечка данных обучения Claude 5 раскрывает секретную формулу Anthropic
Утечка документации по обучению показывает, что Claude 5 использует революционный метод «Конституционного самосовершенствования» и обучен на 12 триллионах токенов отфильтрованного кода.
Утечка раскрывает методы обучения Claude 5
Утечка внутренней документации проливает свет на революционный подход Anthropic к обучению.
Конституционное самосовершенствование (CSI)
Модель итеративно улучшает собственные ответы на основе конституционных принципов, без необходимости человеческой обратной связи на каждом шаге.
Данные обучения
- 12 триллионов токенов отфильтрованного кода
- Фильтрация качества на 3 уровнях
- Специальный набор данных для рассуждений
- Синтетические данные для граничных случаев
Ключевые инновации
1. Многоуровневая фильтрация кода — только высококачественный код
2. Самогенерируемые цепочки рассуждений — модель учится на собственном мыслительном процессе
3. Конституционный RLHF — выравнивание без массового человеческого труда
Заключение
Если утечка достоверна, CSI представляет прорыв в обучении ИИ-моделей, объясняющий прогнозируемый скачок производительности.