Anthropic (создатели Claude) опубликовали исследование «Measuring AI agent autonomy in practice» (18 февраля 2026). Команда проанализировала миллионы взаимодействий пользователей с агентами в Claude Code и через публичный API, применив собственный приватный аналитический инструмент Clio.


Цель — не “теория про агентов”, а практика: сколько автономии люди реально дают, как меняется поведение по мере опыта, в каких доменах работают агенты и насколько рискованны их действия.
В продакшене автономность — это не абстрактное “может ли модель”, а очень приземлённое “сколько времени и действий ей разрешают без человека”. Anthropic показывает, что латентная способность моделей выше, чем реальная автономия “в быту”: люди и продукты пока ограничивают самостоятельность сильнее, чем требуется по чистым возможностям модели.
Важно: в статье много аккуратных оговорок. Например, по публичному API у провайдера ограниченная видимость того, как устроены агентные системы клиентов, и классификация делается по контексту отдельных tool-call’ов — то есть “внешне автономное” действие может иметь человеческую проверку дальше по цепочке.
Самый показательный сигнал — не “среднее”, а хвост распределения: самые длинные отрезки автономной работы.
Anthropic фиксирует, что среди самых долгих запусков время автономной работы до остановки почти удвоилось за 3 месяца: с <25 минут до >45 минут. Рост плавный и не выглядит как реакция на релизы моделей, что намекает: дело не только в “умнее стало”, но и в том, как пользователи строят работу с агентом и как продукт поддерживает такие сценарии.
Техническая деталь, которую стоит сохранить в пересказах: в тексте отдельно указано, что речь про 99.9-й перцентиль длительности хода (turn duration) в интерактивных сессиях Claude Code (конец сентября/октябрь 2025 → начало января 2026).
Две ключевые метрики:
На первый взгляд противоречие (“доверяют больше, но вмешиваются чаще”). На практике это смена тактики надзора:
новички чаще “подтверждают каждый шаг”, поэтому реже нужно дёргать стоп-кран;
опытные чаще дают агенту ехать в автономном режиме — и вмешиваются точечно, когда нужна коррекция курса.
Один из самых полезных выводов для дизайна продуктов: надзор — это не только “human-in-the-loop”. Агент тоже участвует в управлении риском.
Anthropic пишет, что на самых сложных задачах Claude Code останавливается, чтобы задать уточняющий вопрос, более чем в 2 раза чаще, чем люди прерывают его вручную.
Практический смысл: хорошие агенты должны уметь распознавать неопределённость и просить ввод — это не “слабость”, а элемент безопасной автономии.
По данным Anthropic, почти половина агентной активности на публичном API приходится на разработку ПО (≈50%). Также виден рост в медицине, финансах и кибербезопасности, но пока не на сопоставимых объёмах.
Anthropic формулирует центральную мысль жёстко и полезно: эффективный надзор за агентами требует не только технических ограничений, но и новой инфраструктуры пост-деплойного мониторинга и паттернов взаимодействия, где человек и агент совместно управляют автономией и рисками.
Если вы внедряете агента в процессы (поддержка, продажи, аналитика, разработка, документооборот), вам нужны 4 вещи: