Наблюдаемость AI-агентов в production: трейсинг, метрики и LLM-as-a-Judge на Python
Разбираем полный стек observability для AI-агентов: трейсинг через OpenTelemetry, автоматическая оценка качества с LLM-as-a-Judge и DeepEval, метрики Tool Correctness и Task Completion — с рабочими примерами на Python.