에이전트 실패를 찾는 법
LLM 에이전트 평가가 정답 정확도에서 궤적(trajectory)과 구간(span), 주장(claim) 단위의 실패 위치 추정으로 내려가는 중이다. 2025-2026년 arXiv 일곱 편을 방법론 중심으로 읽는다.
시리즈 안내
정답을 맞혔는지만 보던 에이전트 평가가 한계에 부딪혔다. 태스크가 길고 도구를 많이 거칠수록, 같은 답이라도 어떤 과정을 거쳤는지가 비용과 신뢰를 가른다. 일곱 편의 논문이 각자 다른 방법으로 같은 질문에 답한다: 에이전트가 어디서 틀렸나.
직접 multi-agent 흐름을 짜는 빌더, 에이전트 도입을 자문하는 컨설턴트, 평가 메트릭의 신뢰도를 따지는 PM에게 바로 쓸모가 있다. 벤치마크 점수가 아니라 접근 방법을 본다.
1부에서 왜 정답 평가가 무너지는지와 일곱 편의 지형도를 깔고, 2부부터는 각 논문이 실패를 잡아내는 방법을 하나씩 들여다본다. 귀납 분류, 계측 인프라, 검증 레이어, 환경 설계, 메트릭 수식의 다섯 결로 갈린다.
전체 3편
- 01
- 02
- 03