EN

#observability

4 posts

에이전트는 어디서 처음 틀렸나: 평가가 주장 단위까지 내려가다

에이전트 & 아키텍처

에이전트는 어디서 처음 틀렸나: 평가가 주장 단위까지 내려가다

주장(claim) 단위로 내려가 답에 영향 준 오류 구간을 표시하는 DRIFT와 TELBench를 읽는다. 유해 구간 찾기는 절반까지 올라왔지만 첫 오류는 ~20%에서 막힌다. 시리즈 4부, 마지막

2026년 6월 22일

내가 짠 에이전트는 평가가 딸려 오지 않는다

에이전트 & 아키텍처

내가 짠 에이전트는 평가가 딸려 오지 않는다

커스텀 에이전트를 평가하는 세 편(MAST·AgentRx·DRBench)을 방법론 중심으로 읽는다. 실패를 부를 어휘, 틀린 자리를 짚는 법, 내 데이터를 닮은 시험대. 연구실 규모를 빌더가 어떻게 골라 빌리나. 시리즈 3부

2026년 6월 12일

잘 만든 에이전트를 평가하는 세 가지 방식

에이전트 & 아키텍처

잘 만든 에이전트를 평가하는 세 가지 방식

잘 패키징된 에이전트를 평가하는 세 편(TRACE·DeepHalluBench·TRAIL)을 방법론 중심으로 읽는다. 채점 방식을 바꾸는 고도, 주장을 검증하는 고도, 측정 바탕을 바꾸는 고도. 시리즈 2부

2026년 6월 9일

All Posts

2026년 6월 22일에이전트 & 아키텍처

에이전트는 어디서 처음 틀렸나: 평가가 주장 단위까지 내려가다

주장(claim) 단위로 내려가 답에 영향 준 오류 구간을 표시하는 DRIFT와 TELBench를 읽는다. 유해 구간 찾기는 절반까지 올라왔지만 첫 오류는 ~20%에서 막힌다. 시리즈 4부, 마지막

2026년 6월 12일에이전트 & 아키텍처

내가 짠 에이전트는 평가가 딸려 오지 않는다

커스텀 에이전트를 평가하는 세 편(MAST·AgentRx·DRBench)을 방법론 중심으로 읽는다. 실패를 부를 어휘, 틀린 자리를 짚는 법, 내 데이터를 닮은 시험대. 연구실 규모를 빌더가 어떻게 골라 빌리나. 시리즈 3부

2026년 6월 9일에이전트 & 아키텍처

잘 만든 에이전트를 평가하는 세 가지 방식

잘 패키징된 에이전트를 평가하는 세 편(TRACE·DeepHalluBench·TRAIL)을 방법론 중심으로 읽는다. 채점 방식을 바꾸는 고도, 주장을 검증하는 고도, 측정 바탕을 바꾸는 고도. 시리즈 2부

2026년 6월 8일에이전트 & 아키텍처

에이전트는 어디서 틀렸나: 정답 평가에서 과정 평가로

정답률 1등이 효용 점수 꼴찌가 되는 high-score illusion에서 시작해, 평가가 왜 과정으로 내려가는지와 일곱 편의 방법론 지형도를 깐다. 시리즈 1부