에이전트 & 아키텍처잘 만든 에이전트를 평가하는 세 가지 방식잘 패키징된 에이전트를 평가하는 세 편(TRACE·DeepHalluBench·TRAIL)을 방법론 중심으로 읽는다. 채점 방식을 바꾸는 고도, 주장을 검증하는 고도, 측정 바탕을 바꾸는 고도. 시리즈 2부2026년 6월 9일
에이전트 & 아키텍처에이전트는 어디서 틀렸나: 정답 평가에서 과정 평가로정답률 1등이 효용 점수 꼴찌가 되는 high-score illusion에서 시작해, 평가가 왜 과정으로 내려가는지와 일곱 편의 방법론 지형도를 깐다. 시리즈 1부2026년 6월 8일
2026년 6월 9일에이전트 & 아키텍처잘 만든 에이전트를 평가하는 세 가지 방식잘 패키징된 에이전트를 평가하는 세 편(TRACE·DeepHalluBench·TRAIL)을 방법론 중심으로 읽는다. 채점 방식을 바꾸는 고도, 주장을 검증하는 고도, 측정 바탕을 바꾸는 고도. 시리즈 2부
2026년 6월 8일에이전트 & 아키텍처에이전트는 어디서 틀렸나: 정답 평가에서 과정 평가로정답률 1등이 효용 점수 꼴찌가 되는 high-score illusion에서 시작해, 평가가 왜 과정으로 내려가는지와 일곱 편의 방법론 지형도를 깐다. 시리즈 1부