
에이전트는 어디서 처음 틀렸나: 평가가 주장 단위까지 내려가다
주장(claim) 단위로 내려가 답에 영향 준 오류 구간을 표시하는 DRIFT와 TELBench를 읽는다. 유해 구간 찾기는 절반까지 올라왔지만 첫 오류는 ~20%에서 막힌다. 시리즈 4부, 마지막

주장(claim) 단위로 내려가 답에 영향 준 오류 구간을 표시하는 DRIFT와 TELBench를 읽는다. 유해 구간 찾기는 절반까지 올라왔지만 첫 오류는 ~20%에서 막힌다. 시리즈 4부, 마지막

커스텀 에이전트를 평가하는 세 편(MAST·AgentRx·DRBench)을 방법론 중심으로 읽는다. 실패를 부를 어휘, 틀린 자리를 짚는 법, 내 데이터를 닮은 시험대. 연구실 규모를 빌더가 어떻게 골라 빌리나. 시리즈 3부

잘 패키징된 에이전트를 평가하는 세 편(TRACE·DeepHalluBench·TRAIL)을 방법론 중심으로 읽는다. 채점 방식을 바꾸는 고도, 주장을 검증하는 고도, 측정 바탕을 바꾸는 고도. 시리즈 2부
주장(claim) 단위로 내려가 답에 영향 준 오류 구간을 표시하는 DRIFT와 TELBench를 읽는다. 유해 구간 찾기는 절반까지 올라왔지만 첫 오류는 ~20%에서 막힌다. 시리즈 4부, 마지막
커스텀 에이전트를 평가하는 세 편(MAST·AgentRx·DRBench)을 방법론 중심으로 읽는다. 실패를 부를 어휘, 틀린 자리를 짚는 법, 내 데이터를 닮은 시험대. 연구실 규모를 빌더가 어떻게 골라 빌리나. 시리즈 3부
잘 패키징된 에이전트를 평가하는 세 편(TRACE·DeepHalluBench·TRAIL)을 방법론 중심으로 읽는다. 채점 방식을 바꾸는 고도, 주장을 검증하는 고도, 측정 바탕을 바꾸는 고도. 시리즈 2부
정답률 1등이 효용 점수 꼴찌가 되는 high-score illusion에서 시작해, 평가가 왜 과정으로 내려가는지와 일곱 편의 방법론 지형도를 깐다. 시리즈 1부