
에이전트 & 아키텍처
내가 짠 에이전트는 평가가 딸려 오지 않는다
커스텀 에이전트를 평가하는 세 편(MAST·AgentRx·DRBench)을 방법론 중심으로 읽는다. 실패를 부를 어휘, 틀린 자리를 짚는 법, 내 데이터를 닮은 시험대. 연구실 규모를 빌더가 어떻게 골라 빌리나. 시리즈 3부

커스텀 에이전트를 평가하는 세 편(MAST·AgentRx·DRBench)을 방법론 중심으로 읽는다. 실패를 부를 어휘, 틀린 자리를 짚는 법, 내 데이터를 닮은 시험대. 연구실 규모를 빌더가 어떻게 골라 빌리나. 시리즈 3부

잘 패키징된 에이전트를 평가하는 세 편(TRACE·DeepHalluBench·TRAIL)을 방법론 중심으로 읽는다. 채점 방식을 바꾸는 고도, 주장을 검증하는 고도, 측정 바탕을 바꾸는 고도. 시리즈 2부

정답률 1등이 효용 점수 꼴찌가 되는 high-score illusion에서 시작해, 평가가 왜 과정으로 내려가는지와 일곱 편의 방법론 지형도를 깐다. 시리즈 1부
커스텀 에이전트를 평가하는 세 편(MAST·AgentRx·DRBench)을 방법론 중심으로 읽는다. 실패를 부를 어휘, 틀린 자리를 짚는 법, 내 데이터를 닮은 시험대. 연구실 규모를 빌더가 어떻게 골라 빌리나. 시리즈 3부
잘 패키징된 에이전트를 평가하는 세 편(TRACE·DeepHalluBench·TRAIL)을 방법론 중심으로 읽는다. 채점 방식을 바꾸는 고도, 주장을 검증하는 고도, 측정 바탕을 바꾸는 고도. 시리즈 2부
정답률 1등이 효용 점수 꼴찌가 되는 high-score illusion에서 시작해, 평가가 왜 과정으로 내려가는지와 일곱 편의 방법론 지형도를 깐다. 시리즈 1부