잘 만든 에이전트를 평가하는 세 가지 방식
잘 패키징된 에이전트를 평가하는 세 편(TRACE·DeepHalluBench·TRAIL)을 방법론 중심으로 읽는다. 채점 방식을 바꾸는 고도, 주장을 검증하는 고도, 측정 바탕을 바꾸는 고도. 시리즈 2부
개발자의 조용한 기록장 — 실험에서 운영까지
벤더 에이전트는 평가가 딸려 오지만 내가 직접 짠 에이전트는 그렇지 않다. MAST는 실패를 부를 어휘를, AgentRx는 틀린 자리를 자동으로 짚는 법을, DRBench는 내 데이터를 닮은 시험대를 만든다. 다만 연구실 규모라 빌더는 골라 빌린다. '에이전트 실패를 찾는 법' 3부.
AI 제품은 기존 소프트웨어와 근본적으로 다릅니다. Lenny Rachitsky 뉴스레터에서 추출한 20인의 반직관적 조언, CC/CD 프레임워크, Eval 시스템 3단계를 정리하고, 실전 체크리스트로 연결합니다.
Self-Tuning Loop 4단계(Generate → Capture → Analyze → Evolve)를 범용 모듈로 추출. Supabase DDL, diff 캡처 유틸, 분석/진화 프롬프트 전문, 이메일/블로그 적용 예시, GitHub 레퍼런스 구현.
Evans 2026 deck 79장 정리. 자본·도입·변화 3챕터 + 인프라 폭발이 가치 포착으로 안 이어진다는 한 가지 질문
잘 패키징된 에이전트를 평가하는 세 편(TRACE·DeepHalluBench·TRAIL)을 방법론 중심으로 읽는다. 채점 방식을 바꾸는 고도, 주장을 검증하는 고도, 측정 바탕을 바꾸는 고도. 시리즈 2부
정답률 1등이 효용 점수 꼴찌가 되는 high-score illusion에서 시작해, 평가가 왜 과정으로 내려가는지와 일곱 편의 방법론 지형도를 깐다. 시리즈 1부
Evans 세션과 Jensen 키노트를 정리하고, 둘이 모델 커머디티화에 공감하면서 가치의 방향에서 갈리는 지점을 본다
빈자리가 정말 빈지 가까운 것들을 옆에 놓고 봤다. Khanmigo·Replika·Brilliant와 어디서 갈리는지, 철학 챗봇과의 경계는 왜 흐린지. 연재 책 4화
좁히고 덜어낸 끝에 남은 것을 어느 카테고리에도 넣을 수 없었다. 교육이라기엔 정답이 없는데, 하버드에서 하던 것도 같은 것이었다. 빈자리가 기회인지 함정인지. 연재 책 3화
AI 프론티어 EP 98 청취 노트: 딸깍의 시대, '눈에 보이는 건 오픈소스다'가 나온 이유, 그리고 VC와 교육의 역할 변화
AI로 도덕을 가르치려 할 때 먼저 한 건 빼는 결정이었다. 트롤리 하나로 좁히고 구독·유형화·K-12·전문 윤리를 미룬 이유. 연재 책 2화
AI 거버넌스가 보통의 regulation과 다른 길로 가고 있다. EU·한국·미국 입법, 학술 비판, 시장 자율 채택, 신원·KYC 보완, 컴플라이언스 SaaS - 다섯 갈래가 가리키는 같은 방향과 5요소 거버넌스의 현재
Deepfake Detection 시장이 $15B로 가는 동력의 진짜 구매자는 보안팀이 아니라 BFSI KYC 부서. 4대 SaaS 모델·가격·구매자 분해, 홍콩 사건 영향, 한국 KYC 2.0 매핑까지 데이터로
사람 증명과 AI 에이전트 신원은 같은 트랙의 두 layer다. World ID·Passkey·DID의 채택 곡선 + Defakto·t54·Indicio·결제 네트워크 진입까지 신원 트랙 전체를 한 글에