Anthropic의 Advisor Tool을 두 번 읽고 떠오른 생각. 이건 새 아키텍처가 아니라 2026년 가격 구조에 맞춰진 임시 해법이다. Opus 가격이 내려가면 사라질 패턴이고, 같은 시기 다른 11편의 논문도 결국 같은 방향으로 움직이고 있다. 시리즈의 앵커.
두 번 읽어야 보이는 것
2026년 4월, Anthropic은 Advisor Tool을 공식 문서에 조용히 추가했다. 문서만 읽으면 평범한 기능 확장이다. 실행 모델(Sonnet 4.6 혹은 Haiku 4.5)이 생성 도중 Opus 4.7을 조언자로 호출해 짧은 계획·수정 조언을 받는다. 공식 벤치마크에 따르면 SWE-bench Multilingual에서 Sonnet 단독 대비 +2.7%p 상승, 비용은 11.9% 감소. Haiku 4.5의 BrowseComp는 19.7%에서 41.2%로 뛴다.
문서를 끝까지 읽고 나면 “Opus를 조언자, Sonnet/Haiku를 실행자로 쓰는 효율적 구성” 정도의 감상이 남는다. 한 번 더 읽으면 다른 것이 보인다. 이 구조는 지난 3년간 학계와 업계가 당연하다고 믿어온 Orchestration의 역할 배치를 정확히 반대로 세우고 있다.
전통적으로 에이전트 시스템은 똑똑한 모델이 운전하고 작은 모델이 보조 작업을 분담하는 구조였다. Plan-and-Act(arxiv 2503.09572)에서 Plan-and-Solve까지, 거의 모든 planner-executor 패턴이 이 가정을 공유한다. Planner는 상위 능력, Executor는 하위 능력.
Advisor는 이를 반대로 뒤집는다. Sonnet·Haiku가 생성을 주도하고, Opus는 중간에 한 번 불려 와 조언만 남기고 사라진다. 주도권은 작은 모델에 있고, 큰 모델은 보조다.
이 글은 Advisor Tool 한 건을 “2026년의 반전”이라는 관점으로 살핀 뒤, 같은 시기에 발표된 Agent Orchestration 논문 11편을 관통하는 하나의 공통 동작이 무엇인지 짚는다. 결론을 먼저 말하면, 2026년 2분기에 쏟아진 Agent Orchestration 연구의 대부분은 새 구조의 발명이 아니라 기존 역할 배치의 역전이다. 그리고 그 중심에 있는 Advisor Tool에 대해 학계가 정리하기 전에 짚어둘 게 있다. 이건 건축 패턴이 아니라 가격표다.
Advisor가 뒤집은 세 가지 가정
Anthropic 공식 문서에 공개된 Advisor Tool의 구성은 다음과 같다.
| 구성 | 역할 | 사용 모델 |
|---|---|---|
| Executor | 요청을 받아 생성을 수행 | Sonnet 4.6 / Haiku 4.5 / Opus 4.6 |
| Advisor | Executor가 호출할 때만 진입, 짧은 조언 반환 | Opus 4.7 |
| Trigger | Executor가 자체 판단으로 호출 | Tool use 형식 |
표면적으로는 단순한 tool use 패턴이다. 그런데 이 구조는 Agent Orchestration의 전통적 가정 세 가지를 동시에 뒤집는다.
주도권이 작은 모델에 있다
전통적 planner-executor 구조에서 주도권은 planner에게 있다. Plan-and-Act 논문도, ReAct 후속 연구들도, 모두 계획자가 전체 흐름을 통제하고 실행자는 그 계획을 따른다는 전제에서 출발한다.
Advisor Tool은 이 축을 반대로 세운다. Executor가 자신의 판단으로 언제 Advisor를 부를지 결정한다. Opus는 부름을 받는 위치에 있다. 계약 관계로 치면 Sonnet이 Opus를 고용한 구조다.
조언은 계획이 아니라 수정이다
전통적 planner는 시작 시점에 전체 계획을 만든다. Executor는 그 계획을 끝까지 실행한다.
Advisor는 실행 도중에 불려 와 짧은 조언만 남기고 사라진다. 이것은 계획(planning)이 아니라 경로 수정(course correction)에 가깝다. 계획 수립 권한이 아니라 피드백 권한만 부여된 상위 모델 — 2023–2025년 패턴에서는 보기 드문 역할이다.
비용이 거꾸로 흐른다
세 번째가 이 글의 핵심이다.
기존 cost-aware orchestration은 작은 모델로 대부분을 처리하고 어려운 문제만 큰 모델에 올리는 방향이었다. xRouter(arxiv 2510.08439)가 그렇다. 난이도를 평가해 적절한 모델로 보낸다.
Advisor는 이 방향을 뒤집는다. 일단 작은 모델로 전부 실행하고, 필요할 때만 큰 모델의 조언을 샘플링한다. 차이는 벤치마크가 아니라 경제학에서 분명해진다.
공식 벤치마크 숫자를 보면 Sonnet + Opus-advisor는 Sonnet 단독 대비 성능 +2.7%p, 비용 -11.9%다. 즉, 비용을 줄이면서 성능이 오른다. 성능-비용 Pareto frontier를 밀어낸 것처럼 보인다.
여기서 멈추면 안 된다.
Advisor는 건축이 아니라 가격표다
Advisor Tool의 벤치마크 수치는 2026년 4월 현재의 가격 구조를 전제로 계산된다.
가격의 산수
2026년 4월 기준 Anthropic API의 모델 간 가격 비율은 대략 다음과 같다. 정확한 단가는 platform.claude.com 가격 페이지에 있다.
| 모델 | Sonnet 대비 | Haiku 대비 |
|---|---|---|
| Opus 4.7 | 약 5배 | 약 19배 |
| Sonnet 4.6 | 1 | 약 4배 |
| Haiku 4.5 | 0.25 | 1 |
이 비율이 Advisor Tool이 비용 -11.9%를 달성하는 수학적 근거다.
모든 스텝에서 Opus를 driver로 쓴다고 가정하자. 평균 8–12회의 tool use loop에서 출력이 매 스텝마다 1K–3K 토큰이라면, Opus output만으로 스텝당 비용이 누적된다. SWE-bench 수준의 태스크 1건 해결 비용은 Opus 단독 구성에서 $2~$5에 이른다.
Sonnet을 driver로 쓰고 Opus를 가끔 부르는 조언자로만 쓰면 어떻게 될까. 전체 생성 토큰의 대부분이 Sonnet 가격으로 처리되고, Opus는 짧은 조언 구간(400–700 토큰)에만 기여한다. Opus 비용이 전체의 10–20% 수준으로 억제된다.
Advisor Tool의 성능-비용 역전은 결국 Opus의 가격이 Sonnet의 5배라는 현재 조건이 만든 결과다.
2027년에는 어떻게 될까
여기가 핵심이다. -11.9% 비용 절감 효과는 다음 세 조건 중 하나라도 깨지면 무너진다.
- Opus 4.7의 가격이 현재의 1/3 수준으로 떨어질 때
- Sonnet 4.7이 Opus 4.6과 동등하거나 그 이상의 성능을 가질 때
- Haiku 세대가 현재 Sonnet 수준의 추론 능력을 내면서 가격은 유지될 때
2025–2026년 Claude 모델 가격 궤적을 보면 셋 중 최소 하나는 12–18개월 안에 발생할 가능성이 높다. Sonnet 4.6은 1년 전 Opus 4.5와 성능이 거의 같다. 가격은 1/5이다. 이 비율이 한 세대 더 반복되면 Advisor Tool의 구조적 근거는 사라진다.
건축 패턴은 기술 제약이 바뀌어도 가치를 유지한다. 가격 아키텍처는 가격이 바뀌면 무너진다.
실무 관점
AI 도입 전략 관점에서 Advisor Tool을 볼 때 두 가지를 구분해야 한다.
하나, Advisor는 단기 arbitrage pattern이다. 2026년 현재 Anthropic 가격 체계에 최적화된 구성이며, Opus-class 모델이 Sonnet-class 가격으로 내려오는 시점에 의미를 잃는다.
둘, Advisor의 사상(작은 모델이 주도하고 큰 모델은 샘플링으로 호출)은 남는다. 다만 이 사상은 이미 xRouter, SLM-first orchestration, cost-aware routing 같은 형태로 더 일반적으로 표현되고 있다. Advisor는 그중 한 가격대에 최적화된 특수 해다.
엔터프라이즈가 2026년에 Advisor 기반으로 AI 도입을 결정한다면, 계약서에 이런 조항이 있어야 한다.
Opus-class 모델 가격이 기준선 대비 50% 이상 하락할 경우, 본 구성의 비용 효율성은 재평가되어야 하며, 그 시점까지의 lock-in 비용은 X원을 초과하지 않는다.
건축 패턴이 아니라 가격표이기 때문에, 도입 결정도 가격표처럼 유효기간을 가진다.
11편을 관통하는 동작: 역전
Advisor Tool이 단발성 이벤트였다면 이 글은 여기서 끝났다. 그런데 이상한 점이 있다. 2026년 1–2분기에 쏟아진 Agent Orchestration 연구 11편을 한꺼번에 놓고 보면 전부 같은 동작을 한다. 기존의 역할 배치를 뒤집는다.
네 갈래의 역전
| 어디서 | 전통적 배치 | 2026년의 배치 | 대표 연구 |
|---|---|---|---|
| 능력 계층 | 큰 모델이 주도, 작은 모델이 보조 | 작은 모델이 주도, 큰 모델이 조언 | Anthropic Advisor Tool |
| 평가 주체 | 인간이 에이전트를 평가 | 에이전트가 에이전트를 평가 | AJ-Bench (huggingface 2604.18240) |
| 학습 시점 | 훈련 시점에 학습 종료, 배포 시 고정 | 배포 후에도 학습 지속 | ALTK-Evolve (IBM Research) |
| 학습 장소 | 가중치(weights)에 학습 | 컨텍스트(context)에 학습 | SKILL0 (huggingface 2604.02268) |
flowchart LR
subgraph OLD["2023~2025 전통 배치"]
A1["큰 모델: 주도"]
A2["인간: 평가"]
A3["훈련: 학습 종료"]
A4["가중치: 학습 장소"]
end
subgraph NEW["2026 Q2 역전"]
B1["작은 모델: 주도"]
B2["에이전트: 평가"]
B3["배포: 학습 지속"]
B4["컨텍스트: 학습 장소"]
end
A1 -.역전.-> B1
A2 -.역전.-> B2
A3 -.역전.-> B3
A4 -.역전.-> B4
왜 같은 시기에 함께 뒤집히는가
우연이 아니다. 네 축의 역전은 같은 경제·기술적 조건이 촉발한 것이다.
모델 가격 피라미드가 안정화됐다. Opus·Sonnet·Haiku의 3단 가격 비율이 안정되면서 큰 모델을 아끼는 것이 가장 큰 비용 레버가 됐다. Advisor·xRouter·SLM-first가 동시에 부상한 이유다.
다중 에이전트 시스템이 보편화됐다. 2025년 말부터 여러 에이전트가 한 태스크에서 동시에 돌아가면서, 누가 누구를 평가하느냐는 문제가 새로 생겼다. 인간이 매 agent turn을 평가할 수 없으니 AJ-Bench 같은 agent-as-judge가 등장했다.
컨텍스트 창이 1M 토큰으로 확장됐다. Claude Opus 4.7이 1M context를 제공하면서 in-context learning이 특정 범위에서 fine-tuning을 대체할 수 있게 됐다. SKILL0의 in-context agentic RL 주장은 이 조건 위에서만 성립한다.
에이전트가 프로덕션에 들어갔다. 실험실이 아니라 고객 환경에서 돌아가기 시작하면서 task distribution이 배포 후에 계속 변한다는 사실이 드러났다. ALTK-Evolve 같은 on-the-job 학습 연구가 필요해진 이유다.
네 조건이 동시에 만족된 시점이 2026년 1–2분기였고, 그래서 역전이 네 군데에서 거의 동시에 발생했다. 새 구조의 발명이 아니라 조건 변화에 대한 불가피한 재배치로 읽는 것이 정확하다.
다음에 뒤집힐 이분법들
이 프레임을 믿는다면 예측이 가능해진다. 아직 뒤집히지 않은 이분법은 순서대로 역전될 것이다.
| 현재의 이분법 | 역전 가능성 | 촉발 조건 |
|---|---|---|
| Synthetic data ↔ Real data | 높음 | Synthetic 품질이 임계점을 넘는 시점 |
| Online inference ↔ Offline batch | 중간 | 배치 비용이 실시간보다 5배 이상 싸지는 시점 |
| Model ↔ Tool | 중간 | Tool이 모델을 호출하는 역전이 이미 Managed Agents에서 시작됨 |
| Single-agent ↔ Multi-agent | 낮음 | 이미 부분 역전 진행 중, 어디까지 쪼갤지가 미해결 |
이 중 Model ↔ Tool 축은 이미 Anthropic의 Managed Agents에서 균열이 시작됐다. 2026년 하반기에 가장 주목할 역전 축이다.
연구가 산업을 따라가는 중
이 글의 마지막 관찰은 한 걸음 물러난 것이다.
여기서 다룬 11편은 모두 2025년 중반부터 2026년 4월 사이에 발표됐다. 그런데 이 논문들이 다루는 패턴 중 상당수는 이미 production에서 해결되어 돌아가고 있던 것이다.
- Advisor 패턴의 사상 — Claude Code가 2025년 말부터 subagent 호출 구조로 구현해왔다. 작은 에이전트가 주도하고 필요할 때 큰 모델을 부르는 형태.
- Agent-as-judge — Cursor를 비롯한 production 코딩 도구들이 이미 2025년부터 내부 평가에 다른 에이전트를 사용해왔다.
- DAG orchestration — LangGraph가 2024년부터 표준화했다. From Agent Loops to Structured Graphs(arxiv 2604.11378) 논문은 이를 사후 이론화한 것이다.
- Hierarchical MAS — AutoGen(2024)·MetaGPT(2023)가 이미 프레임워크 수준에서 제공했다.
2026년 2분기의 진실은 단순하다. Agent Orchestration 연구는 production이 먼저 풀어낸 것을 학계가 정리하는 단계에 와 있다.
AI 전략 관점에서는 이 비대칭이 실무에 그대로 들어온다. arxiv 레퍼런스로 기업 도입을 설득하는 것보다 Claude Code 소스코드나 LangGraph 구현을 직접 시연하는 것이 더 빠르고 정확하다. 2026년 현재 Orchestration 설계의 진짜 정보는 논문이 아니라 도구 레포지토리에 있다.
논문이 production을 따라가는 상태에서, 새 논문이 나올 때마다 “이미 우리가 하고 있는 것”이라는 반응이 많다면 그 조직은 건강하다. 새 논문이 충격적으로 들리면 그 조직은 production tool 선택에서 뒤처져 있을 가능성이 있다. 결국 논문 읽기의 ROI가 떨어진 만큼 도구 읽기(source reading)의 ROI가 올랐다. 컨설팅 도메인에서는 arxiv 주간 리뷰보다 production tool changelog 주간 리뷰가 더 가치 있는 내부 습관이 된다.
다시 처음으로 — Advisor를 어떻게 읽을 것인가
처음 질문으로 돌아가 보자. Advisor Tool은 왜 이렇게 설계됐는가.
표면의 답은 “비용과 성능을 동시에 개선하는 구성”이다. 그 아래에는 세 층이 겹쳐 있다.
가격표 층. Opus가 Sonnet보다 약 5배 비싸다는 2026년 특정 시점의 가격 구조가 이 패턴의 경제학을 만든다. 이 비율이 무너지면 Advisor의 비용 argument도 함께 무너진다.
역전 층. 이 패턴은 Agent Orchestration 전반에서 벌어지는 역전 흐름의 한 사례다. 능력·평가·시간·장소 네 군데가 거의 동시에 뒤집혔고, Advisor는 그중 능력 축의 대표 사례다.
Production-Research 비대칭 층. Anthropic이 production에서 운영하던 subagent 구조를 공식 API로 승격시킨 것이 Advisor다. 논문이 이를 어떻게 정리할지는 12–18개월 뒤의 일이다.
2026년 Agent Orchestration을 읽는 방식은 이렇다. 신규 논문을 만나면 “어떤 이분법을 뒤집고 있는가”를 묻는다. 대부분 답이 있다. 신규 패턴을 만나면 “이 구성은 어느 가격대에 최적화되어 있는가”를 묻는다. 가격표를 동반하지 않는 아키텍처 주장은 한시적이다. 엔터프라이즈 도입을 설계할 때는 논문의 성능 수치가 아니라 production tool의 changelog를 근거로 삼는다.
이 글은 시리즈 3편이자 앵커다. 이어지는 1편에서는 에이전트를 쪼개는 다섯 가지 축(role·skill·time·judge·planner-exec)을 논문 6편으로 살핀다. 2편에서는 구조의 변천(hierarchy·graph·swarm·MoE-routing)과 함께 swarm 개념에 대한 회의적 논문 한 편을 다룬다. 시리즈 전체를 관통하는 주장은 하나다. 2026년의 Agent Orchestration은 새로 발명된 것이 아니라, 기존의 역할 배치가 가격 구조를 따라 재배열된 것이다.
이 렌즈를 가지면 앞으로 12개월간 쏟아질 논문 대부분의 결론이 미리 보인다.
시리즈 안내
- 1편 (예정): 에이전트를 어떻게 쪼개는가 — 2026년 다섯 갈래
- 2편 (예정): 구조의 변천과 회의론 — Loop에서 Graph, 그리고 Swarm 비판
- 3편 (현재 글): Advisor는 건축이 아니라 가격표다
참고 문서·논문
- Anthropic. Advisor Tool. platform.claude.com (2026-04)
- Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks. arxiv 2503.09572 (2025-03)
- From Agent Loops to Structured Graphs. arxiv 2604.11378 (2026-04)
- xRouter: Training Cost-Aware LLMs Orchestration System via Reinforcement Learning. arxiv 2510.08439 (2025-10)
- ALTK-Evolve: On-the-Job Learning for AI Agents. huggingface blog (2026-04)
- AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation. huggingface 2604.18240 (2026-04)
- SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization. huggingface 2604.02268 (2026-04)
- A Taxonomy of Hierarchical Multi-Agent Systems. arxiv 2508.12683 (2025-08)
- LLM-Powered Swarms: A New Frontier or a Conceptual Stretch? arxiv 2506.14496 (2025-06)
- Multi-Agent Collaboration Mechanisms: A Survey of LLMs. arxiv 2501.06322 (2025-01)
관련 글

에이전트를 어떻게 조직하는가 — Hierarchy·Graph·Swarm·Routing과 회의론
쪼갠 에이전트를 어떻게 조직할 것인가. 네 가지 구조를 살펴보면서 'LLM 스웜은 사실 스웜이 아니다'라는 회의적 논문 한 편을 함께 본다. 결국 구조 선택은 가격에 끌려간다는 게 결론. 시리즈 2편.

에이전트를 어떻게 쪼개는가 — 2026년 다섯 갈래
2026년 논문들이 에이전트를 쪼개는 다섯 가지 방식을 한자리에 놓고 본다. Role·Skill·Judge가 같은 개념을 다른 이름으로 부르고 있다는 점, 그리고 시간축 연구가 거의 비어 있다는 점이 따라 나오는 결론. 시리즈 1편.

Anthropic의 96시간 — Access, Capability, Execution 3개 레이어 해부
2026년 4월 4일·7일·8일에 발표된 Anthropic의 세 건을 Access·Capability·Execution 3개 레이어로 분해해 수직 통합 전략을 읽어낸 분석