에이전트를 어떻게 쪼개는가 — 2026년 다섯 갈래

2026년 논문들이 에이전트를 쪼개는 다섯 가지 방식을 한자리에 놓고 본다. Role·Skill·Judge가 같은 개념을 다른 이름으로 부르고 있다는 점, 그리고 시간축 연구가 거의 비어 있다는 점이 따라 나오는 결론. 시리즈 1편.

조율 이전의 질문

Agent Orchestration 논문은 거의 모두 “어떻게 여러 에이전트를 조율할 것인가”라는 질문으로 시작한다. 자연스럽게 답도 비슷하다. 계층 구조, 그래프, 라우팅, 스웜.

이 질문에는 한 단계 앞선 질문이 숨어 있다. 조율 이전에, 무엇을 쪼갤 것인가. 조율의 대상이 무엇인지가 정해져야 조율 방식을 논할 수 있다.

2026년 1–2분기에 쏟아진 논문을 읽어보면 대부분 조율이 아니라 쪼개기에 관한 글이다. 한 덩어리의 지능을 어떤 축으로 자를 것인지가 핵심이다. 축이 달라지면 이후의 조율 설계가 따라서 달라진다.

이 글은 시리즈 1편으로, 2026년 논문들이 실제로 쓰고 있는 다섯 가지 축을 살핀다. 그리고 그 축들 위에 얹히는 세 가지 관찰을 덧붙인다. 3편 앵커에서 “이 모든 것이 결국 역전이다”라는 주장을 이미 던졌다면, 1편은 그 주장의 재료를 한 축씩 살핀다.

다섯 갈래 개요

2026년 논문 6편이 제안하는 축은 다음과 같다.

축	질문	대표 논문	단위
Role	누가 어떤 역할을 맡을 것인가	Multi-role GUI Agents (arxiv 2604.13488)	역할
Skill 外	어떤 능력을 외부 모듈로 저장할 것인가	WebXSkill (arxiv 2604.13318)	재사용 스킬
Skill 內	어떤 능력을 컨텍스트로 흡수할 것인가	SKILL0 (huggingface 2604.02268)	내재화 스킬
Time	배포 이후에도 학습을 이어갈 것인가	ALTK-Evolve (IBM Research)	시간축 학습
Judge	누가 에이전트의 출력을 평가할 것인가	AJ-Bench (huggingface 2604.18240)	심판
Planner-Executor	사고와 실행을 분리할 것인가	Plan-and-Act (arxiv 2503.09572)	계획 vs 행동

여섯 편이 다섯 축에 매핑된다. Skill이 두 방향(外·內)으로 갈라지기 때문에 논문 수와 축 수가 어긋난다. 한 덩어리의 에이전트를 이 축 중 어느 것으로 자르느냐에 따라 시스템의 모습이 달라진다.

Role — 역할로 쪼갠다

Multi-role GUI Agents Orchestration(arxiv 2604.13488)의 접근은 직관적이다. GUI 상에서 수행해야 할 태스크를 작은 역할로 나누고, 각 역할에 특화된 경량 에이전트를 배치한다. 화면을 읽는 에이전트, 의도를 해석하는 에이전트, 마우스·키보드 액션을 실행하는 에이전트.

이 분해의 가정은 단순하다. GUI 조작 태스크는 단일 모델에 맡기기엔 컨텍스트 전환 비용이 너무 크다. 역할을 나누면 각 에이전트가 자신의 좁은 컨텍스트에만 집중할 수 있고, 결과적으로 전체 토큰 사용량이 줄어든다.

Role 기반 설계의 장점은 해석이 쉽다는 것이다. 시스템 다이어그램을 그리면 누가 무엇을 하는지 보인다. 컨설팅 관점에서는 조직 구조와 유비하기 편해 의사결정자 설득에 유리하다. 한계는 역할 경계가 태스크 도메인에 의존한다는 점이다. GUI 조작에서 잘 나누어지는 역할이 문서 작성에서도 동일하게 나뉜다는 보장은 없다. 도메인이 바뀌면 재설계가 필요하다.

Skill — 같은 단어, 반대 방향

이 축이 흥미로운 이유는 같은 “스킬”이라는 단어를 두 논문이 정반대로 쓰기 때문이다.

WebXSkill — 능력을 바깥에 저장

WebXSkill(arxiv 2604.13318)은 웹 에이전트가 반복적으로 수행하는 동작 패턴을 재사용 가능한 스킬 모듈로 저장한다. 상품 검색, 장바구니 담기, 결제 같은 것들. 새 태스크가 오면 에이전트는 기존 스킬 라이브러리에서 필요한 것을 불러 조합한다.

본질은 능력을 에이전트 바깥에 두는 것이다. 에이전트는 가벼운 상태로 유지되고, 스킬은 독립된 모듈로 버전 관리된다. 소프트웨어 엔지니어링의 함수 추출과 유비할 수 있다.

SKILL0 — 능력을 컨텍스트에 흡수

SKILL0(huggingface 2604.02268)은 정반대다. 스킬을 별도 모듈로 저장하지 않고 in-context agentic RL을 통해 에이전트의 컨텍스트 안에 흡수시킨다. 스킬은 독립 객체가 아니라 에이전트 상태의 일부다.

철학은 이렇다. 스킬을 외부에 두면 호출 오버헤드와 전환 비용이 생긴다. 컨텍스트 창이 충분히 크다면 그냥 안에 밀어 넣는 편이 낫다.

같은 시기의 정반대 주장

두 논문이 같은 단어를 쓰면서 정확히 반대 방향을 말한다. 단순한 경쟁이 아니다. 2026년 컨텍스트 창이 1M 토큰으로 확장되면서 기존에 모듈로 분리해야 했던 것들이 컨텍스트 안에 들어갈 수 있게 됐다. 外재 주장은 2024년식 가정(컨텍스트 창이 작다) 위에 있고, 內재 주장은 2026년식 가정(컨텍스트 창이 크다) 위에 있다. 두 논문이 같은 시기에 나왔다는 사실 자체가 분야가 패러다임 전환 중이라는 신호다.

Time — 시간으로 쪼갠다

ALTK-Evolve(IBM Research, huggingface blog)는 거의 혼자서 이 축을 다룬다. 주장은 단순하다. 에이전트는 훈련이 끝나면 학습 종료라는 가정을 버려야 한다. 배포 후에도 태스크 분포가 계속 변하기 때문이다.

ALTK-Evolve는 에이전트가 배포 후 실제 사용자 환경에서 축적되는 신호를 바탕으로 지속 학습하는 구조를 제안한다. 훈련과 배포의 경계를 시간축으로 흐릿하게 만드는 시도다.

여기서 첫 관찰이 나온다. 이 글이 다루는 논문 중 시간축을 주제로 삼는 것은 ALTK-Evolve 한 편이다. 나머지는 모두 정적 시스템을 가정한다. Role이 고정돼 있고, Skill이 고정돼 있고, Judge가 고정돼 있다. 그러나 실제 production에서 에이전트가 맞닥뜨리는 가장 큰 문제는 task distribution drift다. 사용자 패턴이 바뀌고, 외부 도구 API가 바뀌고, 비즈니스 규칙이 바뀐다.

이 비대칭이 의미하는 것은 분명하다. 논문이 production 현실을 못 따라잡고 있다. 연구는 아직 설계 순간의 스냅샷을 다루고 있고, 운영은 이미 지속적 재설계를 요구한다. 2026년 2분기 이후 Agent Orchestration 연구의 빈 공간은 거의 확실히 이 시간축에 있다.

Judge — 평가를 쪼갠다

AJ-Bench(huggingface 2604.18240)는 Agent-as-a-Judge 패턴을 벤치마크로 만든 연구다. 에이전트의 출력을 인간이 아니라 다른 에이전트가 평가한다. 환경 정보를 함께 활용하는 것이 특징이다.

이 축의 등장 이유는 단순하다. 다중 에이전트 시스템이 보편화되면서 인간이 모든 turn을 평가할 수 없다. 초 단위로 쏟아지는 agent turn을 사람이 판정하는 것은 불가능하다. 평가 자체가 자동화되어야 한다.

AJ-Bench가 제기한 메타 문제는 따로 있다. 평가자가 피평가자보다 반드시 더 똑똑해야 하는가. 전통적 벤치마크 설계의 암묵 가정은 평가자는 피평가자보다 상위 능력이라는 것이었다. 인간이 AI를 평가하는 구조가 그 전형이다.

Agent-as-Judge는 이 가정을 포기한다. 같은 급의 에이전트가 서로를 평가한다. 이 구조에는 gaming 위험이 따라온다. 피평가 에이전트가 평가 에이전트의 취향을 학습해 그것에 맞춰 출력을 조정할 가능성이다.

이 문제는 본 시리즈에서 다 풀리지 않는다. 다만 누가 누구를 평가하는가가 이제 쪼개기 축의 하나로 올라왔다는 사실 자체가 2026년의 변화다.

Planner-Executor — 생각과 행동을 쪼갠다

Plan-and-Act(arxiv 2503.09572)는 다섯 축 중 가장 고전적이다. 사고(계획)와 행동(실행)을 분리한다. Planner는 상위 계획을 세우고, Executor는 계획을 구체적 액션으로 옮긴다. 웹 네비게이션 같은 장기 태스크에서 SOTA 성능을 냈다.

이 축의 논리는 생각과 행동이 서로 다른 능력이므로 서로 다른 모델·프롬프트로 처리하는 것이 효율적이라는 것이다. Plan은 한 번 만들면 여러 스텝에서 재사용 가능하고, Action은 매 스텝마다 새로 필요하다.

이 축은 3편 앵커에서 다룬 Advisor 패턴과 정면으로 충돌한다. Plan-and-Act는 Planner가 먼저, 전체를 계획한다. Anthropic Advisor는 Executor가 먼저, 필요할 때만 Advisor를 부른다. 두 구조는 똑같이 사고와 실행을 분리하지만 주도권의 방향이 반대다. 2025년까지는 Plan-and-Act식 방향이 표준이었고, 2026년부터 Advisor식 역전이 시작됐다. 앞으로의 논문은 이 두 방향 사이에서 어느 쪽이 더 일반적인지를 두고 경합할 것이다.

다섯 갈래를 한눈에

flowchart TB
    AGENT["한 덩어리의 에이전트"]
    AGENT --> R["Role: 역할로"]
    AGENT --> SE["Skill 外: 모듈로"]
    AGENT --> SI["Skill 內: 컨텍스트로"]
    AGENT --> T["Time: 시간축으로"]
    AGENT --> J["Judge: 평가로"]
    AGENT --> P["Planner-Executor: 사고와 행동으로"]
    R --> EX1["Multi-role GUI Agents"]
    SE --> EX2["WebXSkill"]
    SI --> EX3["SKILL0"]
    T --> EX4["ALTK-Evolve"]
    J --> EX5["AJ-Bench"]
    P --> EX6["Plan-and-Act"]

각 축은 독립적이지 않다. Role 기반 시스템에 Skill 모듈이 붙을 수 있고, Planner-Executor 구조 위에 Judge가 올라갈 수 있다. 실제 production 시스템은 여러 축을 조합한 하이브리드다.

여기서 세 가지 관찰이 따라 나온다.

같은 것에 다른 이름을 붙이고 있다

Multi-role GUI는 역할로 쪼갠다. WebXSkill과 SKILL0는 스킬로 쪼갠다. AJ-Bench는 심판으로 쪼갠다. Plan-and-Act는 계획자와 실행자로 쪼갠다.

이 네 가지 단어를 추상화하면 전부 같은 것이다. 경계가 있고, 호출할 수 있고, 조합할 수 있는 능력 단위. 영어로 옮기면 bounded + invokable + composable capability에 가깝다.

역할은 이름이 붙은 능력 단위다. 스킬은 호출 가능한 능력 단위다. 심판은 평가 목적의 능력 단위다. 계획자/실행자는 역할의 특수 쌍이다. 단어가 다를 뿐 본질은 같다.

그런데 2026년 논문들은 이 사실을 드러내지 않는다. Multi-role GUI 논문은 WebXSkill을 인용하지 않는다. AJ-Bench는 Plan-and-Act를 참조하지 않는다. 각 서브분야가 같은 추상을 서로 모르는 상태로 재발명 중이다.

컨설팅 관점에서는 이런 함의가 따라온다. 클라이언트에게 논문 용어(role / skill / judge)를 그대로 옮기지 말 것. 이 용어들은 2–3년 안에 하나의 추상으로 수렴할 것이고, 수렴 후 남는 것은 능력 단위라는 한 가지다. 시스템 설계 문서에는 role이 아니라 capability로 쓰자. 용어가 바뀌어도 설계는 살아남는다.

시간축이 거의 비어 있다

앞서 짚었듯이 이 시리즈에서 다루는 11편 중 시간축을 다루는 논문은 ALTK-Evolve 한 편이다.

11 대 1의 비율. 반면 production 현장에서 orchestration drift, agent decay, versioning은 이미 우선순위가 높은 문제다. 이 차이는 두 가지 가능성을 시사한다.

가능성 하나는 연구 커뮤니티가 아직 production 신호를 받지 못하고 있다는 것이다. 학계와 산업 사이에 신호 지연이 있다.

가능성 둘은 시간축 문제가 논문으로 잘 표현되지 않는다는 것이다. 정적 시스템은 논문에 담기 쉽고, 시간에 따라 drift하는 시스템은 evaluation이 까다롭다.

둘 중 어느 쪽이든 2026년 하반기부터 2027년 상반기 사이에 시간축 논문이 폭발할 가능성이 높다. 시간축이 남은 공백이기 때문이다. AI 전략 관점에서는 이 공백을 채우는 논문·제품이 다음 투자 포인트다.

쪼개는 단위가 점점 늘어나고 있다

마지막 관찰은 시계열이다.

시기	에이전트의 쪼개기 단위
2022–2023	단일 모델 (쪼개기 없음)
2023–2024	Role 기반 다중 모델 (AutoGen, MetaGPT)
2024–2025	Role × Skill (Skill 라이브러리 등장)
2025–2026	Role × Skill × Judge (AJ-Bench)
2026~	Role × Skill × Judge × Time (ALTK-Evolve)

시간이 갈수록 쪼개기 단위가 곱으로 늘어난다. 2022년에는 에이전트 하나였던 것이 2026년에는 role 3 × skill 20 × judge 2 × time 연속이 됐다. 조합 수가 수백 배 커졌다.

이 누적은 공짜가 아니다. 축이 늘어날수록 초기 설계에서 결정해야 할 사항이 곱으로 증가한다. 오류가 어느 축에서 발생했는지 추적하기 어려워진다. 축별로 별도 평가 프레임이 필요해진다.

2026년 말까지 이 흐름이 계속되면 에이전트 시스템 하나 설계하는 비용이 태스크를 사람이 직접 수행하는 비용을 넘어서는 역설적 상황이 발생할 수 있다. 이 한계가 올 때쯤 쪼개기 축을 줄이는 반대 흐름이 나타날 것이다. Role과 Skill을 다시 하나로 합치거나, Judge를 제거하고 Planner가 자기 평가를 하는 방식 등.

3편 앵커에서 말한 역전이 능력·평가·시간·장소 네 군데에서 벌어지는 재배치라면, 이 누적은 그 재배치의 피로감이 쌓이는 지점이다. 2027년의 관전 포인트가 될 것이다.

마무리

이 글은 시리즈의 1편이다. 2026년 논문 6편이 제안하는 다섯 가지 축을 정리하고, 그 위에 세 가지 관찰을 얹었다.

여섯 편이 다섯 축을 채운다. Role · Skill(外/內) · Time · Judge · Planner-Executor. Role·Skill·Judge는 같은 능력 단위 추상을 다른 단어로 부르는 것이다. 시간축은 11편 중 1편만 다루고 있고, 그 공백이 다음 12개월의 연구 방향을 결정할 것이다. 쪼개기 단위가 빠르게 늘어나면서 시스템 복잡도가 누적되고 있고, 어느 시점에는 반대 흐름이 시작될 것이다.

무엇을 쪼갤지가 정해지면 어떻게 조율할지는 상당 부분 따라 결정된다.

2편에서는 이 쪼갠 단위들을 어떻게 조직하느냐를 다룬다. 계층 구조(Hierarchical MAS), 그래프(DAG), 스웜(과 그에 대한 회의), 라우팅(MoE). 분해 방식이 다양해진 만큼 조직 방식도 다양해졌고, 그중 일부는 이미 회의적 시선을 받고 있다.

3편(앵커)에서 던진 “이 모든 것이 결국 역전이다”라는 주장에 대해 1편은 첫 번째 근거를 제공한다. 쪼개기 축 자체가 2026년에 재배치되고 있다. Skill은 외재에서 내재로, 평가는 인간에서 에이전트로. 2편과 함께 보면 역전의 전체 지형이 드러날 것이다.

시리즈 안내

1편 (현재 글): 에이전트를 어떻게 쪼개는가 — 2026년 다섯 갈래
2편 (예정): 구조의 변천과 회의론 — Loop에서 Graph, 그리고 Swarm 비판
3편 (앵커): Advisor는 건축이 아니라 가격표다

참고 논문

Multi-role GUI Agents Orchestration. arxiv 2604.13488 (2026-04)
WebXSkill: Skill Learning for Autonomous Web Agents. arxiv 2604.13318 (2026-04)
SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization. huggingface 2604.02268 (2026-04)
ALTK-Evolve: On-the-Job Learning for AI Agents. huggingface blog (2026-04)
AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation. huggingface 2604.18240 (2026-04)
Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks. arxiv 2503.09572 (2025-03)