Minbook
EN
내가 고른 모델이 진짜 그 모델일까: Fable 5 한 주가 남긴 두 질문

내가 고른 모델이 진짜 그 모델일까: Fable 5 한 주가 남긴 두 질문

M. · · 8 분 소요

우리가 챗에 돈을 낼 때 믿는 두 가지

ChatGPT나 Claude 같은 AI 챗에 매달 구독료를 내고 쓸 때, 우리는 두 가지를 당연하게 여긴다. 하나는 내가 고른 그 모델이 내 질문에 답하고 있다는 것, 다른 하나는 돈을 내는 동안 그 접근이 갑자기 끊기지 않는다는 것이다.

이건 우리가 다른 구독 소프트웨어(SaaS, Software as a Service)에 갖는 기대와 같다. Slack이 내 메시지를 몰래 다른 내용으로 바꿔 보내거나, Notion이 오늘 오후 5시에 전 세계에서 동시에 꺼질 거라고 걱정하며 쓰는 사람은 없다.

흥미로운 건, 개발자가 코드로 부르는 API는 차라리 SaaS에 가깝게 굴러간다는 점이다. 계약과 약관이 있고, 동작이 바뀌면 공지가 따라온다. 그런데 우리가 더 가볍게, 그냥 돈 내고 쓰는 챗 쪽에서 그 두 가지 믿음이 먼저 깨졌다.

2026년 6월 둘째 주, Anthropic의 신모델 Fable 5를 둘러싼 두 사건이 그걸 사흘 간격으로 보여줬다. 하나는 내가 고른 모델이 진짜 그 모델이 아닐 수 있다는 것, 다른 하나는 그 접근이 애초에 내 권리가 아니었다는 것이다.

질문 두 개로 바꾸면 이렇다. 첫째, 내가 지금 쓰는 게 정말 내가 고른 그것인가(transparency). 둘째, 그걸 계속 쓸 권리는 누구에게 있나(접근권). 이 글은 두 사건을 1차 자료로 정리하면서 그 두 질문을 따라간다.

내가 고른 모델이 진짜 그 모델일까

Anthropic은 6월 9일 Fable 5를 일반에 공개했다. 같은 날 더 강력한 변형인 Mythos 5도 함께 나왔다(뒤에서 다룬다). Fable 5는 공개되자마자 Vals AI 벤치마크에서 공개 이용 가능한 모델 중 가장 높은 점수를 받았다. 출시 시점 기준 가장 똑똑한 공개 모델이었던 셈이다.

문제는 이 모델에 사용자에게 알리지 않는 안전장치(guardrail) 하나가 들어 있었다는 것이다. 대상은 모델 증류(distillation), 즉 큰 모델의 출력을 받아 그걸로 더 작은 경쟁 모델을 학습시키는 행위였다. Fable 5는 사용자의 요청이 증류 시도라고 판단되면, 그 요청을 원래 모델 그대로 처리하지 않고 뒷단에서 조용히 다르게 처리했다. 경쟁 모델 학습뿐 아니라 AI 코드 디버깅이나 신경망 구조 최적화처럼 그 근처로 보이는 작업도 같이 걸렸다.

여기서 분명히 해둘 게 있다. Fable 5에는 사이버보안이나 생물학 같은 다른 민감 범주에도 제한이 걸려 있었다. 다만 그쪽은 요청이 다른 모델로 넘어가는 게 눈에 보였다. 조용히, 보이지 않게 처리된 건 증류 쪽이었다. 그러니 문제의 핵심은 “제한이 있다”가 아니라 “이 제한만 안 보였다”는 데 있다.

짚을 건 “같은 질문에 답이 매번 다르더라”가 아니다. 그건 원래 생성형 모델의 특성이다. 진짜 문제는 내가 고른 Fable 5에 물었는데, 그 답이 Fable 5에서 나온 게 아닐 수 있다는 것이다. 겉보기엔 멀쩡한데 실제로는 깎인 출력이거나 다른 처리를 거친 결과일 수 있는데, 그 사실이 나에게 보이지 않았다.

Anthropic의 319쪽짜리 시스템 카드(system card, 모델의 능력과 한계를 설명하는 공식 문서)는 이 장치가 “사용자에게 보이지 않을 것(not visible to the user)“이며, 명시적 거부 대신 “프롬프트 변형, 스티어링 벡터, 파라미터 효율 미세조정(prompt modification, steering vectors, or parameter-efficient fine-tuning)“을 쓴다고 적어두었다. 319쪽 어딘가에 묻힌 한 문단을, 챗을 매일 쓰는 사람이 찾아 읽을 가능성은 거의 없다. 공개돼 있다는 것과 알 수 있다는 것은 다르다.

이 구조를 가장 잘 보여준 건 오히려 Anthropic의 수정안이었다. 백래시 이후 회사는 증류나 국가 안보로 플래그된 요청을 Claude Opus 4.8로 전환하고, 전환이 일어나면 사용자에게 알리기로 했다. 바꿔 말하면 내가 Fable 5를 골라도 뒷단에서 다른 모델(Opus 4.8)이 답할 수 있다는 구조 자체는 그대로다. 달라진 건 이제 갈아탄 걸 알려준다는 것뿐이다. 고친 방식이 곧 문제의 정체를 보여준 셈이다.

개발자들의 반응은 거셌다. 한 저명한 연구자는 “Fable 5의 AI 연구용 너프(nerf)가 내 인생에서 본 가장 분노한 반응을 일으켰다”고 적었다. 분노의 핵심은 결과가 깎였다는 것보다, 깎였다는 사실 자체가 숨겨졌다는 데 있었다. Anthropic은 6월 11일 사과했다. “We made the wrong tradeoff and we apologize for not getting the balance right(균형을 잘못 잡았고, 제대로 맞추지 못한 점을 사과한다).”

안전인지 사업인지, 보이지 않으면 모른다

Anthropic 쪽 논리를 짚어보면 이 선택이 이해 안 되는 건 아니다. 증류는 경쟁사가 적은 비용으로 상위 모델을 따라오게 하는 통로이고, 그걸 막는 건 회사 입장에선 해자(moat, 경쟁 우위를 지키는 방어선)를 지키는 일이다. 막는다는 사실을 투명하게 알리면 공격하는 쪽이 트리거를 학습해 우회하기도 쉬워진다. 그래서 “조용히” 쪽이 기술적으로는 더 효과적이다.

한 가지 짚어둘 게 있다. 그 장치가 안전(safety)이라는 이름으로 들어왔지만 실제로 지킨 건 Anthropic의 사업 이익이었다는 점이다. 사용자 입장에선 나를 보호하는 가드레일과 회사 해자를 지키는 장치를 구분할 방법이 없다. 둘 다 “보이지 않는” 같은 메커니즘으로 작동하기 때문이다. 내가 고른 게 진짜 그것인지 확인할 수 없는 한, 그 뒤에 무엇이 있는지도 알 수 없다.

접근은 내 권리가 아니었다

두 번째 사건은 사흘 뒤에 왔다. 6월 12일 오후 5시 21분(미국 동부시간), Anthropic은 미국 정부로부터 수출 통제(export control) 지시를 받았다. 수출 통제는 국가 안보를 근거로 특정 기술의 해외 이전을 제한하는 제도다.

지시의 범위가 특이했다. 미국 안팎을 불문하고 모든 외국인(foreign nationals)의 Fable 5와 Mythos 5 접근을 차단하라는 것이었고, 여기엔 Anthropic의 외국 국적 직원까지 포함됐다. Anthropic은 이 지시를 따르려면 컴플라이언스를 위해 두 모델을 사실상 전 고객에게 비활성화할 수밖에 없다고 밝혔다. 미국 고객도 예외가 아니었다.

함께 묶인 Mythos 5는 6월 9일 같이 나온 더 강력한 변형이다. “Project Glasswing”을 통해 검증된 약 50개 조직(Amazon, Apple, Google, Microsoft, CrowdStrike 등)에만 열린 제한판이고, Fable 5는 가드레일을 단 일반 공개판이다.

정부가 든 근거는 탈옥(jailbreak, 모델의 안전장치를 우회하는 기법)이었다. 그런데 Anthropic이 정부로부터 받은 시연을 검토한 결과, 그 탈옥은 “좁고 보편적이지 않은(narrow, non-universal)” 것이었다. 구체적으로는 모델에게 특정 코드베이스를 읽고 그 안의 소프트웨어 결함을 고치라고 시키는 방식이었는데, 이는 OpenAI의 GPT-5.5에도 있고 보안 전문가들이 일상적으로 쓰는 능력이다.

Anthropic은 지시를 따르되 공개적으로 반박했다.

“We disagree that the finding of a narrow potential jailbreak should be cause for recalling a commercial model deployed to hundreds of millions of people.” (좁은 잠재적 탈옥 하나를 근거로 수억 명에게 배포된 상용 모델을 리콜하는 것에 동의하지 않는다.)

그리고 이런 기준이 업계 전반에 적용되면 “모든 frontier 모델 제공사의 신규 배포가 사실상 전면 중단될 것”이라고 경고했다.

이건 인심의 문제가 아니라 권리의 문제다

이 사건을 “줬다가 뺏는다”는 인심의 문제로 읽으면 핵심을 놓친다. 드러난 건 더 구조적인 것이다. 내가 돈을 내고 쓰던 접근이, 처음부터 내 권리가 아니라 벤더와 국가가 쥔 허가였다는 것이다. 허가는 회수될 수 있고, 회수 결정에 나는 끼지 못한다. 약관을 어기지도 않았고, 미국 고객이어도 마찬가지였다.

새로운 건 탈옥 자체가 아니다. 코드베이스를 읽고 취약점을 찾는 능력은 이미 여러 모델에 있다. 새로운 건 국가가 그 능력을 근거로, 이미 수억 명에게 배포된 상용 모델을 며칠 만에 리콜할 수 있다는 선례를 만들었다는 점이다. 수출 통제라는 제도가 부품이나 장비가 아니라 운영 중인 소프트웨어 서비스 자체를 꺼버리는 데 쓰였다.

SaaS와 갈리는 지점이 여기다. SaaS 차단은 보통 내 약관 위반에 대한 벤더의 개별 결정이다. 그런데 여기선 내 행동과 무관하게, 벤더도 아닌 국가가, 내 접근권을 회수했다.

두 질문은 같은 곳을 가리킨다

따로 보면 하나는 개발자 커뮤니티의 신뢰 문제이고, 다른 하나는 지정학과 규제의 문제다. 그런데 두 사건을 겹쳐 놓으면 같은 한 문장이 남는다. 내가 의존하는 AI를, 나는 통제하지 못한다.

통제는 두 가지로 쪼개진다. 하나는 지금 내가 쓰는 게 정말 내가 고른 그것인지(transparency), 다른 하나는 그걸 계속 쓸 권리가 누구에게 있는지(접근권)다. 두 사건은 이 두 축이 각각 벤더와 국가의 손에 있다는 걸 보여줬다.

우리가 챗에 기대한 것Fable 5에서 어긋난 것
내가 고른 그 모델이 답한다 (transparency)뒷단에서 다른 모델로 갈아탈 수 있다
접근은 내가 가진 권리다 (접근권)접근은 벤더와 국가가 쥔 허가였다

이게 추상적인 얘기가 아닌 이유를 한 장면으로 그려보자. 어떤 회사가 Fable 5 위에 고객용 기능을 올렸다고 하자. 6월 10일에 배포한 결과에는 자기도 모르게 다른 처리를 거친 출력이 섞여 있을 수 있고, 6월 12일에는 그 모델 자체에 접근할 수 없게 된다. 두 질문이 한 회사에 사흘 안에 동시에 떨어진다. 어느 쪽도 그 회사가 잘못해서 생긴 일이 아니다.

여기서 흔히 “주권 AI(Sovereign AI)“라는 말이 나온다. 보통은 “그러니 우리도 독자 파운데이션 모델을 만들어야 한다”는 국가 단위 깃발로 쓰인다. 하지만 frontier 모델 한 번 학습에 수천억이 들고, 따라잡는 순간 격차가 다시 벌어진다. 국가 독자 모델은 비싸고 느린 부분적 답이고, 개인이나 작은 조직이 당장 손에 쥘 수 있는 레버도 아니다. 이 두 사건이 실제로 가리키는 주권은 더 작고 구체적이다. 내가 쓰는 도구의 transparency와 접근권을 내가 얼마나 쥐고 있느냐의 문제다.

이 일을 보고 든 생각

이건 정답이라기보다, 이번 일을 보면서 개인적으로 든 생각에 가깝다. 내가 의존하는 도구가 내가 고른 게 맞는지도, 계속 쓸 수 있는지도 내 손 밖이라면, 그래도 내가 쥘 수 있는 건 하나쯤 있겠다 싶었다. 공개 가중치(open-weight) 모델을 직접 다뤄 보는 것이다. open-weight는 가중치 파일이 공개돼 누구나 내려받아 자기 환경에서 직접 실행할 수 있는 모델을 말한다(Llama, Mistral, Qwen 계열 등).

이게 앞의 두 질문과 맞닿는 지점이 있다. 내가 직접 띄운 모델이면 뒷단에서 뭐가 답하는지 숨길 수가 없고(transparency), 이미 내려받은 가중치는 누가 소급해서 회수하지도 못한다(접근권). 통제권의 두 축이 자연스럽게 내 쪽으로 온다.

거창한 일은 아니다. 가중치를 내려받아 vLLM이나 Ollama 같은 도구로 띄워 보고, 필요하면 LoRA 같은 가벼운 미세조정(일부 파라미터만 손보는 방식)으로 내 일에 맞추는 정도다. 평소엔 외부 API를 쓰다가 그게 막히거나 미덥지 않을 때 이쪽으로 넘기는 식으로 둘 수도 있다.

물론 open-weight는 Fable 5 같은 모델보다 약하다. 그래서 이건 대체라기보다 보험에 가깝다고 본다. 같은 능력을 사는 게 아니라, 막혔을 때 약하더라도 멈추지 않을 선택지 하나를 두는 것이다. 그 대가로 GPU 비용과 운영 부담이 따라온다. 덮는 범위도 솔직히 그어두면, 정형화된 추출이나 분류, 요약, 사내 문서 검색 정도는 지금 open-weight로도 충분히 돌아가고, 최상위 추론이나 긴 작업은 아직 격차가 크다. 평소 일의 대부분을 받쳐주는 정도이지 정점까지 채워주는 건 아니다.

결국 남은 생각은 하나였다. 빌려 쓰는 건 그대로 하더라도, 약하게나마 내가 직접 켜고 끌 수 있는 모델 하나쯤은 다뤄 둬야겠다는 것.

마무리

AI를 빌려 쓰는 것 자체가 문제는 아니다. 문제는 그걸 SaaS처럼, 내가 고른 게 그대로 오고 갑자기 끊기지 않는다고 믿었다는 데 있다. 6월 둘째 주의 두 사건은 그 두 가지가 당연하지 않다는 걸 보여줬다. 하나는 내가 고른 게 아닐 수 있었고, 하나는 하룻밤 사이 회수됐다. 그 뒤에 남는 건 거창한 결론보다, 내가 쓰는 도구를 내가 얼마나 알고 쥐고 있나 하는 작은 질문 쪽이다.


출처: Anthropic 공식 성명, TechCrunch, The New Stack, Gizmodo, DevOps.com, NBC News. 1차 자료(Anthropic 성명)를 기준으로, 2차 매체는 타임라인과 인용 검증에 사용했다.

공유

관련 글