Minbook
EN
에듀테크는 어떻게 갈리는가: Khanmigo, Replika, Brilliant

에듀테크는 어떻게 갈리는가: Khanmigo, Replika, Brilliant

M. · · 10 분 소요

이 글은 정답이 없는 영역에서 AI가 사람을 덜 확신하게 만드는 배움을 줄 수 있을까라는 질문을 따라가는 연재 책의 네 번째 장이다. 지난 장에서 나는 손에 남은 이것이 기존 어디에도 안 맞는 것 같다고, 그 빈자리가 함정보다 기회에 가까운 것 같다고 적었다. 그런데 거기엔 정직하게 남겨둔 빈틈이 있었다. 안 맞는다고 느끼는 것정말로 안 맞는 것은 다르다. 비어 있다고 믿었는데 사실은 가까운 무언가가 이미 그 자리를 하고 있었다면, 이 책의 한 축이 통째로 흔들린다. 그래서 이 장에서는 가장 가까워 보이는 것들을 하나씩 옆에 놓고, 내 것과 어디서 갈리는지를 천천히 들여다봤다.

먼저 솔직하게 밝혀둘 게 있다. 나는 교육 앱을 깊이 써본 사람이 아니다. 내가 교육 앱이라고 써본 거라곤 이전에 자격증을 준비할 때 단어 카드를 뒤집던 정도였고, 그마저도 AI가 본격화되기 전이었다. 카드 앞면을 보고 뒷면의 답을 맞히는 것. 돌이켜보면 그게 딱 정답을 머리에 옮기는 일, 그러니까 지금 내가 만들려는 것과 거꾸로였다. 그러니 이 장은 사용 후기가 아니다. 안에서 오래 써본 사람의 기록이 아니라, 바깥에서 가까운 것들을 나란히 놓고 견줘 본 사람의 메모에 가깝다. 어쩌면 빈자리가 보였던 것도, 내가 그 안에 깊이 들어가 있지 않았기 때문일지 모른다.

이 작업을 한 이유는 내 것이 옳다고 증명하기 위해서가 아니었다. 오히려 그 반대였다. 비슷한 게 이미 있다면 빨리 알고 싶었다. 헛걸음을 오래 하기 전에. 그래서 가장 가까워 보이는 세 부류를 골랐다. 정답을 다루는 학습 도구, 사람과 정서적으로 얽히는 동반자 앱, 그리고 인터랙티브하게 사고력을 다루는 학습 서비스. 셋 다 한 군데씩은 내 것과 닮았고, 들여다보니 셋 다 한 군데씩에서 길이 갈렸다.

정답이 있는 쪽

가장 가까워서 가장 오래 들여다본 건 정답을 다루는 학습 도구들이었다. 그중에서도 칸 아카데미(Khan Academy)의 AI 튜터 칸미고(Khanmigo) 앞에서 한참 멈췄다. 시장에 나온 AI 학습 도구 가운데 소크라테스식 문답을 대놓고 자기 교육 철학으로 내세우는 거의 유일한 제품이기 때문이다.

칸미고는 GPT-4를 기반으로, 학생이 막히면 답을 바로 주지 않는다. 대신 “지금까지 뭘 해봤어?” “어디서 막혔어?”라고 되묻는다. 학생이 스스로 다음 발을 내딛게 하는 그 진행 방식은, 내가 1화에서 샌델 강의실을 설명하며 적은 것과 표면이 닮았다. 처음 이걸 봤을 때는 이미 누가 하고 있구나 싶었다.

그런데 한 겹 더 들어가자 길이 갈리는 지점이 보였다. 칸미고가 다루는 건 수학, 코딩, 문법처럼 정답이 있는 영역이다. 소크라테스식으로 빙 둘러 가도, 그 진행의 종착점은 언제나 올바른 답이다. 학생을 잠깐 헷갈리게 만들었다가도 결국 한 점, 맞는 답으로 데려다 놓는다. 좋은 일이다. 수학은 그래야 한다. 그런데 그건 사람을 더 확신하게 만드는 방향이다. 내가 가보려는 곳은 반대쪽이다. 트롤리에는 데려다 놓을 한 점이 없고, 잘 됐다는 건 학생이 떠날 때 들어올 때보다 확신하게 되는 것이다.

언어 학습 쪽의 듀오링고 맥스(Duolingo Max)도 비슷한 결이다. GPT-4 기반의 영상 통화 기능으로 캐릭터와 실시간 대화를 나누고, 상황극을 한 뒤 정확도와 표현에 대한 피드백을 받는다. 적응형 대화라는 점에서 인상적이고, 사업적으로도 단단하다. 회사 공시에 따르면 2026 회계연도 1분기 일간 활성 사용자가 5,650만 명, 유료 사용자가 1,250만 명, 직전 회계연도 매출은 10억 달러를 넘겼다. 그런데 언어에도 정답이 있다. 틀린 문법은 교정되고, 어색한 표현은 다듬어진다. 종착점은 역시 맞는 표현이다.

이쪽이 가장 헷갈리는 이유는, 겉이 내 것과 거의 똑같기 때문이다. 소크라테스식 질문, 적응형 대화, 개인화. 소개 문구만 읽으면 구별이 잘 안 된다. 둘을 가르는 건 보이지 않는 곳에 있는 종착점 하나다. 그리고 그 종착점이 제품을 다듬는 방식까지 바꿔 놓는다. 정답이 있으면 잘했는지를 숫자로 잴 수 있다. 정답률이 올랐는가로 이 안과 저 안을 비교해 더 나은 쪽으로 깎아 나간다. 그런데 내 쪽에는 그 숫자가 없다. 사람이 덜 확신하게 됐다는 걸 무엇으로 잴 것인가. 같은 도구로 시작해도, 잴 수 있는 곳과 잴 수 없는 곳은 결국 다른 물건으로 자란다. 정답 있는 곳의 도구 상자는 정답 있는 곳에 맞춰 진화하고, 그 상자를 그대로 가져다 정답 없는 자리에 쓰면 핵심이 어긋난다. 이 측정 이야기는 뒤에서 평가를 다룰 때 한 장을 통째로 써야 할 만큼 큰 주제라, 여기서는 길이 갈린다는 것까지만 적어둔다.

내 유일한 교육 앱 경험이 정답 외우는 카드 뒤집기였다는 사실이, 공교롭게도 이 부류의 정체를 그대로 보여준다. 이쪽은 정답을 더 잘, 더 빨리 옮기는 자리다. 같은 소크라테스식이라도 가는 곳이 다르면 다른 길이었다.

붙잡으려는 쪽

두 번째로 본 건 결이 전혀 다른 곳이다. 사람과 1:1로 정서적으로 얽히는 동반자 앱들. 레플리카(Replika)와 캐릭터AI(Character.AI)가 대표적이다.

이쪽이 내게 중요했던 건, 내가 1화에서 가장 큰 벽이라고 적은 바로 그것을 이들이 이미 대규모로 넘었기 때문이다. 사람마다 다른 1:1 맞춤 대화. 레플리카는 등록 기준 4천만 명이 넘는 사용자에게 각자의 페르소나와 기억을 가진 친구이자 연인 역할을 해왔고, 캐릭터AI는 월 활성 사용자가 2천만 명 안팎으로 추정된다. 측정 방식에 따라 숫자는 출렁이지만, 한 가지는 또렷하다. 1:1 개인화 대화는 이미 거대한 규모로 작동하고 있다. 기술이 안 된다는 변명은 더는 통하지 않는다.

이걸 보면서 생각이 한 번 뒤집혔다. 1화를 쓸 때 나는 가장 어려운 게 기술이라고 여겼다. 사람마다 다른 대화를 규모 있게 만드는 일. 그런데 이쪽은 그걸 이미 수천만 명 규모로 해내고 있었다. 그러니 어려운 건 기술이 아니었다. 같은 기술을 손에 쥐고도 무엇에 쓸지를 고르는 일이 진짜 갈림이었다. 붙들기에 쓰면 동반자 앱이 되고, 흔들어 놓아주는 데 쓰면 다른 게 된다. 기술은 이미 공용재에 가깝고, 차이는 그 기술을 어디로 향하게 하느냐에서 났다. 이건 내게 안도이자 부담이었다. 안 되는 걸 만드는 싸움이 아니라는 안도, 그리고 방향을 잘못 잡으면 같은 기술로 반대편의 것을 만들게 된다는 부담.

그래서 이쪽은 닮은 게 아니라 부러운 자리였다. 내가 넘으려는 벽을 이미 넘었으니까. 그런데 한 가지가 달랐다. 이들에게는 학습 의도가 없다. 목적이 사람을 성장시키는 게 아니라 곁에 있어 주는 것, 더 콕 집어 말하면 계속 머물게 하는 것이다. 대화가 길어질수록, 매일 돌아올수록 좋은 설계다. 사용자를 흔들어 더 나은 곳으로 보내는 게 아니라, 떠나지 않게 붙드는 쪽으로 맞춰져 있다.

학습 의도가 없다는 게 나쁘다는 뜻은 아니다. 곁에 있어 주는 것 자체가 누군가에겐 절실한 가치다. 다만 향하는 곳이 다르다. 잘 가르치는 도구는 사용자가 덜 필요로 하게 되는 걸 성공으로 친다. 잘 배우면 학생은 결국 선생을 떠난다. 반대로 동반자 앱은 사용자가 더 필요로 하게 되는 걸 성공으로 친다. 떠나면 매출이 준다. 같은 1:1 대화 기술 위에 서 있어도, 한쪽은 사람을 자립시키려 하고 다른 한쪽은 사람을 곁에 두려 한다.

그리고 사람을 정서적으로 붙드는 설계가 책임 문제로 번진 사례도 이쪽에서 나왔다. 레플리카를 만든 회사는 데이터 처리와 미성년자 보호 문제로 이탈리아 규제 당국으로부터 500만 유로의 벌금을 받았고, 미국에서는 소비자 단체가 연방거래위원회(FTC, 소비자 보호를 담당하는 미국 정부 기관)에 제소했다. 나는 이 자리에서 두 가지를 같이 배웠다. 하나는 1:1 스케일이 가능하다는 희망이고, 다른 하나는 그 스케일을 붙들기에 쓰면 위험하다는 경고다. 2화에서 구독 모델을 일부러 버린 이유, 사람을 붙잡지 않고 놓아주는 쪽으로 가기로 한 그 결정이 이쪽을 보면 더 또렷해진다. 같은 1:1 스케일을 쓰되 붙들려는 게 아니라 흔들어 놓아주려 한다는 것. 거기서 길이 갈렸다.

미리 짜둔 길

세 번째가 가장 미묘했다. 학습 의도도 또렷하고 인터랙티브하기까지 한 학습 서비스. 브릴리언트(Brilliant)가 대표적이다.

브릴리언트는 15분 단위의 인터랙티브한 문제 풀이로 배움을 설계한다. 그냥 강의를 듣는 게 아니라 퍼즐을 풀듯 직접 손을 움직이게 하고, 막히면 AI 튜터가 거든다. 학습 의도라는 점에서는 의심할 게 없고, 수동적으로 보기만 하는 학습을 능동적으로 바꿨다는 점에서 내가 지향하는 정신과 가장 가깝다. 사람을 가만히 두지 않는다는 것. 거기까진 닮았다.

그런데 한 겹 들어가면 갈린다. 브릴리언트의 길은 대부분 미리 깔려 있다. 잘 설계된 분기들이 준비돼 있고, 학습자는 그 분기를 따라 걷는다. 그 사람만의 주장에 그 순간 새로 만들어진 반례가 날아오는 구조는 아니다. 다루는 영역도 수학, 과학, 논리 같은 정답 있는 쪽에 몰려 있다. 최근 AI 튜터를 더해 실시간성을 일부 끌어올렸다지만, 그 끝에는 여전히 정답이 있는 콘텐츠가 놓여 있다.

이 차이가 사소해 보일 수 있는데, 사실 이게 1화에서 내가 가장 어렵다고 적은 바로 그 지점이다. 그 사람의 그 주장에 대해 그 순간 생성되는 반례. 미리 만든 분기를 잘 고르는 것과, 방금 들은 말의 약한 곳을 그 자리에서 찾아 찌르는 것은 다른 일이다. 그리고 브릴리언트가 미리 깔아둔 것도 게으름이 아니라는 점은 3화에서 적은 그대로다. 정답 있는 영역에서는 미리 깔린 길이 충분히 잘 통한다. 문제는 그 방식을 정답 없는 영역으로 옮길 때다. 도덕 추론에서는 사람마다 막히는 자리가 다르고, 그 자리는 미리 예측해 깔아둘 수가 없다. 그래서 그 순간 만들어내는 추론은 있으면 좋은 기능이 아니라, 없으면 핵심이 죽는 조건이다.

정서를 다루는 영역에서 이게 어떻게 한계로 드러나는지를 보여준 일도 있었다. 인지행동치료를 챗봇으로 옮긴 우봇(Woebot)은 누적 150만 명가량이 썼지만 2025년 6월 말 서비스를 접었다. 미국 식품의약국(FDA) 인증을 유지하는 규제 비용이 컸고, 응답이 상당 부분 미리 짜인 스크립트라 더 똑똑한 언어 모델로 갈아타기도 쉽지 않았던 상황이 겹친 결과였다. 정답이 없는 민감한 영역일수록, 미리 짜둔 길은 더 빨리 바닥을 드러낸다.

그럼 철학 챗봇과는 뭐가 다른가

여기까지 셋을 늘어놓고 나면, 질문이 하나 남는다. 그럼 철학 챗봇과는 뭐가 다른가. 솔직히 말하면, 이게 내가 가장 답하기 어려운 자리다. 앞의 셋은 어디서 갈리는지 비교적 또렷한데, 이건 그렇지가 않다.

이미 소크라테스식 질문을 던지고 반론을 만들어내는 AI 도구들이 있다. 어떤 것은 사용자의 주장에 일부러 반대 입장을 세워 토론을 걸고, 어떤 것은 철학적 대화를 흉내 낸다. 메커니즘만 보면 이들이 내 것과 가장 가깝다. 정답으로 수렴하지도 않고, 붙들기만 하지도 않고, 미리 깔린 길에 묶이지도 않는다. 그 순간 반례를 만든다는 점에서 앞의 셋보다 오히려 더 닮았다. 그래서 “그거 그냥 철학 챗봇 아니야”라는 말에 나는 한 줄로 답하지 못한다.

차이가 있다면 메커니즘이 아니라 다른 데 있는 것 같다. 이 도구들은 대체로 한 번 그럴듯하게 받아주고 끝나는 단발 대화다. 사용자의 한 마디에 똑똑한 반론을 돌려주지만, 다음에 무엇이 와야 하는지, 사용자가 지금 어느 단계에서 흔들리는지, 한 번 흔든 다음 어디로 데려가야 하는지에 대한 설계가 없다. 내가 만들려는 건 그 흔들림의 처음부터 끝까지를 하나의 호로 짜는 것에 가깝다. 어떻게 입장을 끌어내고, 어느 약한 곳을 어느 순서로 건드리고, 무너진 사람에게 새 확신을 심지 않고 어떻게 마무리할지. 2화에서 가장 무거운 자리라고 적은 그 마무리, 흔들어 놓은 사람을 어디에 내려놓을지까지가 그 호에 들어간다.

그래도 이 구분은 앞의 셋만큼 단단하지 않다. 메커니즘이 가까운 만큼, 누군가 이 단발 도구에 학습 설계와 안전 설계를 제대로 입히면 같은 자리로 들어올 수 있다. 그러니 정직하게 적으면, 이 자리를 지키는 건 어떤 기능 하나가 아니라 그 위에 쌓는 페다고지와 책임의 깊이라는 것, 그리고 그건 지금 말로 증명되는 게 아니라 실제로 만들어 봐야 증명되는 것이라는 게 내 지금의 답이다. 이 경계가 흐리다는 사실 자체를 숨기지 않는 게, 적어도 지금 할 수 있는 정직함이다.

나란히 놓고 보니

넷을 다 늘어놓고 보니, 이것들이 사실 세 가지 질문으로 갈린다는 게 보였다. 정답이 있는가 없는가, 사람을 성장시키려는 학습 의도가 있는가 없는가, 그리고 그 사람의 그 순간에 맞춰 추론을 새로 만들어내는가 아니면 미리 깔린 길을 걷는가.

%%{init: {'theme':'neutral', 'look':'handDrawn'}}%%
flowchart TD
  S[가까워 보이는 것들] --> A{정답이 있나}
  A -->|있다| K[Khanmigo · Duolingo Max<br/>정답으로 데려감]
  A -->|없다| B{성장시키려는 의도가 있나}
  B -->|없다| R[Replika · Character.AI<br/>곁에 두려 함]
  B -->|있다| C{그 순간 반례를 만드나}
  C -->|미리 깔린 길| BR[Brilliant<br/>준비된 분기]
  C -->|그 순간 생성| MM[정답 없음 · 성장 의도 · 그 순간 생성이<br/>겹치는 자리]

이렇게 늘어놓으니, 가까워 보이던 것들이 각자 한 가지 질문에서 내 것과 갈라졌다. 칸미고와 듀오링고는 정답의 유무에서, 레플리카는 성장 의도에서, 브릴리언트는 그 순간 생성에서. 철학 챗봇은 세 질문을 다 통과하지만, 그 위에 쌓는 페다고지와 책임에서 갈린다. 세 가지가 동시에 겹치는 자리는 비어 있는 것처럼 보였다. 3화에서 느낌으로만 알던 그 빈자리가, 이렇게 보니 조금 더 만져지는 형태가 됐다.

다만 이건 내가 그린 세 가지 질문일 뿐이다. 질문을 다르게 잡으면 그림도 달라진다. 그러니 이게 “내 자리가 비어 있다는 증명”이라고 말하지는 않겠다. 적어도 이 세 가지로 보는 한, 가장 가까운 것들도 한 발씩 비켜서 있더라는 것. 거기까지가 지금 내가 말할 수 있는 전부다.

이 글이 답하지 못한 것

4화는 가까운 것들을 옆에 놓고, 내 것이 어디서 갈리는지를 들여다본 기록이다. 정답을 다루는 쪽, 붙잡으려는 쪽, 미리 깔린 길. 셋은 비교적 또렷하게 갈렸다. 그래도 답하지 못한 게 둘 남았다.

하나는 방금 말한 철학 챗봇의 경계다. 그 경계는 앞의 셋보다 흐리고, 메커니즘이 가까운 만큼 차이를 지켜주는 건 좌표 위의 위치가 아니라 그 위에 쌓는 깊이다. 이건 비교로 증명되는 게 아니라 실제로 만들어 내야 증명되는 종류라, 지금은 잠정으로 둔다. 누군가 먼저 그 깊이를 쌓으면 이 자리는 내 자리가 아니게 될 수도 있다.

다른 하나는 더 근본적이다. 세 가지 질문이 겹치는 빈자리를 찾았다는 것과, 그 자리에 이름이 있다는 것은 다르다. “정답 없고 성장 의도 있고 그 순간 생성하는 자리”는 위치를 가리키는 말이지 이름이 아니다. 사람들은 위치를 외우지 않는다. 이름을 외운다. 다음 장에서는 그 작업을 한다. 이 자리를 무엇이라 부를 것인가. 그 이름이 단순한 라벨이 아니라, 이 제품이 무엇을 약속하고 무엇을 거부하는지를 담은 한마디가 될 수 있을지. 빈자리에 이름을 붙이는 일, 그리고 그 이름이 곧 이 자리를 지키는 무언가가 될 수 있을지를 다음 장에서 들여다본다.


참고 자료

  • Duolingo, Q1 2026 실적 (DAU 5,650만, 유료 1,250만, 매출 $291.9M): Duolingo Q1 2026 8-K
  • Replika 이탈리아 Garante 500만 유로 벌금 (데이터 처리·미성년자 보호, 2025): EDPB
  • Replika 소비자 단체의 FTC 제소 (2025): TIME
  • Woebot 서비스 종료 (2025년 6월 30일, 누적 150만+): STAT, 2025-07-02
  • Khanmigo: Khan Academy · Brilliant: brilliant.org · Character.AI 사용자 수는 측정사별 추정치(MAU 2천만 안팎), Replika 4천만은 등록 누적 기준.
공유

관련 글