AI로 도덕을 가르칠 때 무엇을 만들지 않을 것인가: 트롤리 하나로 좁힌 이유

이 글은 정답이 없는 영역, 그러니까 도덕이나 가치 판단처럼 옳은 답이 하나로 정해지지 않는 곳에서, AI가 사람을 더 확신하게 만드는 대신 덜 확신하게 만드는 배움을 줄 수 있을까라는 질문을 따라가는 연재 책의 두 번째 장이다. 나는 이 프로젝트를 모럴 미러(Moral Mirror)라고 부른다. 사람을 어떤 유형으로 규정하는 거울이 아니라, 자기 생각의 흔들리는 자리를 비춰 보여주는 거울이라는 뜻이다. 지난 장에서는 이 직관이 어디서 왔는지, 그리고 한 사람에게 딱 맞춘 추론을 매 순간 새로 만들어내는 일의 비용이 어떻게 거의 0에 가깝게 떨어졌는지를 적었다. 한마디로 “이제 만들 수 있게 됐다”까지가 1화였다.

이 장은 그 다음이다. 모럴 미러라는 막연한 직관에 처음으로 구체적인 형태를 주려고 책상에 앉았을 때, 가장 먼저 마주한 질문은 “무엇을 만들까”가 아니었다. 무엇을 만들지 않을까였다.

이건 좀 이상한 순서다. 보통 무언가를 시작할 때는 할 수 있는 걸 최대한 늘려 잡는다. 기능을 더하고, 시장을 넓히고, 쓸 수 있는 사람을 키운다. 그런데 이 프로젝트는 반대로 굴러갔다. 할 수 있게 된 것 중에서 일부러 안 할 것을 먼저 못 박는 작업이 앞에 왔다. 이 장은 그 빼는 결정들의 기록이다. 트롤리 하나로 좁힌 이유, 구독 모델을 처음부터 버린 이유, 사람을 성격 유형으로 가두지 않기로 한 이유, 그리고 K-12 교실과 의료 윤리처럼 누가 봐도 시장이 있어 보이는 영역을 오히려 미뤄둔 이유.

1화가 “비용이 무너져서 할 수 있게 됐다”였다면, 2화는 “그럼 어디까지 할까”다. 그리고 쓰다 보니 알게 됐는데, 이 질문은 만드는 능력의 문제가 아니라 책임의 문제였다. 1화 끝에 박아둔 두 개의 못, 정답이 없다는 1차 문제와 잘못 다루면 사람에게 자국이 남는다는 2차 문제 중에서, 이 장은 2차를 처음으로 구체적인 결정들로 풀어본 자리다.

스무 개의 서랍 중 하나

먼저 솔직한 배경부터. 내 아이디어 폴더에는 지금 스무 개 가까운 메모가 흩어져 있다. 어떤 건 텍스트 한 장으로만 남아 있고, 어떤 건 꽤 멀리까지 만들어져 굴러간다. 프로토타입을 만드는 비용이 거의 0으로 수렴한 뒤로 생긴 습관이다. 예전 같으면 아이디어 하나를 실제로 굴려보려면 사람을 붙이거나 며칠을 들여 직접 짜야 했다. 지금은 떠오르면 그날 안에 형태가 나온다. 그래서 가벼운 건 그냥 만들어 써 보고, 아니다 싶으면 닫는다. 아이디어를 빠르게 꺼내 형태로 만들어보는 일 자체가 재미있어서 그렇게 한다.

모럴 미러도 그 서랍 중 하나로 시작했다. 거창하게 시작한 게 아니다. 어느 날 우연히 한 교육 분야 해커톤 공고를 봤고, 그 순간 오래 묵혀둔 그 직관이 간만에 다시 떠올랐다. The Good Place의 트롤리 장면에서 시작해 몇 년을 품고 있던 그 질문. 1화에서 적은 “Claude Code를 쓰다 비용이 무너지는 걸 느낀 순간”이 할 수 있겠다는 감을 줬다면, 해커톤 공고는 지금 꺼내볼까라는 손짓이었다. 외부의 작은 트리거 하나가 서랍을 열었다. 거의 모든 시작이 그런 식이다. 대단한 결심이 아니라, 마침 눈에 들어온 무언가가 묵혀둔 생각을 건드린다.

그런데 이 서랍은 다른 열아홉 개와 다르게 굴러갔다. 보통은 떠오르면 곧장 만든다. 만들면서 생각한다. 막히면 거기서 멈추고 다음 서랍으로 넘어간다. 이번엔 만들기 전에 한참을 멈춰 있었다. 가볍게 만들어 써 보기엔, 이 도구가 건드리는 게 사람의 가치관이라는 점이 걸렸다. 농담 삼아 만든 트롤리 게임과, 누군가의 도덕적 확신을 실제로 흔드는 도구는 같은 코드로 도달할 수 있어도 무게가 다르다. 화면 안에서는 둘이 거의 똑같아 보이는데, 화면 밖에서 사람에게 남기는 것이 다르다. 그 선을 의식한 순간부터, 이 프로젝트는 “무엇을 만들까”보다 “무엇을 안 만들까”가 먼저인 종류가 됐다. 빨리 만드는 게 미덕인 내 작업 방식에서, 일부러 멈춰 선 거의 첫 서랍이었다.

정의란 무엇인가는 너무 컸다

만드는 쪽 결정부터 보자. 가장 먼저 정한 건 범위였다.

내가 The Good Place 다음으로 닿은 게 마이클 샌델의 하버드 강의 Justice였다는 건 1화에서 적었다. 그 강의에서 내가 가장 좋아한 건 정의라는 게 얼마나 상대적인지를 파고드는 대목이었다. 예를 들면 이런 식이다. 한 명을 희생해 다섯이 산다면 정당한가. 다수가 그렇다고 답한다. 그럼 그 한 명이 테러리스트이고, 그를 고문해 백 명을 살릴 수 있다면. 고문도 괜찮다고 손을 드는 사람이 생긴다. 그런데 그 고문이 테러리스트의 네 살짜리 딸에게 가해진다면. 방금 괜찮다던 사람들의 손이 내려간다. 같은 원리를 따라왔는데 어느 지점에서 갑자기 멈춘다. 그 멈추는 자리가 어디인지, 왜 거기인지를 본인도 설명하지 못한다. 나는 그 균열을 들여다보는 게 좋았다. 답이 거기 있어서가 아니라, 답이 없는데도 사람이 어디선가 어김없이 멈춘다는 사실이 흥미로웠다.

처음엔 욕심이 났다. 정의라는 주제 전체를, 샌델 강의실이 다루는 그 폭 그대로 옮기고 싶었다. 공리주의와 의무론, 자유지상주의, 롤스의 정의론까지 한 판에 담는 그림. 그런데 며칠 만에 그게 무리라는 걸 알았다. 나는 철학자가 아니다. 도덕철학의 여러 학파를 깊이까지 끌고 들어가, 학생의 어떤 입장이든 그 약점을 겨냥한 정밀한 반례로 받아칠 만한 지식이 내겐 없다. 정의 전체를 겨냥하면, 시스템이 그럴듯한 헛소리를 해도 내가 그걸 잡아낼 수가 없다. 검수할 능력이 없는 걸 만드는 건, 안 만드는 것보다 위험하다. 특히 그게 사람의 가치관을 건드리는 도구라면.

그래서 트롤리 하나로 좁혔다. 라이트하게 시작하자는 판단이었는데, 여기서 “라이트하게”는 야망을 줄이자는 뜻이 아니라 시작점을 작게 잡자는 뜻이었다. 시작을 작게 잡는 것과 끝을 작게 보는 것은 다르다. 트롤리는 그 자체로 완결된 작은 우주다. 선로를 트는 레버, 육교 위의 덩치 큰 사람, 응급실의 장기 적출, 루프 트랙, 그리고 내가 좋아한 테러리스트와 그 딸 버전까지. 변형이 수십 개고, 각 변형이 서로 다른 도덕 원칙을 건드린다. 레버 버전은 결과를 보는 입장을 흔들고, 육교 버전은 직접 손을 대는 것과 방관하는 것의 차이를 건드리고, 장기 적출 버전은 사람을 도구로 쓰는 일의 거부감을 끌어낸다. 하나의 소재 안에 여러 원칙이 포개져 있으니, 깊이로 들어갈 자리가 충분했다. 하나를 깊게 파는 게 열 개를 얕게 훑는 것보다 강하다.

교육 쪽에는 이걸 뒷받침하는 연구가 있다. 학습과학자 마누 카푸르(Manu Kapur)가 정리한 생산적 실패(productive failure)라는 개념인데, 학습자가 충분히 좁은 문제 안에서 스스로 막히고 헤매는 경험을 먼저 거친 뒤에야 설명이 의미를 갖는다는 것이다. 넓게 펼쳐놓고 얕게 훑으면 막힐 자리조차 안 생긴다. 이것도 나중에 알았다. 나는 그저 “내가 검수할 수 있는 크기”라서 트롤리를 골랐는데, 돌아보니 그게 학습이 일어나는 조건과도 맞아떨어졌다. 무엇보다 트롤리는 내가 모든 분기를 직접 끝까지 따라가 볼 수 있을 만큼 작다. 시스템이 엉뚱한 반례를 던지면 내가 그 자리에서 알아챌 수 있는 크기. 그게 트롤리를 고른 진짜 이유였다.

좁히는 게 곧 안전장치였다

여기서 나중에야 또렷해진 게 하나 있다. 좁히는 결정이 단순히 “감당 가능한 범위를 고르는 일”이 아니라, 사실은 첫 번째 안전장치였다는 점이다.

이걸 알아챈 건 엉뚱하게도 K-12 교실 이야기를 하다가였다. 뒤에서 다시 말하겠지만, 나는 이 도구를 학교의 아이들에게 쓰는 걸 일찍 접었다. 그 이유를 스스로 정리하다 보니 진짜 무서운 게 무엇인지가 드러났다. 이 도구가 잘못될 때 가장 위험한 방식은 틀린 답을 주는 것이 아니었다. 정답이 없는 영역이니 틀린 답이라는 것 자체가 성립하지 않는다. 진짜 위험은 따로 있었다. 한 끗 차이로, 마치 정답이 있는 것처럼 느끼게 하거나, 다수가 그렇게 답했으니 그게 맞는 것처럼 느끼게 설계되는 것.

이게 왜 치명적이냐면, 이 프로젝트의 목표와 거꾸로 가는 방향이기 때문이다. 모럴 미러가 하려는 일은 사람을 덜 확신하게 만드는 것이다. “당신이 옳다고 믿은 그 자리에 사실 긴장이 있다”를 보여주는 것. 그런데 흔들어 놓은 그 사람에게, 시스템이 슬며시 “그래도 이게 맞는 답이에요”라거나 “사람들은 보통 이렇게 생각해요”라는 신호를 흘리면, 나는 사람을 흔든 다음 엉뚱한 새 확신을 심는 셈이 된다. 헌 확신을 빼고 새 확신을 끼워 넣는 것. 그건 내가 비판하던, 사람을 더 확신하게 만드는 그 모든 도구와 똑같아진다.

이 위험에는 사실 오래된 이름이 두 개 붙어 있다. 하나는 앤트로픽(Anthropic) 같은 AI 연구소들이 모델을 훈련하며 줄이려 애쓰는 아첨(sycophancy)이다. 앤트로픽 연구진은 사람의 선호로 모델을 미세 조정하는 과정 자체가, 진실한 답보다 사용자가 듣고 싶어 하는 답을 보상하는 쪽으로 모델을 기울게 만든다는 걸 보였다(Sharma et al., “Towards Understanding Sycophancy in Language Models”, arXiv:2310.13548, 2023). 채점표가 없으면 시스템은 사용자가 고개를 끄덕이는 쪽을 정답처럼 따라가고, 그게 곧 듣기 좋은 위로로 흐른다. 나는 이걸 이론으로 만난 게 아니라, 내가 만들려는 거울이 아첨꾼으로 미끄러질 자리로 만났다.

다른 하나는 심리학자 솔로몬 애쉬(Solomon Asch)가 1950년대에 보여준 동조 압력이다(Asch, “Opinions and Social Pressure”, Scientific American, 1955). 명백히 다른 길이의 선분을 두고도, 다수가 틀린 답을 고르는 걸 보면 사람은 자기 눈으로 본 것조차 의심하고 다수 쪽으로 답을 바꿨다. “사람들은 보통 이렇게 답해요”라는 한 줄이 위험한 이유가 여기 있다. 이 둘을 본격적으로 다루는 건 이 책의 한참 뒤 일이라 지금은 이름만 적어둔다. 다만 이 시점에 또렷해진 건, 내가 막으려는 실패가 막연한 불안이 아니라 이미 연구된 메커니즘을 갖고 있다는 사실이었다.

이 실패 모드를 의식하고 나니, 트롤리 하나로 좁힌 결정이 다르게 보였다. 범위가 작으면 내가 모든 분기를 검수할 수 있고, 검수할 수 있으면 이 “엉뚱한 확신 심기”가 어디서 새어 나오는지 잡아낼 수 있다. 범위가 넓으면 잡아낼 수 없고, 잡아낼 수 없으면 그 실패는 조용히 사람에게 흘러 들어간다. 그러니까 좁히는 일은 겸손의 문제이기 전에 안전의 문제였다. 그리고 이 깨달음이 빼는 결정들 전체를 꿰는 실이 됐다. 무엇을 손대지 않을지를 정하는 기준은, 결국 이 실패 모드를 내가 통제할 수 있느냐였다.

%%{init: {'theme':'neutral', 'look':'handDrawn'}}%%
flowchart TD
  G[정답 없는 영역 전체] --> N{무엇을 손댈까}
  N -->|지금 만든다| T[트롤리 하나]
  N -->|지금은 미룬다| X[구독 · 성격 유형 · K-12 · 전문 윤리]
  T --> C[모든 분기를 내가 검수할 수 있는 크기]
  X --> C
  C --> F[흔든 뒤 엉뚱한 확신을 심는 실패를 줄인다]

무엇을 손대지 않을 것인가

만드는 결정 하나를 정하고 나니, 그만큼 또렷한 빼는 결정들이 줄을 섰다. 나는 이걸 안티 비전이라고 불렀다. 무엇이 되고 싶은가가 비전이라면, 무엇은 되지 않을 것인가가 안티 비전이다.

빼는 결정을 먼저 하는 게 왜 중요한지는, 직접 해보기 전엔 잘 와닿지 않았다. 만드는 목록은 끝없이 늘릴 수 있다. 좋은 아이디어는 항상 더 있고, 할 수 있는 것도 항상 더 있다. 그런데 그 목록을 늘리는 동안 정작 왜 이걸 만드는가는 흐려진다. 안 할 것을 먼저 정하면, 남은 것이 곧 이 프로젝트의 정체가 된다. 빼기가 윤곽을 만든다. 그리고 이 프로젝트처럼 사람을 흔드는 도구에서는, 그 윤곽이 안전장치 역할을 한다. 할 수 있는데 안 하는 자리마다, 통제 못 할 위험 하나를 미리 닫아두는 셈이니까.

네 가지였다. 구독 모델, 성격 유형으로 가두는 방식, K-12 교실, 그리고 의료나 법조 같은 전문 윤리 영역. 그런데 이 네 가지가 다 같은 자리에서 나온 건 아니다. 앞의 둘은 내가 스스로 내린 결정이다. 뒤의 둘은 내가 떠올린 게 아니었다. 빼야 할 자리의 절반은 내 머리에서 나왔고, 절반은 빌려온 눈에서 나왔다. 빌려온 눈이란, 1화 끝에서 잠깐 말한 라운드테이블이다. 혼자 좋다고 결론 내리는 게 무서워, 서로 다른 입장의 시각을 일부러 빌려 아이디어를 두드려본 자리. 빠르게 키우라는 투자자의 눈, 흔드는 기능의 위험을 먼저 보는 거대 AI 연구소의 눈, 완강율을 들이대는 교육 운영자의 눈, 측정부터 하라는 학습과학자의 눈, 그리고 미성년자와 책임 소재를 먼저 따지는 법률가의 눈. 그 다섯 중 몇이 K-12와 전문 윤리를 미루라고 짚었다. 오히려 나는 이 둘 쪽으로 기울어 있었으니, 의외의 자리에서 온 의외의 제동이었다. 이 라운드테이블이 어떻게 굴러갔고 무엇을 더 바꿨는지는 뒤에서 한 장을 통째로 쓸 일이라, 여기서는 그 결론 두 개만 먼저 가져온다. 안티 비전이 흥미로운 건 이래서다. 끌리지 않는 걸 안 하는 건 결정이라 부르기 어렵다. 끌리는 걸 미루는 게 진짜 결정이고, 그 미루라는 신호의 절반은 내가 아니라 바깥에서 왔다. 하나씩 보자.

구독을 버린 이유

먼저 수익 모델. 나는 이걸 전통적인 구독이나 크레딧 결제에 묶지 않기로 했다. 처음엔 그냥 “꼭 구독이 아니어도 좋겠다” 정도의 느슨한 생각이었는데, 따져볼수록 이건 선택이 아니라 피해야 하는 것에 가까웠다.

구독 모델은 본질적으로 한 가지를 요구한다. 매일 와라. 습관을 만들어라. 머무는 시간을 늘려라. 월 단위로 돈이 들어오게 하려면 사람을 계속 붙잡아야 하고, 붙잡으려면 자주 오고 싶게 설계해야 한다. 이건 곧 중독을 설계하는 일과 가까워진다. 실제로 지난 10년의 디지털 제품 설계는 상당 부분 습관 만들기를 기술로 다듬는 데 쏟았다. 알림을 언제 보낼지, 보상을 어떤 간격으로 줄지, 스크롤을 어디서 끊지. 그렇게 사람을 더 오래, 더 자주 붙드는 기법이 한 산업의 표준이 됐고, 그 기법을 비판하는 목소리도 그만큼 자랐다.

그런데 내가 이 프로젝트로 챌린지하려던 게 바로 그거였다. 세상이 점점 모 아니면 도로, 흑과 백으로 빠르게 기우는 것. 알고리즘은 사람이 이미 믿는 걸 강화하고, 피드는 즉각적인 반응을 보상한다. 더 빨리 판단하고 더 세게 확신할수록 더 많이 노출되는 구조. 그 빠른 확신의 회로를 정면으로 거스르려는 도구가, 정작 자기 수익은 그 똑같은 회로(자주 와라, 더 머물러라)로 번다면 앞뒤가 안 맞는다. 미션과 수익 모델이 서로를 잡아먹는다. 사람들이 매일 트롤리를 풀게 만들어 매출을 올리려는 순간, 나는 내가 비판하던 그 메커니즘을 그대로 재생산하게 된다.

그래서 방향을 뒤집었다. 이 도구의 가치는 자주 오는 것이 아니라, 한 번의 깊은 만남에서 자기 사고의 긴장을 마주하고 놓여나는 것에 가깝다. 그렇다면 사람을 붙잡지 않고 놓아주는 모델이 미션과 맞는다. 다시 오고 싶으면 스스로 온다. 그 신뢰가 오히려 이 제품다운 관계라고 봤다. 구체적인 과금 형태는 아직 열어뒀다. 한 번의 의미 있는 세션에 값을 매기는 길도 있다. 도덕 딜레마는 본질적으로 대화를 끌어내니, 혼자가 아니라 둘 이상이 같은 딜레마에 답하고 서로의 답이 갈리는 자리를 보여주는 데 값이 생기는 길도 있다. 다만 어느 쪽으로 가든, “리텐션을 올려 매달 들어오는 매출을 키운다”는 그 익숙한 길은 시작부터 지웠다. 수익을 어떻게 벌지보다, 어떻게 벌면 안 되는지를 먼저 정한 셈이다.

너는 X유형이라고 말하지 않기

두 번째로 뺀 건, 사람을 유형으로 묶는 방식이다.

이 이야기를 하려면 먼저 인정할 게 있다. 사람을 몇 개의 칸으로 나눠 이름 붙이는 일은 굉장히 잘 팔린다. 특히 한국에서 그렇다. MBTI(Myers-Briggs Type Indicator, 성격을 16가지 유형으로 나누는 검사)는 한국에서 거의 사회 공용어 수준이다. 미국 매체 CNN이 한국의 MZ세대가 소개팅 상대를 고를 때 MBTI를 적극 활용한다고 짚었을 정도고, 채용과 자기소개에까지 쓰인다. 나는 이런 유형화가 한국에서 유독 잘 작동한다고 느껴 왔다. 빠르게 상대를 파악하고 분류해 안심하려는 정서, 어쩌면 서열이나 범주로 사람을 자리매김하는 데 익숙한 문화가 거기 깔려 있는지도 모른다. 이건 내 인상이라 더 따져볼 여지가 있지만, 적어도 “유형으로 묶어주면 사람들이 좋아한다”는 건 시장이 증명하고 있다.

그러니 세션이 끝나면 “당신의 도덕 프로파일”을 보여주는 그림은 솔직히 매력적이다. 사람들은 자기를 비추는 거울에 기꺼이 돈을 낸다. “당신은 이런 사람입니다”라는 한 문장이 주는 정리된 느낌. 나도 처음엔 이 방향을 떠올렸다. “당신은 결과를 중시하는 성향이지만, 피해자가 눈앞에 보이면 입장을 바꿉니다” 같은 요약을 마지막에 띄워주면 사람들이 좋아할 것 같았다. 공유하기도 좋고, 다시 와서 “지난번과 달라졌나” 확인하고 싶게 만들기도 좋다.

그런데 여기에 함정이 있었다. 1948년 심리학자 버트럼 포러(Bertram Forer)가 보여준 게 있다. 사람들에게 두루뭉술하게 누구에게나 들어맞는 성격 묘사를 주고 “당신만을 위한 분석”이라고 하면, 대부분이 “어떻게 이렇게 나를 잘 아느냐”며 높은 점수를 준다. 포러 효과(Forer effect), 혹은 누구나 만족시키는 약장수에 빗대 바넘 효과(Barnum effect)라 부른다. 유형화가 주는 만족감은 상당 부분 이 착시 위에 서 있다. 나에 대한 깊은 통찰처럼 느껴지지만, 실은 누구에게나 통하는 말을 내 것으로 받아들인 것일 때가 많다. “당신은 X유형”이라는 말은 사람을 이해시키는 게 아니라, 이해받았다는 기분 좋은 느낌으로 가두는 쪽에 가깝다.

이게 이 프로젝트와 충돌하는 지점은 또렷했다. 나는 사람을 한 칸에 넣으려는 게 아니라, 사람이 자기 안의 모순을 직접 보게 하려는 거였다. “당신은 결과주의자입니다”라고 이름표를 붙이면, 그 사람은 자기 입장을 한 번 더 굳히고 떠난다. 흔들리기는커녕 새 확신만 얻는다. 앞 절에서 말한 그 실패 모드 그대로다. 유형이라는 건 결국 또 하나의 정답표다. 정답이 없는 자리에 정답표를 끼워 넣는 것. 그래서 마지막 화면의 방향을 바꿨다. 유형을 선언하지 않고, 긴장을 드러내는 쪽으로. “당신은 이런 사람이다”가 아니라 “당신이 방금 여기서 멈칫했고, 그 멈칫이 앞의 답과 이렇게 어긋난다”를 보여주는 것. 닫힌 이름표 대신 열린 질문을 남기는 것. 같은 마지막 화면이지만 무게가 반대로 간다. 하나는 사람을 정리해서 돌려보내고, 다른 하나는 사람을 흔든 채로 놓아준다.

K-12와 의사 가운은 미뤘다

여기서부터는 내가 스스로 내린 결정이 아니다. 앞의 둘은 내 손으로 뺐지만, 이 둘은 라운드테이블에서 다른 시각이 짚어주기 전까지 오히려 내가 끌리던 자리였다.

먼저 K-12, 그러니까 초등학교부터 고등학교까지의 교실이다. 도덕 교육이 가장 필요해 보이는 자리가 어디냐고 물으면 많은 사람이 학교, 자라나는 아이들을 떠올린다. 시장도 거기 있다. 공교육이든 사교육이든 인성과 윤리 교육에 대한 수요는 늘 있고, 부모는 거기 기꺼이 비용을 낸다. 그래서 나도 처음엔 자연스러운 출발지로 봤다. 그런데 라운드테이블에서 다른 시각들이 제동을 걸었고, 그 이유를 따라가다 보니 앞에서 말한 그 실패 모드가 아이들에게서 훨씬 위험해진다는 걸 알게 됐다. 성인에게도 이건 미묘하고 민감한 주제다. 한 끗 차이로 옳고 그름에 대한 왜곡된 인식을 심거나, 다수결이 마치 정답인 것처럼 느끼게 만들 수 있다. 그 위험을 성인을 상대로도 내가 아직 다 예측하지 못한다. 하물며 자기 가치관이 아직 굳지 않은 아이들에게 그 흔들기가 어떻게 작용할지는 더 예측하기 어렵고 더 민감하다. 어른은 흔들려도 돌아갈 자기 자리가 있지만, 아이는 그 자리를 만드는 중이다. 흔드는 도구가 그 형성 과정에 어떻게 끼어들지를 나는 자신할 수 없었다. 이건 나보다 더 전문가가, 발달 단계와 교육 윤리를 아는 사람이 다뤄야 할 영역이고, 솔직히 지금의 AI가 감당하기엔 이르다고 느꼈다. 그래서 미뤘다.

두 번째는 의료 윤리나 법조 윤리 같은 전문 영역이다. 사실 이게 나한테는 가장 자연스러운 확장처럼 보였다. 임상 윤리, 법적 판단, 공공 의사결정 같은 곳은 윤리 교육이 의무에 가깝고, 기관이 “우리 직원들에게 도덕적 추론을 훈련시켰다”는 증거에 기꺼이 비용을 낸다. 개인 소비자가 불편한 경험에 좀처럼 지갑을 안 여는 문제를, 기관은 교육 의무라는 이유로 우회한다. 게다가 내 본업이 기업과 공공을 상대로 한 AI 전략 컨설팅이라, 이 도구를 거기에 얹는 그림은 손에 잡힐 듯했다. 미션에도 맞고, 돈도 되고, 내 경력과도 이어지는 자리. 한동안 나는 이쪽을 가장 현실적인 길로 봤다.

그런데 라운드테이블에서 판단이 뒤집혔다. 이건 트롤리가 언젠가 확장될 수 있는 영역이긴 하지만, 그 영역의 지식을 가진 사람이 만들어야 제대로 만들어진다는 걸 인정하게 됐다. 임상 윤리의 미묘함은 의료 현장을 아는 사람이, 법적 판단의 결은 법을 아는 사람이 설계해야 한다. 비전문가인 내가 손대면, 겉보기엔 그럴듯하지만 정작 그 분야 사람이 보면 어긋난 걸 만들게 된다. 트롤리에서 내가 모든 분기를 검수할 수 있다고 자신한 것과는 거꾸로인 상황이 된다. 그리고 이 영역들은 잘못 만들었을 때 자국이 가장 깊게 남는 자리다. 의사의 판단, 판사의 판단은 실제 사람의 삶을 가른다. 그 훈련을 어설프게 건드리는 건, 트롤리 게임을 어설프게 만드는 것과 무게가 다르다. 그래서 가장 끌렸던 이 길을 지금은 접었다. 영구히 버린 게 아니라, 제대로 만들 사람에게 넘길 자리로 비워뒀다. 트롤리 하나를 끝까지 증명한 다음에야 열어볼 문이다. 가장 끌린 걸 미루는 게 가장 어려웠는데, 그걸 내 손이 아니라 빌려온 시각이 짚어줬다는 점이 오래 남았다. 혼자 좋다고 결론 냈으면 그냥 달려갔을 자리였다.

흔들어 놓고 어디에 내려놓을까

빼는 결정들을 정리하다 보니, 정작 가장 무거운 질문이 마지막에 남았다. 흔드는 것까지는 그렇다 치고, 흔들어 놓은 사람을 어디에 내려놓을 것인가.

이 프로젝트의 핵심 가치는 사람을 덜 확신하게 만드는 것이다. 그런데 누군가의 도덕적 확신을 흔들어 놓고 그냥 화면을 닫게 두면, 그 사람은 불편함만 안고 떠난다. 가벼운 주제라면 모를까, 이건 사람의 가치관을 건드리는 일이다. 자기 도덕적 결함을 강박적으로 곱씹는 사람에게 트롤리 반례를 계속 던지면 어떻게 되는가. 실제 도덕적 선택의 트라우마가 있는 사람에게는. 흔드는 데만 능하고 내려놓는 데 서툰 도구는, 좋게 봐도 무책임하다.

이 위험이 빈말이 아니라는 건 이미 바깥에서 드러나고 있다. 사람과 정서적으로 얽히는 AI 챗봇이 이용자의 정신 건강에 영향을 미친 사례들이 보고됐고, 그중 하나는 미국에서 한 청소년의 죽음을 둘러싼 소송으로까지 이어졌다(2024년 10월 제소, 2026년 1월 합의 종결). 사람을 정서적으로 붙드는 설계가 어디까지 책임을 져야 하는가는 이미 현실의 질문이 됐다. 모럴 미러는 사람을 붙들려는 게 아니라 흔들려는 도구지만, 흔든 자리를 방치한다는 점에서는 같은 위험의 다른 얼굴일 수 있다. 붙드는 설계가 사람을 못 떠나게 해서 위험하다면, 흔드는 설계는 사람을 흔든 채로 떠나보내서 위험하다.

여기서 1화에 박아둔 한 문장이 다시 올라온다. 만들 수 있다는 것과 그게 잘 만들어진다는 것은 다르다. 2화의 빼는 결정들을 다 지나오고 보니, 이건 사실 더 오래된 질문의 한 갈래였다. 기술철학에는 콜링리지 딜레마(Collingridge dilemma)라는 게 있다. 어떤 기술의 영향을 바꾸기 쉬운 초기에는 그 영향을 알 수 없고, 영향이 또렷해질 무렵에는 이미 바꾸기 어렵다는 것. 그래서 영향을 다 알기 전에, 바꾸기 쉬운 지금 미리 닫아두는 결정이 필요하다. 내가 안티 비전으로 미리 빼둔 것들이 바로 그 “지금 닫아두기”였다. 철학자 한스 요나스(Hans Jonas)는 한발 더 나아가, 멀리까지 영향을 미치는 기술 앞에서는 책임이 능력에 앞서야 한다고 했다. 할 수 있게 된 것이 해도 되는 것을 뜻하지 않는다는, 1화의 그 못이 사실은 철학에 이미 이름이 붙은 자리였다. 늘 그렇듯 나는 먼저 부딪히고 이름은 나중에 만났다.

솔직히 말하면, 나는 여기에 안전장치가 아주 많이 필요할 것 같다는 직감만 있을 뿐, 그게 몇 개고 어떤 모양인지는 아직 모른다. 흔들림이 끝난 뒤 사람을 어떤 톤으로 마무리할지, 위험 신호를 어떻게 감지할지, 언제는 흔들기를 멈추고 물러서야 할지. 이건 한 장을 통째로 써야 할 만큼 큰 주제라, 이 책의 뒤쪽에서 따로 다룰 생각이다. 지금 이 장에서 내가 할 수 있는 건, 이 질문이 있다는 걸 또렷이 적어두는 것까지다. 빼는 결정을 다 하고 나서도 남는, 가장 무거운 한 자리. 빼기로 닫을 수 있는 위험이 있고, 빼기로는 닫히지 않아 따로 설계해야 하는 위험이 있다. 이 마지막 자리는 후자였다.

이 글이 답하지 못한 것

2화는 결국 빼기의 기록이었다. 트롤리 하나로 좁혔고, 구독을 버렸고, 유형화를 접었고, K-12와 전문 윤리 영역을 미뤘다. 1화가 “할 수 있게 됐다”였다면, 2화는 그 능력 위에 “그럼 어디까지 할까”라는 책임의 첫 칸을 올린 셈이다. 그리고 이 빼는 결정들이 흩어진 게 아니라 하나의 기준에서 나왔다는 걸, 쓰면서 알게 됐다. 흔든 뒤 엉뚱한 확신을 심는 실패를, 내가 통제할 수 있는 크기로 가두는 것. 좁히기도 빼기도 그 한 문장의 다른 얼굴이었다.

답하지 못한 것이 여전히 많다. 가장 큰 건 방금 적은 그것이다. 흔들어 놓은 사람을 위한 안전장치가 얼마나, 어떤 모양으로 필요한지를 나는 아직 모른다. 직감으로는 많이 필요한데, 많다는 직감만으로는 설계가 안 된다. 이건 만들어가며, 그리고 다른 시각을 빌려가며 채워야 할 빈칸이다. 또 하나, 트롤리 하나로 좁힌 이 결정이 끝까지 옳을지도 아직 모른다. 1화에서 적었듯 정답 없는 영역은 도덕 말고도 많고, 시작을 트롤리로 했다는 게 끝도 거기여야 한다는 뜻은 아니다. 작게 시작하는 것과 작게 끝나는 것 사이에서, 나는 아직 어느 쪽으로도 못을 박지 않았다.

그리고 빼기를 마치고 나니 엉뚱한 자리에서 새 질문이 올라왔다. 이렇게 좁히고 덜어낸 끝에 손에 남은 이것은, 도대체 무엇이라고 불러야 하나. 정답을 가르치는 교육 앱도 아니고, 사람을 붙드는 동반자 앱도 아니고, 성격을 유형화하는 검사도 아니다. 기존의 어느 카테고리에도 깔끔하게 들어맞지 않았다. 다음 장에서는 바로 그 이야기를 한다. 이름이 없는 자리를 발견했을 때, 그 빈자리가 기회인지 아니면 그냥 아무도 안 만든 데는 이유가 있는 함정인지를 어떻게 따져봤는지. 빼기가 윤곽을 만들고 나자, 그 윤곽에 이름이 없다는 게 다음 숙제가 됐다.