매일 버려지는 학습 시그널 — AI 초안과 최종본 사이의 간극

AI로 글을 쓰는 사람이라면 이 루틴이 익숙할 것입니다.

1. AI에게 초안을 요청한다 → 2. 결과를 읽는다 → 3. 톤을 고치고, 불필요한 문장을 지우고, 순서를 바꾼다 → 4. 발행한다 → 5. 다음 날 1번으로 돌아간다

여기서 3번에 들어간 판단 — “이 톤은 너무 딱딱하다”, “이 도입부는 길다”, “수치를 먼저 보여줘야 한다” — 이것이 바로 AI가 당신에게 맞춰지기 위해 필요한 학습 시그널입니다.

그런데 매번 버리고 있습니다.

현재 AI 글쓰기의 구조적 문제

Custom Instructions의 한계

ChatGPT의 메모리, Claude의 Custom Style, Notion AI의 Voice 설정. 대부분의 AI 도구는 사용자 스타일을 반영하는 방법으로 명시적 설정을 제공합니다.

도구	”학습” 방식	실체
ChatGPT Memory	대화에서 자동 인사이트 추출	사실 저장 (직업, 선호). 글쓰기 스타일 학습 아님
Claude Custom Style	샘플 텍스트 업로드	1회 분석. 사용 중 진화 없음
Jasper Brand Voice	기존 콘텐츠 업로드 → 프로필	초기 설정 후 정적
Grammarly	제안 수락/거부 패턴 추적	문장 단위 제안에 한정
Notion AI	Workspace 맥락 인식	문서 참조이지 학습 아님

공통점이 보이시나요? 전부 초기 설정 → 정적 유지입니다. 사용하면서 점점 나아지는 도구는 사실상 없습니다.

Grammarly가 가장 가까운 시도를 하고 있지만, 이것도 “문장 수준 제안의 수락/거부”를 추적하는 것이지, 전체 초안과 최종본의 차이를 분석하는 것은 아닙니다.

왜 아무도 안 하는가

기술적으로 불가능해서가 아닙니다. 두 가지 이유가 있습니다.

첫째, diff를 저장하려면 “초안”과 “최종본”이 모두 같은 시스템 안에 있어야 합니다. ChatGPT에서 초안을 받아 Google Docs에서 수정하면, 두 시스템은 서로의 존재를 모릅니다. 초안은 ChatGPT에, 최종본은 Docs에 — 연결이 끊겨 있습니다.

둘째, diff가 있어도 그걸 “학습”으로 전환하는 파이프라인이 없습니다. 사람이 수동으로 프롬프트를 고치는 게 현재의 유일한 방법입니다.

버려지는 시그널의 가치

한 가지 실험을 해봤습니다. 2주간 AI가 생성한 LinkedIn 드래프트와 실제 발행본의 diff를 모아서, 한 번에 LLM에게 분석을 시켰습니다.

결과:

도입부의 질문형 문장을 서술형으로 변경하는 패턴 7회

해시태그를 3개 → 5개로 확장하는 패턴 반복

“~입니다” 종결을 “~이다” 체로 변경 (14건 중 11건)

전문 용어 뒤에 괄호 영문 병기를 추가하는 패턴 일관

이 패턴들은 명시적으로 요청한 적 없는 것들입니다. Custom Instructions에 “도입부는 서술형으로”라고 적지 않았습니다. 그냥 매번 고쳤을 뿐입니다. 하지만 diff를 모아서 보니, 명확한 선호가 드러났습니다.

이것이 바로 implicit feedback — 사용자가 의식하지 않아도 편집 행위 자체에 담기는 학습 시그널입니다.

Self-Tuning Loop: 프롬프트가 진화하는 시스템

이 문제의 해법은 구조적으로 단순합니다.

graph TD
    G["1. Generate — 현재 가이드라인으로 초안 생성"]
    C["2. Capture — 초안과 최종본의 diff 저장"]
    A["3. Analyze — N건의 diff에서 반복 패턴 추출"]
    E["4. Evolve — 가이드라인 자동 업데이트"]

    G --> C
    C --> A
    A --> E
    E -->|"다음 초안은 수정본에 더 가까워짐"| G

Self-Tuning Loop. 4단계 순환입니다.

1단계: Generate

AI가 현재 가이드라인을 참조하여 초안을 생성합니다. 이 가이드라인은 처음에는 간단한 몇 줄일 수 있습니다.

## 작성 가이드라인 v1
- 톤: 전문적이지만 딱딱하지 않게
- 분량: 1,500자 내외
- 구조: 핵심 먼저, 배경은 뒤에

2단계: Capture

사용자가 초안을 수정하여 최종본을 만들면, 둘 다 저장합니다. 핵심은 diff를 추출하는 것입니다.

[초안] "AI 기술의 발전은 우리 사회에 큰 변화를 가져오고 있습니다."
[최종] "GPT-4o 출시 3개월 만에 기업 도입률이 34% 증가했습니다."
[diff] 추상적 서술 → 구체적 수치 + 고유명사로 변경

3단계: Analyze

일정 기간 (7일, 10건 등) diff가 쌓이면, LLM에게 패턴 분석을 요청합니다.

## 분석 프롬프트
아래는 최근 10건의 AI 초안과 사용자 최종본의 diff입니다.
반복적으로 나타나는 편집 패턴을 추출하세요.
각 패턴에 대해:
- 패턴 설명 (무엇을 어떻게 바꾸는가)
- 빈도 (10건 중 몇 건)
- 추정 이유 (왜 이렇게 바꾸는가)

4단계: Evolve

추출된 패턴을 가이드라인에 반영합니다. 여기에 안전장치가 있습니다.

변경 등급	기준	처리
Safe	빈도 70% 이상, 스타일/톤 관련	자동 반영
Risky	빈도 50% 미만, 또는 구조적 변경	제안만 (사람이 승인)

Safe 변경만 자동 반영하면, 가이드라인이 점진적으로 사용자에게 수렴합니다.

## 작성 가이드라인 v3 (자동 진화)
- 톤: 전문적이지만 딱딱하지 않게
- 분량: 1,500자 내외
- 구조: 핵심 먼저, 배경은 뒤에
+ - 도입부: 구체적 수치 또는 고유명사로 시작 (추상적 서술 지양)
+ - 종결어미: "~이다" 체 사용 ("~입니다" 지양)
+ - 전문 용어 첫 등장 시 괄호 영문 병기
+ - 해시태그: 5개 (3개는 부족)

이것이 전부입니다. Fine-tuning 없이, ML 인프라 없이, 프롬프트 텍스트가 진화하는 것만으로 다음 초안의 품질이 올라갑니다.

학술 연구와의 관계: 이 패턴은 어디에 위치하는가

프롬프트 자동 최적화는 활발한 연구 분야입니다. Self-Tuning Loop이 기존 연구와 어떻게 다른지 정리합니다.

기존 접근: 자동 메트릭 기반 최적화

연구	핵심 메커니즘	피드백 신호
APE (Zhou et al., 2023)	LLM이 instruction 후보 생성 → 성능 평가 → 최고 선택	Task 정확도
OPRO (DeepMind, 2023)	LLM을 optimizer로 사용, 이전 점수 이력 참조하여 프롬프트 개선	벤치마크 점수
DSPy (Stanford, 2024)	프롬프트를 모듈로 선언, 컴파일러가 few-shot 예제 + instruction 자동 최적화	개발자 정의 메트릭
EvoPrompt (2024)	유전 알고리즘으로 프롬프트 집단 진화	Dev set 정확도

이 연구들은 모두 자동 벤치마크 점수를 최적화합니다. “정확도 85% → 91%“처럼. 개별 사용자의 스타일 선호와는 무관합니다.

가장 가까운 연구: TextGrad와 POHF

TextGrad (Stanford, 2024, Nature 게재)는 가장 유사한 구조를 가지고 있습니다.

graph LR
    subgraph TextGrad
        O1["AI 출력"] --> C1["LLM이 비평 생성"]
        C1 --> U1["비평을 gradient로 사용"]
        U1 --> O1
    end

    subgraph Self-Tuning Loop
        O2["AI 초안"] --> C2["사람이 편집"]
        C2 --> U2["편집 diff를 gradient로 사용"]
        U2 --> O2
    end

차이는 하나입니다. TextGrad에서 gradient를 생성하는 것은 AI의 자동 비평이고, Self-Tuning Loop에서는 사람의 실제 편집입니다.

POHF (Lin et al., ICML 2024)는 인간 피드백을 사용하는 가장 가까운 연구입니다. 사용자에게 A/B 두 출력을 보여주고 “어느 쪽이 나은가”를 물어봅니다. 하지만 매번 명시적으로 비교 판단을 요구하기 때문에 사용자 마찰이 높습니다.

Gap: 아직 아무도 안 한 것

2025년 2월 종합 서베이(Systematic Survey of Automatic Prompt Optimization Techniques, arxiv:2502.16923)의 피드백 신호 분류를 보면:

피드백 유형	사용하는 연구	비고
Numeric score (정확도 등)	APE, OPRO, DSPy, EvoPrompt, PromptBreeder	가장 보편적
LLM 합성 비평	TextGrad, Self-Refine, Constitutional AI	AI가 AI를 평가
인간 A/B 선호	POHF	명시적 피드백 (마찰 높음)
인간 edit diff	해당 연구 없음	빈 공간

사용자의 실제 편집 diff를 implicit feedback으로 사용하여 프롬프트를 자동 진화시키는 시스템은 학술적으로도 상업적으로도 아직 존재하지 않습니다.

왜 이게 Fine-tuning보다 나은가

“그냥 모델을 fine-tune하면 되지 않나?” — 합리적인 질문입니다.

기준	Fine-tuning	Self-Tuning Loop
비용	GPU 시간 + 데이터 파이프라인	$0 (프롬프트 텍스트만 변경)
데이터 요구량	수백~수천 쌍	10건의 diff로 첫 개선 가능
해석 가능성	가중치 변화 — 블랙박스	가이드라인 변경 이력 — 자연어로 추적 가능
되돌림	이전 체크포인트로 롤백 (복잡)	가이드라인 한 줄 삭제
모델 독립성	특정 모델에 종속	어떤 LLM이든 적용 가능
시작까지 시간	파이프라인 구축 수일	즉시

Fine-tuning은 대규모 패턴 변경에 적합합니다. 하지만 “이 사람은 도입부를 짧게 쓴다”나 “해시태그를 5개 넣는다” 같은 개인 선호를 학습하기에는 과도한 도구입니다.

Self-Tuning Loop은 프롬프트가 진화하는 것이지 모델이 바뀌는 것이 아닙니다. 모델을 교체해도 가이드라인은 그대로 작동합니다. 이것이 가장 큰 장점입니다.

어디에 적용할 수 있는가

이 루프는 “AI가 초안을 만들고 사람이 수정하는” 모든 반복 업무에 적용됩니다.

도메인	Generate	Capture (diff)	Analyze	Evolve
이메일	AI가 답장 초안	보낸 메일 vs 초안	”격식 낮춤”, “인사 제거”	톤 가이드 업데이트
블로그	AI가 포스트 초안	발행본 vs 초안	”도입부 짧게”, “사례 먼저”	작성 가이드 패치
계약서	AI가 조항 초안	변호사 수정본	”면책 조항 항상 추가”	조항 템플릿 진화
코드 리뷰	AI가 리뷰 코멘트	수용/무시 패턴	”네이밍만 수용, 구조 제안은 무시”	리뷰 기준 조정
제안서	AI가 슬라이드 초안	최종본 diff	”수치 근거 항상 추가”	제안서 프롬프트 진화
뉴스 큐레이션	AI가 기사 선별	👍/👎 피드백	”컨설팅펌 뉴스 선호”	선별 기준 패치

공통 구조를 보세요. 4단계 루프가 도메인과 무관하게 동일합니다.

개인용 RLHF

랄프루프 시리즈에서 RLHF(Reinforcement Learning from Human Feedback)의 구조를 다뤘습니다. OpenAI가 ChatGPT를 만들 때 수십억 달러를 투입한 기술입니다.

RLHF의 핵심은 “인간의 선호를 모델에 반영하는 것”입니다. Self-Tuning Loop은 같은 목표를 완전히 다른 레이어에서 달성합니다.

차원	RLHF	Self-Tuning Loop
적용 레이어	모델 가중치	프롬프트 텍스트
비용	GPU 클러스터 + 라벨러	$0
피드백 수집	전문 라벨러가 A/B 비교	사용자가 평소대로 편집 (마찰 0)
개인화	전체 사용자 평균	개인별 고유 선호
업데이트 주기	모델 버전 릴리스 (수개월)	주 1회 자동
해석 가능성	가중치 변화 (해석 불가)	자연어 가이드라인 (읽을 수 있음)
되돌림	이전 체크포인트	한 줄 삭제

RLHF가 모든 사용자의 평균 선호를 모델에 굽는 것이라면, Self-Tuning Loop은 한 사람의 고유한 판단을 프롬프트에 축적하는 것입니다.

다음 편 예고

개념은 여기까지입니다. 다음 편에서는 이 루프를 실제로 운영하고 있는 시스템을 해부합니다.

35개 소스에서 뉴스를 수집하고, AI가 큐레이션하고, 피드백 루프로 매주 자동 개선
Telegram에서 사진 한 장 보내면 블로그 초안이 자동 생성
LinkedIn 드래프트가 매일 만들어지고, 편집 패턴이 톤 가이드에 반영
이 모든 것이 추가 비용 $0으로 작동

크론, Telegram, Claude — 세 가지 도구로 만든 자기 개선 운영 시스템의 아키텍처를 공개합니다.

이 시리즈

1편: 매일 버려지는 학습 시그널 (현재 글)
2편: 크론 + Telegram + Claude로 만든 자기 개선 시스템 (발행 예정)
3편: Self-Tuning Loop 직접 만들기 (발행 예정)

랄프루프 시리즈: AI 에이전트 루프의 진화 — RLHF에서 컨텍스트 붕괴까지
Claude Code 해부: 아키텍처 편 — 프로덕션 에이전트 시스템의 내부
내가 구축한 메모리 시스템 — 프롬프트 진화의 또 다른 접근

참고 자료

Zhou et al., “Large Language Models Are Human-Level Prompt Engineers” (APE), NeurIPS 2023
Yang et al., “Large Language Models as Optimizers” (OPRO), ICLR 2024
Khattab et al., “DSPy: Compiling Declarative Language Model Calls” Stanford, 2024
Yuksekgonul et al., “TextGrad: Automatic Differentiation via Text” Nature, 2024
Lin et al., “Prompt Optimization with Human Feedback” (POHF), ICML 2024
Fernando et al., “PromptBreeder: Self-Referential Self-Improvement” DeepMind, ICML 2024
“A Systematic Survey of Automatic Prompt Optimization Techniques” arxiv:2502.16923, 2025