Minbook
EN
매일 버려지는 학습 시그널 — AI 초안과 최종본 사이의 간극

매일 버려지는 학습 시그널 — AI 초안과 최종본 사이의 간극

MJ · · 6 분 소요

AI 초안을 수정할 때마다 발생하는 implicit feedback(편집 diff)을 캡처하고, 주기적으로 패턴을 분석하여 프롬프트를 자동 진화시키는 Self-Tuning Loop 패턴. 학술 연구(DSPy, TextGrad, POHF)와의 gap 분석 포함.

AI로 글을 쓰는 사람이라면 이 루틴이 익숙할 것입니다.

1. AI에게 초안을 요청한다 → 2. 결과를 읽는다 → 3. 톤을 고치고, 불필요한 문장을 지우고, 순서를 바꾼다 → 4. 발행한다 → 5. 다음 날 1번으로 돌아간다

여기서 3번에 들어간 판단 — “이 톤은 너무 딱딱하다”, “이 도입부는 길다”, “수치를 먼저 보여줘야 한다” — 이것이 바로 AI가 당신에게 맞춰지기 위해 필요한 학습 시그널입니다.

그런데 매번 버리고 있습니다.


현재 AI 글쓰기의 구조적 문제

Custom Instructions의 한계

ChatGPT의 메모리, Claude의 Custom Style, Notion AI의 Voice 설정. 대부분의 AI 도구는 사용자 스타일을 반영하는 방법으로 명시적 설정을 제공합니다.

도구”학습” 방식실체
ChatGPT Memory대화에서 자동 인사이트 추출사실 저장 (직업, 선호). 글쓰기 스타일 학습 아님
Claude Custom Style샘플 텍스트 업로드1회 분석. 사용 중 진화 없음
Jasper Brand Voice기존 콘텐츠 업로드 → 프로필초기 설정 후 정적
Grammarly제안 수락/거부 패턴 추적문장 단위 제안에 한정
Notion AIWorkspace 맥락 인식문서 참조이지 학습 아님

공통점이 보이시나요? 전부 초기 설정 → 정적 유지입니다. 사용하면서 점점 나아지는 도구는 사실상 없습니다.

Grammarly가 가장 가까운 시도를 하고 있지만, 이것도 “문장 수준 제안의 수락/거부”를 추적하는 것이지, 전체 초안과 최종본의 차이를 분석하는 것은 아닙니다.

왜 아무도 안 하는가

기술적으로 불가능해서가 아닙니다. 두 가지 이유가 있습니다.

첫째, diff를 저장하려면 “초안”과 “최종본”이 모두 같은 시스템 안에 있어야 합니다. ChatGPT에서 초안을 받아 Google Docs에서 수정하면, 두 시스템은 서로의 존재를 모릅니다. 초안은 ChatGPT에, 최종본은 Docs에 — 연결이 끊겨 있습니다.

둘째, diff가 있어도 그걸 “학습”으로 전환하는 파이프라인이 없습니다. 사람이 수동으로 프롬프트를 고치는 게 현재의 유일한 방법입니다.


버려지는 시그널의 가치

한 가지 실험을 해봤습니다. 2주간 AI가 생성한 LinkedIn 드래프트와 실제 발행본의 diff를 모아서, 한 번에 LLM에게 분석을 시켰습니다.

결과:

  • 도입부의 질문형 문장을 서술형으로 변경하는 패턴 7회
  • 해시태그를 3개 → 5개로 확장하는 패턴 반복
  • “~입니다” 종결을 “~이다” 체로 변경 (14건 중 11건)
  • 전문 용어 뒤에 괄호 영문 병기를 추가하는 패턴 일관

이 패턴들은 명시적으로 요청한 적 없는 것들입니다. Custom Instructions에 “도입부는 서술형으로”라고 적지 않았습니다. 그냥 매번 고쳤을 뿐입니다. 하지만 diff를 모아서 보니, 명확한 선호가 드러났습니다.

이것이 바로 implicit feedback — 사용자가 의식하지 않아도 편집 행위 자체에 담기는 학습 시그널입니다.


Self-Tuning Loop: 프롬프트가 진화하는 시스템

이 문제의 해법은 구조적으로 단순합니다.

graph TD
    G["1. Generate — 현재 가이드라인으로 초안 생성"]
    C["2. Capture — 초안과 최종본의 diff 저장"]
    A["3. Analyze — N건의 diff에서 반복 패턴 추출"]
    E["4. Evolve — 가이드라인 자동 업데이트"]

    G --> C
    C --> A
    A --> E
    E -->|"다음 초안은 수정본에 더 가까워짐"| G

Self-Tuning Loop. 4단계 순환입니다.

1단계: Generate

AI가 현재 가이드라인을 참조하여 초안을 생성합니다. 이 가이드라인은 처음에는 간단한 몇 줄일 수 있습니다.

## 작성 가이드라인 v1
- 톤: 전문적이지만 딱딱하지 않게
- 분량: 1,500자 내외
- 구조: 핵심 먼저, 배경은 뒤에

2단계: Capture

사용자가 초안을 수정하여 최종본을 만들면, 둘 다 저장합니다. 핵심은 diff를 추출하는 것입니다.

[초안] "AI 기술의 발전은 우리 사회에 큰 변화를 가져오고 있습니다."
[최종] "GPT-4o 출시 3개월 만에 기업 도입률이 34% 증가했습니다."
[diff] 추상적 서술 → 구체적 수치 + 고유명사로 변경

3단계: Analyze

일정 기간 (7일, 10건 등) diff가 쌓이면, LLM에게 패턴 분석을 요청합니다.

## 분석 프롬프트
아래는 최근 10건의 AI 초안과 사용자 최종본의 diff입니다.
반복적으로 나타나는 편집 패턴을 추출하세요.
각 패턴에 대해:
- 패턴 설명 (무엇을 어떻게 바꾸는가)
- 빈도 (10건 중 몇 건)
- 추정 이유 (왜 이렇게 바꾸는가)

4단계: Evolve

추출된 패턴을 가이드라인에 반영합니다. 여기에 안전장치가 있습니다.

변경 등급기준처리
Safe빈도 70% 이상, 스타일/톤 관련자동 반영
Risky빈도 50% 미만, 또는 구조적 변경제안만 (사람이 승인)

Safe 변경만 자동 반영하면, 가이드라인이 점진적으로 사용자에게 수렴합니다.

## 작성 가이드라인 v3 (자동 진화)
- 톤: 전문적이지만 딱딱하지 않게
- 분량: 1,500자 내외
- 구조: 핵심 먼저, 배경은 뒤에
+ - 도입부: 구체적 수치 또는 고유명사로 시작 (추상적 서술 지양)
+ - 종결어미: "~이다" 체 사용 ("~입니다" 지양)
+ - 전문 용어 첫 등장 시 괄호 영문 병기
+ - 해시태그: 5개 (3개는 부족)

이것이 전부입니다. Fine-tuning 없이, ML 인프라 없이, 프롬프트 텍스트가 진화하는 것만으로 다음 초안의 품질이 올라갑니다.


학술 연구와의 관계: 이 패턴은 어디에 위치하는가

프롬프트 자동 최적화는 활발한 연구 분야입니다. Self-Tuning Loop이 기존 연구와 어떻게 다른지 정리합니다.

기존 접근: 자동 메트릭 기반 최적화

연구핵심 메커니즘피드백 신호
APE (Zhou et al., 2023)LLM이 instruction 후보 생성 → 성능 평가 → 최고 선택Task 정확도
OPRO (DeepMind, 2023)LLM을 optimizer로 사용, 이전 점수 이력 참조하여 프롬프트 개선벤치마크 점수
DSPy (Stanford, 2024)프롬프트를 모듈로 선언, 컴파일러가 few-shot 예제 + instruction 자동 최적화개발자 정의 메트릭
EvoPrompt (2024)유전 알고리즘으로 프롬프트 집단 진화Dev set 정확도

이 연구들은 모두 자동 벤치마크 점수를 최적화합니다. “정확도 85% → 91%“처럼. 개별 사용자의 스타일 선호와는 무관합니다.

가장 가까운 연구: TextGrad와 POHF

TextGrad (Stanford, 2024, Nature 게재)는 가장 유사한 구조를 가지고 있습니다.

graph LR
    subgraph TextGrad
        O1["AI 출력"] --> C1["LLM이 비평 생성"]
        C1 --> U1["비평을 gradient로 사용"]
        U1 --> O1
    end

    subgraph Self-Tuning Loop
        O2["AI 초안"] --> C2["사람이 편집"]
        C2 --> U2["편집 diff를 gradient로 사용"]
        U2 --> O2
    end

차이는 하나입니다. TextGrad에서 gradient를 생성하는 것은 AI의 자동 비평이고, Self-Tuning Loop에서는 사람의 실제 편집입니다.

POHF (Lin et al., ICML 2024)는 인간 피드백을 사용하는 가장 가까운 연구입니다. 사용자에게 A/B 두 출력을 보여주고 “어느 쪽이 나은가”를 물어봅니다. 하지만 매번 명시적으로 비교 판단을 요구하기 때문에 사용자 마찰이 높습니다.

Gap: 아직 아무도 안 한 것

2025년 2월 종합 서베이(Systematic Survey of Automatic Prompt Optimization Techniques, arxiv:2502.16923)의 피드백 신호 분류를 보면:

피드백 유형사용하는 연구비고
Numeric score (정확도 등)APE, OPRO, DSPy, EvoPrompt, PromptBreeder가장 보편적
LLM 합성 비평TextGrad, Self-Refine, Constitutional AIAI가 AI를 평가
인간 A/B 선호POHF명시적 피드백 (마찰 높음)
인간 edit diff해당 연구 없음빈 공간

사용자의 실제 편집 diff를 implicit feedback으로 사용하여 프롬프트를 자동 진화시키는 시스템은 학술적으로도 상업적으로도 아직 존재하지 않습니다.


왜 이게 Fine-tuning보다 나은가

“그냥 모델을 fine-tune하면 되지 않나?” — 합리적인 질문입니다.

기준Fine-tuningSelf-Tuning Loop
비용GPU 시간 + 데이터 파이프라인$0 (프롬프트 텍스트만 변경)
데이터 요구량수백~수천 쌍10건의 diff로 첫 개선 가능
해석 가능성가중치 변화 — 블랙박스가이드라인 변경 이력 — 자연어로 추적 가능
되돌림이전 체크포인트로 롤백 (복잡)가이드라인 한 줄 삭제
모델 독립성특정 모델에 종속어떤 LLM이든 적용 가능
시작까지 시간파이프라인 구축 수일즉시

Fine-tuning은 대규모 패턴 변경에 적합합니다. 하지만 “이 사람은 도입부를 짧게 쓴다”나 “해시태그를 5개 넣는다” 같은 개인 선호를 학습하기에는 과도한 도구입니다.

Self-Tuning Loop은 프롬프트가 진화하는 것이지 모델이 바뀌는 것이 아닙니다. 모델을 교체해도 가이드라인은 그대로 작동합니다. 이것이 가장 큰 장점입니다.


어디에 적용할 수 있는가

이 루프는 “AI가 초안을 만들고 사람이 수정하는” 모든 반복 업무에 적용됩니다.

도메인GenerateCapture (diff)AnalyzeEvolve
이메일AI가 답장 초안보낸 메일 vs 초안”격식 낮춤”, “인사 제거”톤 가이드 업데이트
블로그AI가 포스트 초안발행본 vs 초안”도입부 짧게”, “사례 먼저”작성 가이드 패치
계약서AI가 조항 초안변호사 수정본”면책 조항 항상 추가”조항 템플릿 진화
코드 리뷰AI가 리뷰 코멘트수용/무시 패턴”네이밍만 수용, 구조 제안은 무시”리뷰 기준 조정
제안서AI가 슬라이드 초안최종본 diff”수치 근거 항상 추가”제안서 프롬프트 진화
뉴스 큐레이션AI가 기사 선별👍/👎 피드백”컨설팅펌 뉴스 선호”선별 기준 패치

공통 구조를 보세요. 4단계 루프가 도메인과 무관하게 동일합니다.


개인용 RLHF

이 시리즈의 랄프루프 편에서 RLHF(Reinforcement Learning from Human Feedback)의 구조를 다뤘습니다. OpenAI가 ChatGPT를 만들 때 수십억 달러를 투입한 기술입니다.

RLHF의 핵심은 “인간의 선호를 모델에 반영하는 것”입니다. Self-Tuning Loop은 같은 목표를 완전히 다른 레이어에서 달성합니다.

차원RLHFSelf-Tuning Loop
적용 레이어모델 가중치프롬프트 텍스트
비용GPU 클러스터 + 라벨러$0
피드백 수집전문 라벨러가 A/B 비교사용자가 평소대로 편집 (마찰 0)
개인화전체 사용자 평균개인별 고유 선호
업데이트 주기모델 버전 릴리스 (수개월)주 1회 자동
해석 가능성가중치 변화 (해석 불가)자연어 가이드라인 (읽을 수 있음)
되돌림이전 체크포인트한 줄 삭제

RLHF가 모든 사용자의 평균 선호를 모델에 굽는 것이라면, Self-Tuning Loop은 한 사람의 고유한 판단을 프롬프트에 축적하는 것입니다.


다음 편 예고

개념은 여기까지입니다. 다음 편에서는 이 루프를 실제로 운영하고 있는 시스템을 해부합니다.

  • 35개 소스에서 뉴스를 수집하고, AI가 큐레이션하고, 피드백 루프로 매주 자동 개선
  • Telegram에서 사진 한 장 보내면 블로그 초안이 자동 생성
  • LinkedIn 드래프트가 매일 만들어지고, 편집 패턴이 톤 가이드에 반영
  • 이 모든 것이 추가 비용 $0으로 작동

크론, Telegram, Claude — 세 가지 도구로 만든 자기 개선 운영 시스템의 아키텍처를 공개합니다.


참고 자료

  • Zhou et al., “Large Language Models Are Human-Level Prompt Engineers” (APE), NeurIPS 2023
  • Yang et al., “Large Language Models as Optimizers” (OPRO), ICLR 2024
  • Khattab et al., “DSPy: Compiling Declarative Language Model Calls” Stanford, 2024
  • Yuksekgonul et al., “TextGrad: Automatic Differentiation via Text” Nature, 2024
  • Lin et al., “Prompt Optimization with Human Feedback” (POHF), ICML 2024
  • Fernando et al., “PromptBreeder: Self-Referential Self-Improvement” DeepMind, ICML 2024
  • “A Systematic Survey of Automatic Prompt Optimization Techniques” arxiv:2502.16923, 2025
공유

관련 글