Minbook
EN
GEO 논문 리뷰: 정의와 기초 프레임워크

GEO 논문 리뷰: 정의와 기초 프레임워크

MJ · · 14 분 소요

KDD 2024 GEO 논문과 Chen et al. 2025 연구의 핵심 내용 리뷰. GEO의 학술적 정의, 가시성 측정 지표인 PAWC, 그리고 AI 검색이 브랜드 공식 사이트보다 제3자 리뷰(Earned Media)를 선호하는 패턴 등 실증적 분석 결과 정리.

리뷰 범위

이 글은 GEO(Generative Engine Optimization) 분야의 기초를 형성하는 두 논문을 학술적 관점에서 리뷰한다.

  1. Aggarwal, P. et al. (2024), “GEO: Generative Engine Optimization” — KDD 2024 정식 발표
  2. Chen, Y. et al. (2025), “Generative Engine Optimization: How to Dominate AI Search” — 프리프린트

GEO라는 용어가 업계에서 빠르게 확산되고 있지만, 실제 학술적 기반은 아직 얇다. 이 두 논문은 그 얇은 기반의 양쪽 기둥이다. Aggarwal et al.은 GEO의 학술적 정의, 벤치마크, 측정 지표를 수립했고, Chen et al.은 AI 검색이 기존 검색과 구조적으로 어떻게 다르게 작동하는지에 대한 실증 데이터를 제공했다.

이 글에서는 논문 배경, 핵심 논문(Aggarwal et al.) 상세 분석, 보조 논문(Chen et al.) 상세 분석, 두 논문의 교차 분석, 그리고 현재 문헌이 남겨둔 공백과 실무적 시사점을 순서대로 정리한다.

논문 배경: SEO에서 GEO로

검색 패러다임의 구조적 전환

전통적 검색 엔진은 “10개의 파란 링크(ten blue links)” 모델로 운영된다. 사용자가 쿼리를 입력하면 인덱싱된 웹페이지 목록이 순위화되어 표시된다. SEO(Search Engine Optimization)는 이 순위를 높이기 위한 최적화 전략이며, 측정 기준이 명확하다. SERP(Search Engine Results Page)에서의 위치가 곧 성과 지표다.

생성형 검색 엔진(Generative Engine)은 이 구조를 근본적으로 바꾼다. ChatGPT, Perplexity, Google AI Overviews, Bing Copilot 같은 시스템은 사용자 쿼리에 대해 자유 형식의 통합 응답(synthesized response)을 생성한다. 여러 소스의 정보를 종합하여 하나의 텍스트로 제시한다. 이 구조에서는 “순위”라는 개념 자체가 모호해진다.

기존 검색에서의 경쟁은 “누가 1페이지에 오르느냐”였다. 생성형 검색에서의 경쟁은 “AI가 응답을 생성할 때 누구의 정보를 언급하느냐”다. 측정 대상이 달라지면 최적화 전략도 달라져야 한다.

GEO 연구의 출발점

2024년 이전까지 GEO에 대한 학술적 연구는 사실상 존재하지 않았다. 업계에서는 “AI 검색 최적화”라는 개념이 회자되었지만, 무엇을 측정해야 하는지, 어떤 전략이 유효한지에 대한 체계적 프레임워크가 없었다. Aggarwal et al.의 KDD 2024 논문은 이 공백을 메운 최초의 학술적 시도다.

flowchart TB
    subgraph "연구 이전 상태"
        A["SEO 프레임워크만 존재"] --> B["SERP 순위 기반 측정"]
        B --> C["생성형 검색에 적용 불가"]
    end
    subgraph "Aggarwal et al. 2024 기여"
        D["GEO 개념 정의"] --> E["GEO-Bench 벤치마크"]
        E --> F["가시성 측정 지표 PAWC 제안"]
        F --> G["9가지 최적화 전략 실험"]
    end
    subgraph "Chen et al. 2025 기여"
        H["30K 응답 실증 분석"] --> I["Earned media 편향 발견"]
        I --> J["엔진별 민감도 차이 규명"]
    end
    C -->|"학술적 공백"| D
    G -->|"프레임워크 위에서 실증"| H

Paper 1: GEO의 학술적 출발점 (Aggarwal et al., KDD 2024)

Aggarwal et al.의 논문은 GEO라는 개념을 최초로 학술적으로 정의하고, 체계적인 벤치마크와 측정 지표를 제안했다는 점에서 필드 정의 논문(field-defining paper)이다. KDD 2024에 정식 채택되었다는 사실 자체가 이 연구의 학술적 기여에 대한 커뮤니티의 인정을 보여준다.

연구 설계 개요

논문의 연구 설계는 세 단계로 구성된다.

  1. 벤치마크 구축: 다양한 도메인의 쿼리와 그에 대한 생성형 엔진 응답을 수집하여 GEO-Bench를 구축
  2. 측정 지표 설계: 생성형 응답 내 콘텐츠 가시성을 정량화하는 메트릭 체계(Word Count, Position-Adjusted Word Count, Impression Count)를 제안
  3. 최적화 실험: 9가지 콘텐츠 최적화 전략을 적용한 후 가시성 변화를 측정

GEO-Bench: 생성형 검색의 벤치마크

GEO-Bench는 생성형 검색 엔진 응답에서의 콘텐츠 가시성을 측정하기 위한 최초의 체계적 벤치마크다. 기존 SEO에서는 SERP 순위라는 명확한 측정 기준이 있었다. 반면 생성형 엔진의 응답은 자유 형식 텍스트이므로, “가시성”이라는 개념 자체를 새롭게 정의해야 했다.

데이터셋 구성

GEO-Bench의 쿼리셋은 다양한 도메인을 커버하도록 설계되었다. 저자들은 쿼리를 도메인별로 분류하고, 각 쿼리에 대해 생성형 엔진이 참조하는 소스 웹사이트의 콘텐츠를 수집했다.

구성 요소세부 내용
쿼리 소스실제 사용자 검색 쿼리 기반
도메인 범위법률, 의학, 기술, 교육, 금융 등 다수 도메인
응답 수집 대상BingChat/Copilot 기반 생성형 엔진
수집 시점2023–2024년 특정 시점 스냅샷
포함 데이터쿼리, 생성된 응답 텍스트, 인용/참조된 소스 URL, 소스 콘텐츠

벤치마킹 접근법

GEO-Bench의 벤치마킹 방식은 다음과 같다. 각 쿼리에 대해 생성형 엔진이 응답을 생성하고, 그 응답 내에서 각 소스 웹사이트가 얼마나, 어떤 위치에서 언급되는지를 추적한다. 소스 콘텐츠를 수정(최적화)한 후 동일 쿼리로 다시 응답을 생성하게 하여, 최적화 전후의 가시성 변화를 측정한다.

이 접근의 핵심 가정은 생성형 엔진이 동일 쿼리에 대해 유사한 소스를 참조한다는 것이다. 실제로 동일 쿼리에 대한 응답은 실행 시점, 모델 버전, 사용자 컨텍스트에 따라 달라질 수 있으므로, 이 가정의 강건성에는 한계가 있다. 저자들은 이를 통제하기 위해 다수의 반복 실험을 수행했으나, 이 자체가 벤치마크의 근본적 한계를 완전히 해소하지는 못한다.

가시성 측정 지표 체계

Aggarwal et al.은 세 가지 가시성 측정 지표를 제안했다. 이 지표들은 단순한 것에서 정교한 것으로 진화하는 구조다.

지표정의특성
Word Count응답 내 특정 소스에서 유래한 단어 수가장 단순. 위치 정보 무시
Position-Adjusted Word Count (PAWC)응답 내 위치에 따라 가중치를 부여한 단어 수앞부분 언급에 높은 가중치. 핵심 지표
Impression Count소스가 응답에 인용/언급된 횟수빈도 기반. 깊이보다 노출 횟수 측정

PAWC의 설계 논리

PAWC(Position-Adjusted Word Count)는 이 논문의 가장 중요한 방법론적 기여다. 단순한 언급 횟수(Word Count)가 아닌, 응답 내 위치에 따른 가중치를 반영한다.

설계의 근거는 사용자 주의(attention) 분포에 있다. 기존 SERP에서 상위 결과가 더 많은 클릭을 받는 것처럼, 생성형 응답에서도 앞부분에 언급된 소스가 사용자에게 더 강한 인상을 남긴다는 가정이다. 응답의 첫 번째 문단에서 언급되는 것과 마지막 문단에서 언급되는 것은 사용자에 대한 영향력이 다르다.

PAWC는 “얼마나 많이 언급되었는가”가 아니라 “얼마나 좋은 위치에서 언급되었는가”를 측정한다. 이 관점 전환이 GEO 측정의 핵심이다.

PAWC의 가중 함수는 응답 앞부분일수록 높은 점수를 부여하는 감소 함수(decaying function)다. 이 함수의 형태 — 선형 감소인지, 지수적 감소인지, 로그 감소인지 — 에 따라 측정 결과가 달라질 수 있다. 저자들은 특정 감소 함수를 선택했지만, 이 선택의 근거가 되는 실증 데이터(예: 생성형 응답에서의 사용자 아이트래킹 데이터)는 제시하지 않았다. 이는 PAWC의 방법론적 한계이자, 후속 연구가 필요한 지점이다.

9가지 최적화 전략과 실험 결과

논문의 실험 핵심은 다양한 콘텐츠 최적화 전략이 생성형 엔진 응답에서의 가시성에 미치는 효과를 비교한 것이다. 저자들은 총 9가지 전략을 테스트했다.

전략별 설명

#전략설명
1Cite Sources주장에 대한 출처를 명시적으로 인용
2Add Statistics정량 데이터, 수치, 통계를 본문에 추가
3Include Quotations전문가 인용문, 연구 결과 직접 인용 포함
4Fluency Optimization문장 가독성 및 문법적 자연스러움 개선
5Technical Terms도메인 전문 용어를 적절히 사용
6Authoritative Tone전문가적이고 권위 있는 어조로 작성
7Keyword Stuffing타겟 키워드를 반복적으로 삽입
8Simple Language쉬운 어휘와 짧은 문장으로 단순화
9Unique Words동의어, 비일반적 표현을 사용하여 어휘 다양성 향상

실험 결과

전략가시성 변화 (PAWC 기준)효과 분류
Cite Sources높은 향상효과적
Add Statistics높은 향상 (최대 +40%)가장 효과적
Include Quotations중간 향상효과적
Fluency Optimization약한 향상제한적
Technical Terms도메인 의존적조건부 효과
Authoritative Tone약한 향상제한적
Keyword Stuffing유의미하지 않음 / 부정적비효과적
Simple Language유의미하지 않음비효과적
Unique Words유의미하지 않음비효과적

가장 주목할 결과는 상위 3개 전략(Cite Sources, Add Statistics, Include Quotations)과 하위 3개 전략(Keyword Stuffing, Simple Language, Unique Words) 사이의 명확한 격차다.

통계 데이터 추가(Add Statistics)는 생성형 엔진 응답에서 최대 40%의 가시성 향상을 가져왔다. 반면 키워드 반복(Keyword Stuffing)은 유의미한 효과를 보이지 않았다.

도메인별 차이

모든 전략이 모든 도메인에서 동일하게 작동하지는 않았다. 저자들은 도메인별 효과 차이도 보고했다.

도메인가장 효과적인 전략비고
법률/규제Cite Sources권위 있는 출처 인용이 핵심
과학/기술Add Statistics정량 근거가 결정적
의학/건강Cite Sources + Authoritative Tone신뢰성 신호가 복합적으로 작용
일반 정보Add Statistics + Include Quotations구체성이 범용적으로 유효

이 결과의 학술적 함의는 명확하다. GEO 전략은 “만능 공식”이 아니라 도메인 맥락에 따라 조정이 필요하다. 이는 SEO에서도 관찰되는 패턴이지만, GEO에서 도메인 의존성이 더 강하게 나타나는 경향이 있다.

이 결과가 의미하는 것

실험 결과에서 도출되는 핵심 메시지는 세 가지다.

첫째, GEO는 SEO의 단순 변형이 아니다. SEO에서 유효했던 키워드 반복(Keyword Stuffing)이 GEO에서는 효과가 없다. 생성형 엔진은 키워드 밀도가 아니라 정보의 구체성(specificity)과 검증 가능성(verifiability)에 반응한다.

둘째, “구체적인 근거(concrete evidence)“가 가시성의 핵심 동인이다. 통계, 인용, 출처 — 이 세 가지가 공통적으로 효과적이었다는 사실은 생성형 엔진이 “근거 있는 콘텐츠”를 선호한다는 것을 시사한다. 이는 LLM의 학습 데이터에 학술 논문, 위키피디아, 뉴스 기사 등 근거 중심 텍스트가 많이 포함되어 있다는 점과 일치한다.

셋째, 표현 수준의 최적화(문장 다듬기, 어휘 변경)는 실질적 효과가 제한적이다. GEO에서 중요한 것은 “어떻게 쓰느냐”보다 “무엇을 담느냐”다.

flowchart LR
    subgraph "효과적 전략 (정보 구체성)"
        S1["Cite Sources"] --> R1["출처의 검증 가능성 ↑"]
        S2["Add Statistics"] --> R2["정량 근거 ↑"]
        S3["Include Quotations"] --> R3["전문가 권위 ↑"]
    end
    subgraph "비효과적 전략 (표현 수준 변경)"
        S4["Keyword Stuffing"] --> R4["키워드 밀도만 ↑"]
        S5["Simple Language"] --> R5["표현 단순화"]
        S6["Unique Words"] --> R6["어휘 다양성"]
    end
    R1 --> V["가시성 향상"]
    R2 --> V
    R3 --> V
    R4 --> X["효과 없음"]
    R5 --> X
    R6 --> X

Paper 1의 한계

GEO-Bench의 한계는 몇 가지 차원에서 존재한다.

시간적 안정성(Temporal Stability) 미검증. GEO-Bench는 특정 시점의 스냅샷이다. 생성형 엔진의 모델이 업데이트되면 동일 전략의 효과가 달라질 수 있다. 2024년에 효과적이었던 전략이 2025년에도 유효한지에 대한 종단적 검증이 없다.

엔진 범위의 제한. 실험 대상이 BingChat/Copilot 기반으로 한정되었다. ChatGPT, Perplexity, Google AI Overviews 등 다른 생성형 엔진에서 동일한 결과가 재현되는지 확인되지 않았다.

PAWC의 가중 함수 검증 부재. PAWC의 위치 가중치가 실제 사용자 주의 분포를 반영하는지에 대한 독립적 검증이 없다. SEO의 CTR(Click-Through Rate) 분포를 유추하여 설계한 것이므로, 생성형 응답 고유의 사용자 행동 패턴이 다를 경우 지표의 타당성이 약해진다.

인과 메커니즘 미해명. “통계를 추가하면 가시성이 올라간다”는 관찰은 있지만, “왜 생성형 엔진이 통계가 포함된 콘텐츠를 더 많이 인용하는지”에 대한 인과 분석은 없다.

Paper 2: 실증적 행동 분석 (Chen et al., 2025)

Chen et al.의 연구는 Aggarwal et al.이 제시한 프레임워크 위에서 한 걸음 더 나아간다. “GEO 전략이 효과가 있는가”를 넘어 “실제로 AI 검색이 어떤 유형의 소스를 선호하는가, 엔진마다 어떻게 다른가”라는 질문을 던진다.

연구 방법론

Chen et al.은 대규모 실증 분석을 수행했다. 핵심 방법론을 정리하면 다음과 같다.

항목세부
분석 대상 응답 수약 30,000개
대상 엔진ChatGPT, Perplexity, Google AI Overviews
분석 차원인용 소스의 유형(도메인), 빈도, 엔진 간 차이
비교 기준기존 Google 검색 결과와의 차이
쿼리 유형다양한 도메인의 정보 탐색형 쿼리

30,000개 응답의 규모는 GEO 관련 실증 연구 중 가장 크다. 이 데이터셋에서 각 엔진이 인용한 소스의 도메인 유형을 분류하고, 기존 Google 검색 결과에서의 소스 분포와 비교하는 방식으로 분석을 진행했다.

Earned Media 편향: 핵심 발견

가장 주목할 만한 발견은 AI 검색 엔진이 브랜드 직접 운영 채널(owned media)보다 제3자 권위 출처(earned media)를 체계적으로(systematically) 선호한다는 점이다.

Owned Media vs Earned Media

구분정의예시
Owned Media브랜드가 직접 소유/운영하는 채널기업 공식 웹사이트, 브랜드 블로그, 자사 앱
Earned Media제3자가 자발적으로 생성한 콘텐츠뉴스 기사, 리뷰 사이트, 포럼 토론, 위키피디아
Paid Media비용을 지불하고 노출한 콘텐츠광고, 스폰서 콘텐츠, 유료 리스팅

Chen et al.의 분석에 따르면, AI 검색 엔진 응답에서 인용되는 소스의 대다수가 earned media 유형이었다. 리뷰 사이트, 뉴스 기사, 포럼 토론, 위키피디아 등이 브랜드 공식 웹사이트보다 인용될 가능성이 유의미하게 높았다.

기존 Google 검색은 owned media와 earned media를 비교적 균형 있게 노출했다. AI 검색에서의 이 편향은 SEO에서 GEO로의 전환이 단순한 기술 변화가 아니라 콘텐츠 전략의 구조적 전환을 요구함을 의미한다.

도메인 분포 분석

Chen et al.은 인용된 소스의 도메인 유형을 체계적으로 분류했다. 주요 발견을 요약하면 다음과 같다.

소스 유형AI 검색에서의 인용 빈도기존 Google 검색 대비
뉴스/언론 매체높음유사하거나 약간 높음
리뷰/비교 사이트매우 높음상당히 높음
위키피디아/백과사전높음유사
포럼/커뮤니티 (Reddit 등)중간–높음상당히 높음
학술/연구 기관중간유사
브랜드 공식 사이트낮음상당히 낮음
개인 블로그낮음약간 낮음

리뷰/비교 사이트와 포럼/커뮤니티의 인용 빈도가 기존 Google 검색 대비 현저히 높다는 점이 특히 주목할 만하다. 반면 브랜드 공식 사이트의 인용 빈도는 기존 검색 대비 낮았다.

이 패턴의 가능한 원인에 대해 Chen et al.은 직접적인 인과 분석을 제시하지는 않았지만, 몇 가지 가설을 제안했다. 생성형 엔진이 학습 데이터에서 earned media를 더 많이 참조한 결과일 수 있고, RAG(Retrieval-Augmented Generation) 파이프라인의 검색 단계에서 제3자 소스가 더 높은 관련성 점수를 받기 때문일 수 있으며, 혹은 LLM이 “중립적이고 종합적인 응답”을 생성하도록 설계되어 있어 자연스럽게 제3자 관점을 선호하기 때문일 수 있다.

엔진별 인용 패턴 비교

Chen et al.의 또 다른 중요한 기여는 AI 검색 엔진 간의 체계적 차이를 규명한 것이다.

flowchart TB
    Q["동일 쿼리 입력"] --> E1["ChatGPT"]
    Q --> E2["Perplexity"]
    Q --> E3["Google AI Overviews"]
    E1 --> R1["응답 + 인용 소스 A"]
    E2 --> R2["응답 + 인용 소스 B"]
    E3 --> R3["응답 + 인용 소스 C"]
    R1 --> D["인용 패턴 비교 분석"]
    R2 --> D
    R3 --> D
    D --> F1["소스 유형별 분포 차이"]
    D --> F2["Freshness 민감도 차이"]
    D --> F3["언어별 인용 변동"]
    D --> F4["쿼리 표현 민감도 차이"]

세 가지 민감도 차원

Chen et al.은 세 가지 변수에 대한 엔진별 민감도 차이를 체계적으로 분석했다.

Freshness (최신성). 각 엔진이 최신 정보를 반영하는 속도와 범위가 상이하다. Perplexity는 상대적으로 최신 콘텐츠를 더 빠르게 인용하는 경향을 보인 반면, ChatGPT는 학습 데이터 기반의 응답 비중이 높아 최신성 반영이 느렸다. Google AI Overviews는 자체 검색 인덱스와의 통합으로 중간적 위치를 차지했다.

Language (언어). 동일 쿼리를 영어와 비영어로 입력했을 때 인용되는 소스가 상당히 달라졌다. 영어 쿼리는 글로벌 영어권 소스를 광범위하게 인용하는 반면, 비영어 쿼리에서는 해당 언어권의 로컬 소스 비중이 높아지면서 전체적인 소스 다양성이 줄어드는 경향이 관찰되었다.

Query Phrasing (쿼리 표현). 동일한 검색 의도(intent)를 다른 표현으로 입력했을 때 응답의 일관성에 엔진 간 차이가 있었다. 일부 엔진은 쿼리 표현에 민감하게 반응하여 유사한 의도의 쿼리에 대해서도 상이한 소스를 인용했고, 다른 엔진은 의도 파악에 더 강건하여 표현이 달라도 유사한 소스를 인용했다.

민감도 변수ChatGPTPerplexityGoogle AI Overviews
Freshness낮음 (학습 데이터 의존)높음 (실시간 검색)중간 (인덱스 기반)
Language중간중간–높음높음 (로컬 인덱스 활용)
Query Phrasing높음 (표현 민감)중간낮음 (의도 파악 강건)

이 비교 결과의 실무적 함의는 명확하다. 단일 엔진, 단일 언어, 단일 쿼리로 측정한 GEO 가시성은 실제 노출 상태를 왜곡할 수 있다. GEO를 진지하게 추구하는 경우, 다중 엔진, 다중 언어, 다중 쿼리 표현에 걸친 가시성 측정이 필요하다.

Paper 2의 한계

Chen et al. 연구의 한계도 분명하다.

피어 리뷰 미완료. 프리프린트 단계이며 정식 피어 리뷰를 거치지 않았다. 방법론과 결론에 대한 학술 커뮤니티의 검증이 아직 이루어지지 않은 상태다.

인과 분석 부재. Earned media 편향이 관찰되었으나, 그 원인이 학습 데이터 구성에 기인하는지, 검색 파이프라인의 랭킹 로직에 기인하는지, 혹은 프롬프트 설계에 기인하는지에 대한 인과 분석이 제시되지 않았다. 상관 관계만으로는 최적화 전략의 방향을 정하기 어렵다.

도메인 집중. 분석 대상 쿼리가 특정 도메인에 집중되어 있어, B2B, SaaS, 의료 등 다른 버티컬에서의 일반화에 주의가 필요하다.

스냅샷 분석의 한계. 30K 응답이라는 규모에도 불구하고, 특정 시점의 분석이다. AI 엔진은 지속적으로 업데이트되므로, 분석 시점의 결과가 현재와 동일하다는 보장이 없다.

두 논문의 교차 분석

상호 보완적 구조

두 논문은 독립적으로 읽어도 가치가 있지만, 함께 읽었을 때 더 완전한 그림이 보인다. Aggarwal et al.이 “GEO란 무엇이며 어떻게 측정할 것인가”라는 프레임워크를 세웠고, Chen et al.이 “실제 AI 검색은 기존 검색과 어떻게 다르게 작동하는가”라는 실증 근거를 제공했다.

비교 차원Aggarwal et al. (2024)Chen et al. (2025)
핵심 질문GEO를 어떻게 정의하고 측정하는가AI 검색은 기존 검색과 어떻게 다른가
기여 유형개념 정의 + 벤치마크 + 측정 지표실증 분석 + 엔진 간 비교
방법론벤치마크 구축 + 통제된 최적화 실험대규모 응답 수집 + 비교 분석
핵심 산출물GEO-Bench, PAWC, 9가지 전략 효과Earned media 편향, 3가지 민감도 차이
분석 규모도메인별 쿼리셋약 30,000개 응답
대상 엔진BingChat/CopilotChatGPT, Perplexity, Google AI Overviews
학술적 상태KDD 2024 정식 발표프리프린트
실무 적용성중간 (전략 방향 제시)높음 (엔진별 차이 규명)

두 논문이 합쳐서 말하는 것

Aggarwal et al.의 결과에서 “통계 추가”와 “출처 인용”이 효과적이었다는 발견과, Chen et al.의 “AI 검색은 earned media를 선호한다”는 발견을 연결하면, 하나의 일관된 패턴이 보인다.

생성형 엔진은 “검증 가능하고, 구체적이며, 제3자 관점에서 작성된 콘텐츠”를 선호한다. 이는 SEO에서 중시되었던 키워드 최적화, 자사 브랜딩 강조, 도메인 권위와는 질적으로 다른 패러다임이다.

이 패턴을 정리하면 다음과 같다.

SEO 패러다임GEO 패러다임
키워드 밀도 최적화정보 구체성 최적화
자사 도메인 권위 구축제3자 채널에서의 언급 확보
SERP 순위 = 성과응답 내 언급 위치/빈도 = 성과
단일 엔진(Google) 최적화다중 엔진 최적화
정적 순위동적/확률적 언급
flowchart TB
    subgraph "Aggarwal et al. 기여"
        A1["GEO 정의"] --> A2["GEO-Bench"]
        A2 --> A3["PAWC 지표"]
        A3 --> A4["전략 효과 측정"]
        A4 --> A5["구체적 근거 = 효과적"]
    end
    subgraph "Chen et al. 기여"
        B1["30K 응답 분석"] --> B2["Earned media 편향"]
        B2 --> B3["엔진별 차이"]
        B3 --> B4["다중 엔진 측정 필수"]
    end
    A5 --> C["통합 시사점"]
    B4 --> C
    C --> D1["검증 가능한 콘텐츠 우선"]
    C --> D2["제3자 채널 전략 필수"]
    C --> D3["단일 엔진 최적화는 불충분"]

문헌에서 아직 부족한 것

두 논문이 GEO 분야의 기초를 놓았음에도 불구하고, 현재 문헌에는 상당한 공백이 존재한다. 이 공백들은 GEO가 학술적 개념에서 실행 가능한 전략 프레임워크로 성숙하기 위해 반드시 채워져야 한다.

1. 종단 연구의 부재

두 연구 모두 특정 시점의 스냅샷 분석이다. 생성형 엔진의 모델이 업데이트되면 동일 전략의 효과가 달라질 수 있다. GPT-4에서 GPT-4o로, 혹은 Gemini 1.5에서 2.0으로 모델이 바뀌었을 때 GEO 전략의 효과가 어떻게 변화하는지를 추적하는 종단 연구(longitudinal study)가 없다.

SEO에서는 Google의 알고리즘 업데이트(Panda, Penguin, BERT 등)가 SEO 전략에 미치는 영향이 누적적으로 연구되어 왔다. GEO에서도 유사한 종단적 분석이 필요하지만, 아직 수행된 바가 없다.

2. 사용자 행동 모델의 미비

PAWC의 위치 가중치는 SEO에서의 CTR 분포를 유추한 것이다. 그러나 사용자가 생성형 응답을 읽는 방식이 SERP를 스캔하는 방식과 동일하다는 보장이 없다. 자유 형식 텍스트를 읽는 패턴과 링크 목록을 스캔하는 패턴은 다를 수 있다.

이를 검증하기 위해서는 생성형 응답에서의 아이트래킹(eye-tracking) 연구가 필요하다. 사용자가 실제로 AI 응답의 어느 부분에 주의를 기울이는지, 어떤 브랜드 언급을 인지하고 기억하는지에 대한 실증 데이터가 확보되어야 PAWC의 가중 함수를 검증할 수 있다.

3. 인과 메커니즘 미해명

현재까지의 연구는 “무엇이 작동하는가(what works)“를 보여주지만, “왜 작동하는가(why it works)“는 설명하지 못한다.

  • 왜 통계 데이터가 포함된 콘텐츠가 더 많이 인용되는가?
  • Earned media 편향의 원인은 학습 데이터 편향인가, RAG 파이프라인의 랭킹 로직인가, 혹은 양자의 조합인가?
  • 생성형 엔진의 어느 단계(retrieval, reranking, generation)에서 소스 선택이 결정되는가?

인과 메커니즘을 이해하지 못하면, 전략은 경험적 관찰에 의존할 수밖에 없고, 엔진 업데이트 시 전략의 유효성을 예측할 수 없다.

4. 도메인 일반화

두 연구의 쿼리셋이 특정 도메인에 집중되어 있다. B2B SaaS, 기술 인프라, 의료, 금융 등 도메인 고유의 특성이 강한 영역에서 동일한 전략이 재현되는지 검증되지 않았다.

특히 B2B 도메인은 쿼리 자체의 성격이 B2C와 다르다. “최고의 CRM 소프트웨어 추천”과 “엔터프라이즈 데이터 파이프라인 아키텍처 비교”는 생성형 엔진이 참조하는 소스의 유형과 분포가 상이할 수 있다. 이러한 도메인별 재현 연구가 필요하다.

5. ROI 연결 모델

GEO 가시성 향상이 실제 비즈니스 성과로 이어지는 경로에 대한 연구가 거의 없다. “AI 응답에서 40% 더 많이 언급된다”는 것이 “실제 트래픽이 40% 증가한다”를 의미하지는 않는다.

GEO 가시성 → 브랜드 인지도 → 웹사이트 방문 → 전환(구매, 가입 등)이라는 퍼널에서 각 단계의 전환율이 얼마인지, GEO가 전체 마케팅 ROI에 어떤 기여를 하는지에 대한 연구가 부재하다. 이 연결 모델 없이는 GEO에 대한 투자를 정당화하기 어렵다.

6. 멀티모달 응답에 대한 고려 부재

두 논문 모두 텍스트 기반 응답만을 분석 대상으로 한다. 그러나 현재 생성형 엔진은 이미지, 차트, 코드 블록, 비디오 참조 등 멀티모달 요소를 포함한 응답을 생성하고 있다. 이러한 멀티모달 응답에서의 가시성 측정 방법론은 아직 제안된 바가 없다.

실무적 시사점

학술 논문의 발견을 실무에 직접 적용할 때는 주의가 필요하다. 연구 환경과 실제 운영 환경의 차이가 존재하기 때문이다. 그럼에도 두 논문에서 도출되는 방향성은 명확하다.

콘텐츠 전략의 방향 전환. 키워드 중심에서 “근거 밀도(evidence density)” 중심으로 전략을 전환해야 한다. 통계, 인용, 출처 명시가 SEO에서보다 GEO에서 더 강한 효과를 발휘한다.

Earned media 확보의 중요성 증대. 자사 웹사이트 최적화만으로는 GEO에서 가시성을 확보하기 어렵다. 리뷰 사이트, 뉴스 매체, 포럼, 위키피디아 등 제3자 채널에서의 언급을 확보하는 전략이 필수적이다.

다중 엔진 모니터링. ChatGPT, Perplexity, Google AI Overviews 등 주요 생성형 엔진 각각에서의 가시성을 별도로 모니터링해야 한다. 단일 엔진에서의 최적화가 다른 엔진으로 전이되지 않을 수 있다.

측정 프레임워크 구축 필요. 현재는 GEO 가시성을 지속적으로 측정할 수 있는 상용 도구가 거의 없다. 내부적으로라도 주기적으로 핵심 쿼리에 대한 생성형 엔진 응답을 수집하고, 자사/경쟁사의 언급 빈도와 위치를 추적하는 체계를 구축할 필요가 있다.


References

  • Aggarwal, P. et al. (2024). GEO: Generative Engine Optimization. Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2024).
  • Chen, Y. et al. (2025). Generative Engine Optimization: How to Dominate AI Search. Working Paper.

공유

관련 글