GEO 논문 리뷰: 평가 체계와 조작 리스크

리뷰 범위

이 글은 GEO(Generative Engine Optimization) 분야가 초기 정의 단계를 넘어 평가 체계 구축과 보안 리스크 분석으로 확장되고 있음을 보여주는 두 논문을 리뷰한다.

Kim et al. (2026), “SAGEO Arena” - 프리프린트
Jin et al. (2026), “CORE: Controlling Output Rankings” - 프리프린트 (ICLR 2026 제출)

전자는 GEO 평가 방법론의 한계를 지적하고 통합 파이프라인 평가를 제안한다. 후자는 적대적 관점에서 AI 응답 순위 조작의 가능성을 실증한다. 두 논문의 학술적 기여, 한계, 그리고 GEO 분야 성숙에 대한 함의를 정리한다.

이전 리뷰에서 다룬 Aggarwal et al. (2024, KDD)과 Chen et al. (2025)이 “GEO란 무엇인가”를 정의했고, Wu et al.의 AutoGEO와 Bagga et al.의 E-GEO가 “어떻게 최적화하는가”를 다루었다면, 이번 두 논문은 “어떻게 제대로 측정하고, 어떤 리스크가 존재하는가”라는 질문에 위치한다. 학문적 필드가 정의 → 측정 → 보안의 순서로 성숙하는 전형적인 패턴이며, GEO도 이 궤적 위에 있다.

GEO 연구 흐름 전체 맥락

현재까지 리뷰한 논문들의 위치를 도식화하면 다음과 같다.

flowchart LR
    subgraph Phase1["Phase 1: 정의"]
        A["Aggarwal et al. (2024)\nGEO 개념 정의\nGEO-Bench, PAWC"]
        B["Chen et al. (2025)\n실증 행동 분석\nearned media 편향"]
    end
    subgraph Phase2["Phase 2: 최적화"]
        C["Wu et al. (2025)\nAutoGEO\n품질 유지형 최적화"]
        D["Bagga et al. (2025)\nE-GEO\n이커머스 버티컬"]
    end
    subgraph Phase3["Phase 3: 측정+보안"]
        E["Kim et al. (2026)\nSAGEO Arena\n통합 평가 환경"]
        F["Jin et al. (2026)\nCORE\n순위 조작 실증"]
    end
    Phase1 --> Phase2 --> Phase3

이 흐름에서 주목할 점은, Phase 3의 두 논문이 서로 다른 방향에서 동일한 문제를 조명한다는 것이다. SAGEO Arena는 “현재 평가 방법이 충분한가?”를, CORE는 “현재 시스템이 안전한가?”를 묻는다. 두 질문은 표면적으로 독립적이지만, 근본적으로 “GEO 생태계의 신뢰성”이라는 동일한 관심사에 귀결된다.

Paper 1: 파이프라인 전체를 평가해야 한다 - SAGEO Arena

Kim et al.의 SAGEO Arena는 GEO와 SEO를 별개의 최적화 영역으로 분리하는 기존 접근에 대한 비판에서 출발한다. 논문의 핵심 주장은 단순하면서도 파급력이 크다. 생성 단계만 측정하는 GEO 평가는 구조적으로 불완전하다.

문제 제기: 기존 GEO 평가의 맹점

기존 GEO 연구 - 앞선 리뷰에서 다룬 Aggarwal et al. (2024) 포함 - 는 주로 생성 단계(generation stage)에서의 콘텐츠 가시성에 집중했다. GEO-Bench의 PAWC 지표, Chen et al.의 earned media 분석, AutoGEO의 cooperative GEO 모두 “AI가 생성한 응답 안에 특정 소스가 얼마나 포함되는가”를 측정했다.

그러나 실제 AI 검색 시스템은 단일 단계가 아니다. 검색(retrieval), 재순위화(reranking), 생성(generation)이라는 다단계 파이프라인으로 구성된다. 여기서 근본적인 문제가 발생한다. 생성 단계에서 최적화된 콘텐츠라도, 검색 단계에서 후보군에 포함되지 않으면 AI 응답에 절대 등장할 수 없다.

이 문제를 구체적으로 분해하면 다음과 같다.

파이프라인 단계	역할	기존 GEO 연구의 커버리지
Retrieval	대규모 문서 풀에서 쿼리 관련 후보군을 추출	거의 없음
Reranking	후보군 내에서 관련성, 권위, 신선도 기준으로 재정렬	간접적 (earned media 분석에 암시)
Generation	최종 응답 텍스트를 생성하며 소스를 인용	대부분의 연구가 여기 집중

SAGEO Arena의 핵심 주장은 이 표의 비대칭에서 출발한다. GEO 연구의 대부분이 Generation 단계에만 집중해 왔으나, 실질적 가시성의 첫 관문은 Retrieval이다.

SAGEO Arena의 아키텍처

저자들은 retrieval-reranking-generation의 전체 파이프라인을 커버하는 통합 평가 환경을 구축했다. SEO(검색 노출)와 GEO(생성 응답 노출)를 동일 프레임워크 안에서 측정하는 구조다.

flowchart TD
    Q["사용자 쿼리"] --> R["Retrieval 단계"]
    R -->|"후보 문서 n개"| RR["Reranking 단계"]
    RR -->|"상위 k개 문서"| G["Generation 단계"]
    G --> A["AI 응답 + 인용"]

    subgraph SAGEO["SAGEO Arena 평가 범위"]
        R
        RR
        G
    end

    subgraph SEO_Metrics["SEO 지표"]
        RM1["Retrieval Hit Rate"]
        RM2["Average Retrieval Rank"]
        RM3["Reranking Position"]
    end

    subgraph GEO_Metrics["GEO 지표"]
        GM1["Citation Inclusion"]
        GM2["Position in Response"]
        GM3["Attribution Quality"]
    end

    R --> SEO_Metrics
    RR --> SEO_Metrics
    G --> GEO_Metrics

이 설계의 의의는 GEO를 “콘텐츠 최적화”에서 파이프라인 최적화로 재정의한다는 데 있다. 어떤 콘텐츠 속성이 어느 파이프라인 단계에서 작용하는지를 분해하여 측정할 수 있다.

방법론 상세

SAGEO Arena의 실험 설계는 다음 요소로 구성된다.

실험 요소	세부 내용
평가 대상	SEO 지표와 GEO 지표를 동시에 측정
파이프라인 구성	Retrieval(임베딩 기반 검색) → Reranking(cross-encoder) → Generation(LLM)
최적화 변수	구조화된 정보(메타데이터, 스키마 마크업), 본문 텍스트, 인용 밀도 등
측정 지표 (SEO)	Retrieval Hit Rate, Average Retrieval Rank
측정 지표 (GEO)	Citation Inclusion Rate, Position-weighted Visibility
쿼리셋	다수 도메인의 정보 탐색형 및 복합 쿼리

특히 저자들은 최적화 변수를 개별적으로 분리하여 실험했다. 이는 “어떤 최적화가 어느 단계에서 효과가 있는가”를 인과적으로 분석하기 위한 설계다. 기존 GEO 연구에서 이 수준의 단계별 분해 분석을 시도한 사례는 거의 없다.

SEO와 GEO 지표의 통합

SAGEO Arena가 기여하는 또 다른 차원은 SEO 지표와 GEO 지표를 하나의 프레임워크에서 동시에 측정하는 구조를 제시한 점이다. 기존에는 두 영역이 거의 완전히 분리되어 있었다.

구분	기존 SEO 평가	기존 GEO 평가	SAGEO 통합 평가
측정 대상	SERP 순위, 클릭률	AI 응답 내 인용 빈도	전체 파이프라인
관점	검색 엔진 크롤링	생성 모델 출력	양쪽 동시
최적화 전략	기술 SEO + 콘텐츠	콘텐츠 구조 + 권위	단계별 분해
한계	AI 검색 미반영	Retrieval 단계 무시	실험 환경의 일반화 문제

이 통합이 실무적으로 의미 있는 이유는, 현실에서 SEO와 GEO는 동일한 콘텐츠에 적용된다는 점이다. 하나의 웹페이지가 Google SERP에도 노출되고, Perplexity나 ChatGPT Search의 AI 응답에도 인용될 수 있다. 두 지표를 분리하여 최적화하면 한쪽의 개선이 다른 쪽의 저하를 유발할 수 있으며, SAGEO Arena는 이 트레이드오프를 가시화하는 도구를 제공한다.

주요 결과

최적화 대상	Retrieval Hit Rate 변화	Average Retrieval Rank 변화	Generation 인용률 변화
구조화된 정보(structured info) 최적화	+22%	+2.72	유의미한 개선
본문 텍스트(body text) 단독 최적화	미미	미미	일부 개선
인용 밀도(citation density) 최적화	경미	경미	유의미한 개선
구조화 정보 + 본문 텍스트 동시 최적화	최대	최대	최대

가장 주목할 결과는 구조화된 정보 - 메타데이터, 스키마 마크업, 구조화 데이터 등 - 를 최적화했을 때 검색 적중률이 22% 향상되고 평균 검색 순위가 2.72 상승했다는 점이다. 반면 본문 텍스트만을 대상으로 한 최적화는 Retrieval 단계에서 유의미한 효과를 보이지 않았다.

핵심 발견: 구조화된 정보 최적화는 Retrieval 단계에서 가장 큰 효과를 보이며 (+22% hit rate), 본문 텍스트 최적화는 Generation 단계에서만 일부 효과가 있다. GEO 전략이 본문 최적화에만 머물러서는 구조적으로 불충분하다.

이 결과는 직관적으로 해석 가능하다. AI 검색 시스템의 retrieval 단계는 임베딩 기반 유사도 검색과 메타데이터 필터링에 의존하며, 본문 내용의 질적 개선은 이 단계를 통과한 이후에야 효과를 발휘한다. 구조화된 정보가 retrieval의 “게이트”를 통과시키는 핵심 신호이며, 본문 텍스트는 generation 단계에서의 인용 여부에 영향을 미친다.

Retrieval 개선 메커니즘의 분석

+22% retrieval hit rate 개선이 어떤 메커니즘을 통해 발생하는지를 더 구체적으로 살펴볼 필요가 있다.

AI 검색 시스템의 retrieval 단계는 크게 두 가지 경로로 작동한다.

밀집 벡터 검색(Dense Retrieval): 쿼리와 문서를 동일 벡터 공간에 임베딩한 뒤 유사도를 계산한다. 이 경우 문서의 구조화된 메타데이터(제목, 설명, 스키마 마크업)가 임베딩 품질에 직접적으로 영향을 미친다.
희소 벡터 검색(Sparse Retrieval) + 메타데이터 필터링: BM25 등의 전통적 검색과 메타데이터 기반 필터를 결합한다. 구조화된 데이터가 풍부한 문서가 필터링 단계에서 우선적으로 포함될 가능성이 높다.

SAGEO Arena의 결과는 두 경로 모두에서 구조화된 정보가 유리하게 작용함을 시사한다. 이는 기존 기술 SEO(Technical SEO)에서 스키마 마크업과 메타데이터 최적화가 중요했던 것과 구조적으로 동일한 패턴이며, AI 검색 시대에도 이 원칙이 유효함을 실증한다.

한계

프리프린트 단계이며, 사용된 파이프라인 구성이 모든 상용 AI 검색 엔진의 아키텍처를 대표하는지 검증되지 않았다. 특히 Google AI Overview, Perplexity, ChatGPT Search 등은 각기 다른 retrieval-generation 파이프라인을 사용할 가능성이 높다.

구체적인 한계를 정리하면 다음과 같다.

한계	상세	후속 연구 필요 사항
파이프라인 대표성	실험 파이프라인이 상용 시스템을 충분히 대표하는지 미검증	다중 파이프라인 구성에서의 재현 실험
구조화 정보 유형 분해	”구조화된 정보”의 범위가 넓음. 어떤 유형이 가장 큰 기여를 하는지 세부 분석 필요	스키마 마크업, 메타 태그, Open Graph 등 개별 효과 분리
엔진 간 비교	단일 파이프라인 실험이므로 엔진 간 차이를 포착하지 못함	다중 엔진 비교 실험
시간적 안정성	특정 시점의 결과이며 모델 업데이트에 따른 변화 미측정	종단 연구(longitudinal study)
쿼리 유형 범위	정보 탐색형 쿼리 위주이며 커머스, 로컬 등 다른 의도의 쿼리 미포함	E-GEO 등 버티컬 벤치마크와의 결합

Paper 2: 순위 조작은 가능한가 - CORE

Jin et al.의 CORE는 GEO의 어두운 면을 조명한다. 최적화가 가능하다면, 악의적 조작도 가능한가? 이 질문은 모든 최적화 분야에서 반드시 제기되어야 하는 질문이며, GEO도 예외가 아니다.

연구의 윤리적 위치

먼저 이 논문의 성격을 명확히 해야 한다. CORE는 취약점 보고서(vulnerability disclosure)이지, 조작 가이드가 아니다. 이것은 AI 보안 연구의 표준적인 접근 방식이다.

사이버 보안 분야에서는 “responsible disclosure” - 취약점을 공개적으로 보고하여 방어를 촉진하는 관행 - 이 확립되어 있다. 프롬프트 인젝션 연구(Perez & Ribeiro, 2022), 데이터 포이즈닝 연구(Carlini et al., 2023) 등 최근 AI 보안 연구도 동일한 프레임에서 수행된다. CORE가 ICLR 2026에 제출된 것 자체가 학술 커뮤니티가 이를 정당한 보안 연구로 인식하고 있음을 반영한다.

윤리적 프레이밍: CORE의 91.4% 성공률은 “이렇게 하면 조작할 수 있다”가 아니라, “현재 시스템이 이 정도로 취약하다”는 의미로 읽어야 한다.

연구 설계

이 논문은 적대적(adversarial) 관점에서 AI 검색 응답의 순위를 의도적으로 조작할 수 있는지를 체계적으로 실험한다. 연구 설계는 공격 유형의 분류 체계(taxonomy) 구축과, 각 유형의 효과 측정으로 구성된다.

공격 벡터 분류 체계

CORE가 제시하는 공격 벡터는 다음과 같이 분류된다.

flowchart TD
    A["AI 검색 순위 조작\n(Output Ranking Manipulation)"]
    A --> B["콘텐츠 수준 공격\n(Content-level)"]
    A --> C["메타데이터 수준 공격\n(Metadata-level)"]
    A --> D["크로스 채널 공격\n(Cross-channel)"]

    B --> B1["권위 신호 삽입\n(Authority Signal Injection)"]
    B --> B2["인용 네트워크 조작\n(Citation Network Manipulation)"]
    B --> B3["키워드+구조 혼합\n(Keyword-Structure Hybrid)"]

    C --> C1["스키마 마크업 남용\n(Schema Markup Abuse)"]
    C --> C2["메타 태그 과장\n(Meta Tag Inflation)"]

    D --> D1["다중 소스 일관성 공격\n(Multi-source Consistency)"]
    D --> D2["합성 백링크\n(Synthetic Backlinks)"]

각 공격 벡터의 특성과 성공률을 요약하면 다음과 같다.

공격 벡터	설명	Top-5 프로모션 성공률	Top-10 프로모션 성공률
권위 신호 삽입	통계, 인용, 전문가 의견 등을 삽입하여 권위 있는 소스로 인식시킴	높음	매우 높음
인용 네트워크 조작	다수의 외부 소스에서 대상 콘텐츠를 참조하도록 유도	높음	높음
키워드-구조 혼합	의미론적 키워드 최적화와 구조화된 포맷을 결합	중간	높음
스키마 마크업 남용	사실과 다른 구조화 데이터를 마크업에 삽입	중간	중간
다중 소스 일관성	여러 채널에서 동일한 주장을 반복하여 합의 신호를 생성	매우 높음	매우 높음
복합 공격	위 벡터들을 조합하여 사용	91.4%	96.2%

주요 결과와 그 함의

CORE가 보고한 핵심 수치는 Top-5 순위 프로모션 성공률 **91.4%**다. 즉, 특정 콘텐츠를 AI 응답의 상위 5개 위치 안에 노출시키려는 시도가 91.4%의 확률로 성공했다는 의미다.

핵심 수치: 복합 공격(multiple vectors combined) 조건에서 Top-5 프로모션 성공률 91.4%, Top-10 프로모션 성공률 96.2%. 이는 통제된 실험 조건에서의 결과이나, 현재 AI 검색 시스템의 강건성(robustness)이 현저히 낮음을 시사한다.

이 수치의 함의를 SEO 역사와 대비하여 분석할 필요가 있다.

비교 차원	Google 검색 (2024 기준)	AI 검색 시스템 (CORE 실험)
스팸 방어 역사	20년 이상의 방어 메커니즘 축적	초기 단계
조작 성공률	정교한 Black Hat SEO도 성공률 제한적	91.4% (복합 공격)
탐지 메커니즘	SpamBrain, 수동 조치, 알고리즘 페널티	대부분 미구축
규범 프레임워크	White Hat / Black Hat 구분 확립	기준 부재
산업 자정 메커니즘	검색 품질 평가자(Quality Raters) 가이드라인	없음

기존 Google 검색이 수십 년간 스팸, 링크 팜, 클릭 조작 등에 대한 방어 메커니즘을 발전시켜 온 것과 대비된다. AI 검색 시스템은 이러한 방어 역사가 거의 없는 상태에서 상용 서비스로 출시되고 있다.

91.4% 성공률이 산업에 의미하는 것

이 수치를 산업 관점에서 해석하면 세 가지 차원의 문제가 드러난다.

첫째, 사용자 신뢰 문제. AI 검색이 “더 정확하고 편향 없는 답변을 제공한다”는 기대 위에 성장하고 있다. 그러나 순위 조작이 이 정도로 용이하다면, AI 검색 응답의 상위 결과가 반드시 가장 관련성 높은 소스라는 전제가 무너진다. 이는 사용자 신뢰의 기반을 훼손한다.

둘째, 시장 공정성 문제. 조작 기술에 대한 접근성이 균등하지 않다. 기술 역량과 자원을 보유한 행위자만이 조작을 시도할 수 있으며, 이는 소규모 콘텐츠 생산자에게 구조적 불리함을 초래한다. SEO에서 대기업이 링크 빌딩에 막대한 예산을 투입하여 소규모 사이트를 밀어낸 패턴이 GEO에서 반복될 위험이 있다.

셋째, 정보 생태계 오염. AI 검색이 다른 AI 시스템의 학습 데이터로 활용되는 순환 구조에서, 조작된 순위가 다음 세대 모델의 학습에 반영될 가능성이 있다. 이는 단일 시점의 조작을 넘어 장기적 정보 생태계의 왜곡으로 이어질 수 있다.

방어 메커니즘의 필요성과 구조

Jin et al.은 공격 실증뿐 아니라 방어 방향도 제시한다. 논문에서 제안하거나 암시하는 방어 메커니즘은 다음과 같이 구조화할 수 있다.

flowchart TD
    D["방어 메커니즘\n(Defense Layers)"]
    D --> L1["Layer 1: 입력 검증"]
    D --> L2["Layer 2: 파이프라인 강건화"]
    D --> L3["Layer 3: 출력 모니터링"]
    D --> L4["Layer 4: 규범 프레임워크"]

    L1 --> L1a["콘텐츠 진위 검증"]
    L1 --> L1b["메타데이터 일관성 검사"]
    L1 --> L1c["소스 신뢰도 스코어링"]

    L2 --> L2a["적대적 학습\n(Adversarial Training)"]
    L2 --> L2b["다중 신호 교차 검증"]
    L2 --> L2c["순위 이상 탐지"]

    L3 --> L3a["응답 일관성 모니터링"]
    L3 --> L3b["시간 기반 순위 변동 추적"]
    L3 --> L3c["사용자 피드백 통합"]

    L4 --> L4a["White Hat GEO 기준 정의"]
    L4 --> L4b["조작 탐지 투명성 보고"]
    L4 --> L4c["산업 자율 규제"]

각 방어 계층의 역할과 현재 구현 상태를 정리하면 다음과 같다.

방어 계층	역할	현재 상태	구현 난이도
입력 검증	인덱싱 전 콘텐츠와 메타데이터의 진위 및 일관성 검증	기초적 수준	중간
파이프라인 강건화	Retrieval/Reranking/Generation 각 단계에서 적대적 입력에 대한 강건성 확보	거의 없음	높음
출력 모니터링	생성된 응답의 순위 패턴에서 이상 징후 탐지	부분적	중간
규범 프레임워크	최적화와 조작의 경계를 정의하는 산업 기준	부재	높음 (기술 외적 요소)

AI 보안 연구와의 교차점

CORE의 연구는 기존 AI 보안 연구 의제와 구조적으로 연결된다.

AI 보안 의제	정의	GEO 맥락에서의 대응물
프롬프트 인젝션 (Prompt Injection)	LLM에 악의적 지시를 삽입하여 의도하지 않은 행동 유도	콘텐츠 내에 LLM이 해당 소스를 인용하도록 유도하는 텍스트 삽입
데이터 포이즈닝 (Data Poisoning)	학습 데이터에 악의적 샘플을 주입하여 모델 행동 변경	인덱싱 대상 웹 콘텐츠에 조작된 정보를 배포
적대적 예제 (Adversarial Examples)	입력을 미세하게 수정하여 모델의 분류/출력을 교란	콘텐츠를 미세 조정하여 순위 알고리즘을 교란
모델 추출 (Model Extraction)	모델의 행동을 관찰하여 내부 로직을 역추론	순위 변동 패턴 관찰을 통해 랭킹 알고리즘을 역추론

이 대응 관계는 GEO 보안이 독립된 새로운 문제가 아니라, AI 보안의 기존 프레임워크를 확장하여 다룰 수 있음을 시사한다. 다만 GEO 고유의 특성 - 다단계 파이프라인, 웹 콘텐츠라는 개방된 입력 공간, 상용 서비스에서의 실시간 영향 - 이 추가적인 복잡성을 야기한다.

한계

실험 환경의 구체적인 파이프라인 구성과 상용 시스템에서의 재현 가능성 간 간극이 존재할 수 있다. 또한 91.4%라는 수치는 통제된 실험 조건에서의 결과이며, 실제 상용 시스템은 추가적인 필터링 계층을 보유하고 있을 가능성이 있다. 다만, 이러한 방어가 충분한지 여부를 검증하는 것 자체가 향후 연구 과제다.

추가적으로, 연구의 공격 시나리오가 정적(static)이라는 한계가 있다. 실제 환경에서의 조작 시도는 방어 메커니즘에 적응하며 진화하는 동적 과정이다. 이러한 arms race 동학은 이 논문의 범위를 벗어나지만, 향후 연구에서 반드시 다루어야 할 주제다.

교차 분석: 평가 무결성과 조작 리스크

두 논문을 나란히 놓으면, 단순한 비교를 넘어 하나의 통합된 문제가 드러난다. GEO 평가 프레임워크의 무결성(evaluation integrity)과 순위 조작 리스크(manipulation risk)는 동일 문제의 양면이다.

두 논문의 비교 프레임

차원	Kim et al. - SAGEO Arena	Jin et al. - CORE
관점	평가 방법론	보안/적대적 분석
핵심 질문	현재 평가가 충분한가?	현재 시스템이 안전한가?
핵심 기여	파이프라인 전체 평가 프레임워크	순위 조작 취약점 실증
핵심 수치	Retrieval hit rate +22%	Top-5 프로모션 91.4% 성공
GEO 재정의	콘텐츠 최적화 → 파이프라인 최적화	최적화 → 보안 포함
방법론	통합 평가 환경 구축 + 변수 분리 실험	공격 분류 체계 + 성공률 측정
실무 대상	GEO 전략 수립자, 평가 연구자	플랫폼 보안 팀, 정책 수립자
상태	프리프린트	프리프린트 / ICLR 2026 제출

구조적 연결: 평가와 보안의 상호 의존

SAGEO Arena의 파이프라인 평가 구조와 CORE의 공격 벡터 분석은 놀랍도록 정확하게 대응된다. SAGEO Arena가 “retrieval 단계에서 구조화된 정보가 결정적”이라고 발견한 바로 그 지점에서, CORE의 “스키마 마크업 남용” 공격이 작동한다.

이 대응 관계를 도식화하면 다음과 같다.

파이프라인 단계	SAGEO 발견	CORE 공격 벡터	함의
Retrieval	구조화 정보가 +22% 효과	스키마 마크업 남용, 메타데이터 조작	가장 효과적인 최적화 지점이 가장 취약한 공격 지점이기도 함
Reranking	다중 신호 결합이 순위 결정	다중 소스 일관성 공격, 합성 백링크	신뢰도 신호를 합성하는 공격에 취약
Generation	콘텐츠 구조와 인용이 인용률에 영향	권위 신호 삽입, 인용 네트워크 조작	생성 모델이 권위 신호에 과도하게 의존

이 대응은 근본적인 딜레마를 보여준다. GEO를 효과적으로 수행하기 위해 필요한 정보(구조화된 데이터, 권위 신호, 인용)가 곧 조작에 활용되는 정보와 동일하다. 이는 SEO에서 “좋은 SEO”와 “Black Hat SEO”가 동일한 기술적 메커니즘을 사용하면서도 의도에서만 차이가 나는 것과 구조적으로 동일한 문제다.

통합 프레임워크의 필요성

두 논문의 교차 분석에서 도출되는 결론은 명확하다. GEO 생태계가 건전하게 성숙하려면, 평가(evaluation)와 보안(security)이 분리된 연구 과제가 아니라 하나의 통합 프레임워크 안에서 다루어져야 한다.

flowchart TD
    subgraph Integrated["통합 GEO 프레임워크"]
        direction TB
        E["평가 (Evaluation)\nSAGEO Arena 방향"]
        S["보안 (Security)\nCORE 방향"]
        E <-->|"상호 의존"| S
    end

    subgraph SEO_Layer["기존 SEO 인프라"]
        T["기술 SEO\n(Technical SEO)"]
        C["콘텐츠 SEO\n(Content SEO)"]
    end

    subgraph GEO_Layer["GEO 확장"]
        P["파이프라인 최적화\n(Pipeline Optimization)"]
        D["방어적 GEO\n(Defensive GEO)"]
    end

    SEO_Layer --> Integrated
    Integrated --> GEO_Layer
    P --> O["실무 GEO 전략"]
    D --> O

이 통합 프레임워크는 다음의 실무적 함의를 가진다.

평가 지표에 보안 차원 포함: GEO 성과를 측정할 때 순위 상승뿐 아니라 조작 가능성에 대한 강건성도 함께 평가해야 한다.
방어적 GEO 전략: 자사 콘텐츠가 조작된 콘텐츠에 의해 밀려나지 않도록 하는 방어적 관점의 GEO 전략이 필요하다.
플랫폼-콘텐츠 생산자 협력: 플랫폼이 방어 메커니즘을 구축하고, 콘텐츠 생산자가 이에 부합하는 최적화를 수행하는 협력 구조가 필요하다.

GEO 연구 6편 종합: 누적 시사점

이전 리뷰에서 다룬 4편과 이번 2편을 합치면, 총 6편의 GEO 논문이 그리는 전체상이 보인다.

논문	연도	핵심 기여	GEO 성숙도 단계
Aggarwal et al.	2024	GEO 개념 정의, GEO-Bench, PAWC	정의
Chen et al.	2025	Earned media 편향, 엔진별 차이 실증	정의
Wu et al. (AutoGEO)	2025	품질 유지형 자동 최적화	최적화
Bagga et al. (E-GEO)	2025	이커머스 버티컬 벤치마크	최적화
Kim et al. (SAGEO Arena)	2026	통합 파이프라인 평가	측정
Jin et al. (CORE)	2026	순위 조작 취약점 실증	보안

이 6편의 논문이 누적적으로 보여주는 GEO 분야의 현재 위치는 다음과 같다.

정의(Definition): 확립됨. GEO가 무엇인지, SEO와 어떻게 다른지에 대한 합의가 형성되고 있다.
측정(Measurement): 초기 프레임워크 존재하나 표준화 미달. PAWC, SAGEO 등 제안은 있으나 산업 표준으로 채택된 지표는 없다.
최적화(Optimization): 범용과 버티컬 양쪽에서 접근이 시작됨. 품질 유지형 최적화의 가능성은 입증됐으나 재현 범위가 제한적.
보안(Security): 문제 제기 단계. 취약점은 실증됐으나 방어 메커니즘의 구현과 효과 검증은 미시작.

아직 해결되지 않은 문제 - 표준화된 평가 프로토콜, 플랫폼 간 비교 가능한 벤치마크, 방어 메커니즘의 효과 검증, 종단 연구, ROI 연결 모델 - 는 분야의 다음 단계에서 채워져야 할 공백이다.

산업 시사점: 방어적 GEO의 필요성

두 논문의 결합에서 도출되는 가장 중요한 실무 시사점은 **방어적 GEO(Defensive GEO)**라는 개념의 필요성이다.

기존 GEO 전략의 한계

현재 GEO 전략 담론은 대부분 “어떻게 AI 검색에서 더 잘 노출될 것인가”에 집중한다. 이는 SEO에서 “어떻게 순위를 올릴 것인가”에 해당하는 공격적(offensive) 전략이다. 그러나 CORE의 결과는 이 접근만으로는 충분하지 않음을 보여준다.

91.4% 조작 성공률은 경쟁자가 기술적으로 자사 콘텐츠의 순위를 밀어내릴 수 있음을 의미한다. 이 환경에서는 자사 콘텐츠를 올리는 것뿐 아니라, 조작 시도에 의해 밀려나지 않는 것도 전략적 과제가 된다.

방어적 GEO의 구성 요소

방어적 GEO 전략은 다음 요소를 포함해야 한다.

다단계 최적화: SAGEO Arena의 교훈대로, 본문 텍스트뿐 아니라 구조화된 정보를 포함한 전체 파이프라인에 대한 최적화를 수행한다. 이는 단일 공격 벡터에 의해 순위가 전복되기 어렵게 만든다.
다중 소스 일관성: 자사 정보가 다양한 신뢰할 수 있는 제3자 소스에서 일관되게 참조되도록 한다. 이는 CORE의 “다중 소스 일관성 공격”에 대한 정당한 방어다.
모니터링 체계: AI 검색 응답에서의 자사 가시성을 지속적으로 모니터링하여, 비정상적 순위 변동을 조기에 탐지한다.
콘텐츠 진위 강화: 원본 데이터, 독자적 연구 결과, 검증 가능한 정보 등 조작이 어려운 콘텐츠 유형에 집중한다.

실무적 결론: GEO 전략은 “어떻게 올릴 것인가”에서 “어떻게 올리고, 어떻게 방어할 것인가”로 확장되어야 한다. SAGEO Arena는 “무엇을 최적화해야 하는가”를, CORE는 “무엇으로부터 방어해야 하는가”를 알려준다.

References

Kim, J. et al. (2026). SAGEO Arena. Preprint.
Jin, Z. et al. (2026). CORE: Controlling Output Rankings. Preprint / ICLR 2026 Submission.
Aggarwal, P. et al. (2024). GEO: Generative Engine Optimization. KDD 2024.
Chen, Y. et al. (2025). Generative Engine Optimization: How to Dominate AI Search. Working Paper.
Wu, Z. et al. (2025). AutoGEO. Preprint.
Bagga, N. et al. (2025). E-GEO. Preprint.