GEO 논문 리뷰: 최적화 접근법과 버티컬 적용

리뷰 배경

GEO 연구는 2024년 KDD에서 Aggarwal et al.이 개념을 정의한 이후 빠르게 분화하고 있다. 초기 연구가 “GEO가 작동하는가”를 증명하는 데 집중했다면, 2025년 프리프린트들은 “어떻게 최적화할 것인가”와 “어떤 도메인에 적용할 것인가”로 질문이 이동했다. 이 전환은 GEO 분야가 개념 증명(proof of concept) 단계를 넘어 엔지니어링 단계로 진입하고 있음을 의미한다.

SEO의 발전사를 참고하면 이 분화는 예측 가능했다. SEO도 초기에는 “검색 엔진이 크롤링한 콘텐츠를 어떻게 순위 매기는가”라는 단일 질문에서 출발했으나, 이후 기술적 SEO(technical SEO), 온페이지 SEO(on-page SEO), 로컬 SEO(local SEO), 이커머스 SEO(e-commerce SEO) 등 도메인과 기법 축으로 분화했다. GEO도 동일한 경로를 밟고 있다.

이 글에서 다루는 두 논문은 각각 그 분화의 서로 다른 축을 대표한다.

논문	저자	핵심 질문	접근
AutoGEO	Wu et al. (2025)	품질을 유지하면서 자동 최적화가 가능한가	범용 프레임워크
E-GEO	Bagga et al. (2025)	이커머스 도메인에서 GEO를 어떻게 측정할 것인가	버티컬 특화 벤치마크

Wu et al.의 AutoGEO는 범용적 최적화 자동화와 품질 유지라는 과제를, Bagga et al.의 E-GEO는 이커머스라는 특정 버티컬에서의 벤치마크 구축이라는 과제를 다룬다. 두 논문을 순서대로 분석한 뒤, 교차 비교와 미해결 과제를 정리한다.

GEO 최적화 연구의 흐름

이 두 논문의 위치를 이해하려면 GEO 연구의 흐름을 먼저 파악해야 한다. 아래 표는 2024-2025년 주요 GEO 연구를 시기순으로 정리한 것이다.

시기	논문/연구	핵심 기여	연구 단계
2024 Q2	Aggarwal et al. (KDD)	GEO 개념 정의, GEO-Bench 구축	정의
2025 Q1	Chen et al.	실증적 행동 분석, PAWC 메트릭	측정
2025 Q1	Wu et al. (AutoGEO)	품질 유지형 자동 최적화	최적화
2025 Q1	Bagga et al. (E-GEO)	이커머스 특화 벤치마크	버티컬 적용
2025-2026	Kim et al. (SAGEO Arena)	파이프라인 전체 평가	평가 체계
2025-2026	Jin et al. (CORE)	순위 조작 리스크 실증	보안

AutoGEO와 E-GEO는 “최적화”와 “버티컬 적용”이라는, 정의와 측정 이후에 자연스럽게 등장하는 연구 질문을 다룬다. 정의 단계에서 “GEO가 무엇인가”를 확립했고, 측정 단계에서 “GEO를 어떻게 정량화하는가”를 확립했다면, 이제 “어떻게 실행하는가”와 “어디에 적용하는가”가 남는다.

AutoGEO: 품질을 희생하지 않는 자동 최적화

Wu et al.의 AutoGEO(2025 preprint)는 GEO 연구의 핵심 우려에 정면으로 응답한다. GEO 최적화가 콘텐츠 품질을 저하시키지 않는가? 이 질문은 SEO 역사에서 반복된 패턴과 직결된다. 키워드 스터핑(keyword stuffing), 링크 팜(link farm) 등 검색 순위를 높이기 위해 콘텐츠의 본질을 훼손하는 전략이 SEO 생태계를 오염시켰던 것처럼, GEO에서도 동일한 우려가 존재한다.

문제 정의: GEO의 딜레마

AutoGEO가 해결하려는 문제를 구체적으로 정의하면 다음과 같다.

기존 GEO 최적화 시도들은 대부분 수동적(manual)이거나, 최적화 과정에서 콘텐츠의 원래 목적 - 사용자에게 유용한 정보를 전달하는 것 - 을 훼손하는 경향이 있었다. 예를 들어, 인용 가능성을 높이기 위해 불필요한 통계 수치를 삽입하거나, 권위 인용(authoritative citation)을 과도하게 추가하여 콘텐츠의 자연스러움을 해치는 식이다.

이 문제를 Wu et al.은 세 가지 축으로 분해한다.

축	문제	기존 접근의 한계
자동화	수동 최적화는 확장 불가	규칙 기반 자동화의 정밀도 부족
품질 유지	최적화가 유용성을 저하	가시성과 품질의 트레이드오프를 전제
일반화	특정 엔진/쿼리에만 유효	도메인 전이 시 성능 저하

AutoGEO는 이 세 가지를 동시에 해결하겠다는 목표를 설정한다. 핵심 주장은 가시성과 품질이 제로섬이 아닌 양립 가능한 관계(cooperative relationship)라는 것이다.

AutoGEO 아키텍처

AutoGEO의 파이프라인은 세 단계로 구성되며, 각 단계는 독립적 모듈로 설계되어 있다.

flowchart TD
    A[입력 콘텐츠] --> B[Phase 1: 선호 규칙 자동 추출]
    B --> C[규칙 집합 R]
    C --> D[Phase 2: 규칙 기반 리라이팅]
    D --> E[리라이팅된 콘텐츠]
    E --> F[Phase 3: 품질 유지 검증]
    F -->|통과| G[최적화 완료 콘텐츠]
    F -->|실패| H[규칙 조정]
    H --> D

    style B fill:#e8f4fd,stroke:#333
    style D fill:#e8f4fd,stroke:#333
    style F fill:#fde8e8,stroke:#333

Phase 1: 선호 규칙 자동 추출 (Preference Rule Extraction)

이 단계에서 AutoGEO는 생성형 엔진이 어떤 콘텐츠 특성을 선호하는지를 자동으로 분석한다. 구체적으로는 다음 과정을 거친다.

다양한 쿼리에 대해 생성형 엔진의 응답을 수집한다.
응답에서 인용된 소스와 인용되지 않은 소스를 비교 분석한다.
인용된 소스에서 공통적으로 발견되는 콘텐츠 특성 - 구조적 요소, 정보 밀도, 문체, 인용 패턴 등 - 을 규칙(rule)으로 추출한다.

이 과정은 전통적 SEO에서 검색 엔진의 랭킹 팩터를 역공학(reverse engineering)하는 것과 유사하지만, 대상이 전통적 검색 알고리즘이 아닌 LLM의 행동 패턴이라는 점에서 방법론이 다르다. LLM은 명시적 랭킹 알고리즘이 아닌 학습 데이터와 프롬프트에 기반한 확률적 패턴으로 작동하므로, 규칙 추출에 통계적 분석이 아닌 LLM 자체를 분석 도구로 활용한다.

Phase 2: 규칙 기반 리라이팅 (Rule-Based Rewriting)

추출된 규칙 집합을 기존 콘텐츠에 적용하여 자동 리라이팅을 수행한다. 이 단계의 핵심은 규칙 적용의 정밀도다. 모든 규칙을 일괄 적용하는 것이 아니라, 콘텐츠의 도메인과 유형에 따라 적합한 규칙 부분집합을 선택적으로 적용한다.

Phase 3: 품질 유지 검증 (Quality Preservation Verification)

리라이팅된 콘텐츠가 원본의 유용성(utility)을 유지하는지 평가한다. Wu et al.은 유용성을 다음 네 가지 차원으로 측정한다.

유용성 차원	정의	측정 방법
정보 완전성 (Completeness)	원본이 담고 있던 핵심 정보가 보존되었는가	핵심 정보 요소의 유지율
사실 정확성 (Accuracy)	리라이팅 과정에서 사실 오류가 발생하지 않았는가	팩트 체크 기반 검증
가독성 (Readability)	리라이팅된 콘텐츠의 가독성이 유지 혹은 향상되었는가	가독성 지표
자연스러움 (Naturalness)	기계적 최적화 흔적 없이 자연스러운 문체인가	인간 평가 + 자동 평가

검증 단계를 통과하지 못한 콘텐츠는 규칙 조정 후 Phase 2로 피드백된다. 이 반복 루프가 AutoGEO의 “cooperative” 특성을 구현한다. 단순히 가시성을 높이는 것이 아니라, 가시성과 품질 사이의 파레토 최적(Pareto optimal) 지점을 탐색하는 것이다.

Multi-Agent Cooperative 프레임워크

AutoGEO의 기술적 핵심은 다중 에이전트 협력(multi-agent cooperative) 프레임워크에 있다. 각 Phase를 담당하는 에이전트가 독립적으로 작동하되, 공유된 목적 함수 - 가시성 향상 + 품질 유지 - 하에서 협력한다.

flowchart LR
    subgraph Analyzer["분석 에이전트"]
        A1[쿼리 분석]
        A2[엔진 응답 수집]
        A3[규칙 추출]
    end

    subgraph Optimizer["최적화 에이전트"]
        O1[규칙 선택]
        O2[콘텐츠 리라이팅]
        O3[변경 사항 추적]
    end

    subgraph Validator["검증 에이전트"]
        V1[유용성 평가]
        V2[품질 점수 산출]
        V3[통과/거부 판정]
    end

    Analyzer -->|규칙 집합| Optimizer
    Optimizer -->|리라이팅 결과| Validator
    Validator -->|피드백| Optimizer
    Validator -->|규칙 조정 요청| Analyzer

이 구조에서 주목할 점은 검증 에이전트(Validator)가 단순히 통과/거부를 판정하는 것이 아니라, 실패 원인을 분석하여 최적화 에이전트와 분석 에이전트 양쪽에 피드백을 제공한다는 것이다. 이를 통해 시스템 전체가 반복적으로 개선된다.

이 설계는 최근 LLM 기반 시스템에서 활발히 연구되는 multi-agent 패턴과 일치한다. 단일 LLM이 모든 작업을 수행하는 것보다, 역할이 분리된 여러 에이전트가 협력하는 방식이 복잡한 태스크에서 더 나은 결과를 보인다는 연구 결과들과 맥락을 공유한다.

실험 설계

Wu et al.의 실험 설계를 정리하면 다음과 같다.

실험 요소	세부 사항
대상 엔진	복수의 생성형 검색 엔진 (구체적 엔진명은 논문 참조)
쿼리셋	다양한 도메인의 정보 탐색형 쿼리
비교군	원본 콘텐츠(baseline), 단순 최적화(naive optimization), AutoGEO
평가 지표	GEO 가시성 지표 + 콘텐츠 유용성 지표 (이중 평가)
주요 결과	GEO 지표 평균 +35.99%, 유용성 지표 저하 없음

비교군 설계에서 특히 주목할 것은 “단순 최적화(naive optimization)“를 별도 비교군으로 설정한 점이다. 이는 “최적화를 하면 성능이 올라간다”는 자명한 결론이 아니라, “AutoGEO의 cooperative 접근이 단순 최적화보다 품질 유지 면에서 우월하다”는 것을 증명하기 위한 설계다.

핵심 결과 분석

AutoGEO는 GEO 가시성 지표 기준 평균 35.99% 향상을 달성했으며, 이 향상은 콘텐츠 유용성의 통계적으로 유의미한 저하 없이 달성되었다.

이 결과의 의미를 두 층위로 해석할 수 있다.

첫째, 정량적 의미. 35.99%는 절대 수치로도 유의미하지만, 이 수치가 품질 저하 없이 달성되었다는 점이 더 중요하다. 단순 최적화(naive optimization) 대비 AutoGEO는 가시성 향상 폭은 유사하지만, 유용성 저하가 현저히 낮다. 이는 cooperative 프레임워크의 피드백 루프가 실제로 작동하고 있음을 시사한다.

둘째, 구조적 의미. “가시성과 품질은 트레이드오프 관계”라는 암묵적 전제를 반증한다. 이것은 GEO 분야 전체의 정당성에 관한 질문이다. 만약 GEO 최적화가 필연적으로 콘텐츠 품질을 저하시킨다면, GEO는 사용자 경험을 해치는 기술이 된다. AutoGEO의 결과는 이 우려에 대한 반론을 제공한다.

다만, 이 결과를 해석할 때 몇 가지 유보가 필요하다.

35.99%는 “평균”이다. 도메인별, 쿼리 유형별 편차가 존재할 가능성이 높다.
“유용성 저하 없음”의 기준이 Wu et al.이 자체적으로 설정한 것이다. 외부 검증이 필요하다.
실험 시점의 생성형 엔진 버전에 종속된 결과이며, 엔진 업데이트 후에도 유효한지는 별도 검증이 필요하다.

Cooperative GEO의 이론적 함의

Wu et al.이 제안하는 “cooperative GEO”라는 개념은 단순한 기술적 접근법을 넘어, GEO 분야의 윤리적 프레임워크로서의 함의를 갖는다.

SEO의 역사에서 구글은 “사용자를 위한 콘텐츠를 만들라”는 원칙을 반복적으로 강조했지만, 현실에서는 검색 순위를 높이기 위해 사용자 경험을 해치는 전략이 만연했다. GEO에서도 같은 패턴이 반복될 가능성은 충분하다. AI 엔진이 인용할 확률을 높이기 위해 불필요한 요소를 삽입하거나, 콘텐츠의 논지를 왜곡하는 식의 “GEO 스팸”이 등장할 수 있다.

AutoGEO의 cooperative 프레임워크는 이 문제에 대한 기술적 해법을 제시한다. 최적화 과정에 품질 검증을 내장함으로써, 품질을 해치는 최적화가 시스템 수준에서 차단된다. 이 접근이 산업 전반에 확산될 경우, “최적화된 콘텐츠 = 저품질 콘텐츠”라는 인식이 형성될 위험을 선제적으로 차단할 수 있다.

E-GEO: 이커머스 전용 벤치마크

Bagga et al.의 E-GEO(2025 preprint)는 AutoGEO와 방향이 다르다. GEO 연구의 대부분이 정보 탐색형 쿼리(informational queries)에 집중하는 현실에서, 상거래 의도(commercial intent)를 가진 쿼리에 대한 최초의 체계적 벤치마크를 구축한다.

이커머스 GEO가 별도 연구를 필요로 하는 이유

이커머스 쿼리는 정보 탐색 쿼리와 근본적으로 성격이 다르다. 이 차이는 단순히 “쿼리 내용이 다르다”는 수준이 아니라, 최적화해야 할 대상 자체가 다르다는 것을 의미한다.

차원	정보 탐색 쿼리	이커머스 쿼리
사용자 의도	이해, 학습	구매 의사결정
기대 응답 포맷	설명, 분석	비교, 추천, 스펙
전환까지의 거리	간접적 (인지 → 관심)	직접적 (비교 → 구매)
신뢰 근거	전문성, 출처	가격, 리뷰, 사용 경험
시간 민감도	상대적으로 낮음	높음 (가격 변동, 재고)
최적화 목표	인용 확률 향상	인용 + 구매 전환 유도

“최고의 무선 이어폰 추천”과 “양자역학의 기본 원리”는 둘 다 검색 쿼리이지만, AI 엔진이 생성하는 응답의 구조, 인용 패턴, 사용자가 기대하는 정보의 종류가 완전히 다르다. 범용 GEO 벤치마크로는 이 차이를 포착할 수 없다.

E-GEO 벤치마크 구성

E-GEO가 구축한 벤치마크의 규모와 구성은 다음과 같다.

항목	세부
쿼리 규모	7,000+ 현실적 상품 쿼리
쿼리 소스	실제 이커머스 검색 로그 기반
리라이팅 전략	15가지 휴리스틱 기반 리라이팅
최적화 방법	반복적 프롬프트 최적화 (Iterative Prompt Optimization)
적용 대상	이커머스 상품 설명, 리뷰, 비교 콘텐츠
평가 엔진	복수의 생성형 검색 엔진

7,000+라는 쿼리 규모는 기존 GEO 벤치마크 대비 상당히 크다. Aggarwal et al.의 GEO-Bench가 수백 개 수준의 쿼리셋이었던 것을 감안하면, E-GEO는 규모 면에서 이커머스 도메인의 다양성을 충분히 반영하려는 시도다.

상품 쿼리 분류 체계 (Product Query Taxonomy)

E-GEO의 핵심 기여 중 하나는 이커머스 쿼리를 체계적으로 분류하는 택소노미(taxonomy)를 제안한 것이다. 이 분류는 각 쿼리 유형에 따라 다른 최적화 전략이 필요하다는 것을 실증적으로 보여준다.

flowchart TD
    Q[이커머스 쿼리] --> C1[제품 탐색<br/>Product Discovery]
    Q --> C2[제품 비교<br/>Product Comparison]
    Q --> C3[구매 의사결정<br/>Purchase Decision]
    Q --> C4[사용/문제해결<br/>Usage & Troubleshooting]

    C1 --> C1a["'무선 이어폰 추천'"]
    C1 --> C1b["'10만원대 러닝화'"]

    C2 --> C2a["'에어팟 vs 갤럭시 버즈'"]
    C2 --> C2b["'다이슨 v15 vs v12 차이'"]

    C3 --> C3a["'에어팟 프로 2 가격'"]
    C3 --> C3b["'갤럭시 S25 사전예약'"]

    C4 --> C4a["'에어팟 한쪽만 안 들림'"]
    C4 --> C4b["'다이슨 필터 교체 주기'"]

각 쿼리 유형별로 AI 엔진의 응답 패턴이 다르며, 따라서 최적화 전략도 달라야 한다. E-GEO의 실험 결과를 쿼리 유형별로 정리하면 다음과 같다.

쿼리 유형	AI 엔진 응답 특성	효과적 최적화 전략	비효과적 전략
제품 탐색	목록형, 카테고리 기반	구조화된 스펙 테이블, 카테고리 태그	단순 키워드 삽입
제품 비교	비교표, 장단점 분석	명확한 비교 프레임, 수치 데이터	일방적 추천
구매 의사결정	가격/재고 정보, 구매 링크	가격 이력, 할인 정보, 구매 가이드	일반적 제품 설명
사용/문제해결	단계별 가이드, FAQ	구조화된 해결 단계, 시각적 가이드	장문의 서술형 설명

15가지 리라이팅 휴리스틱

E-GEO가 설계한 15가지 리라이팅 휴리스틱은 이커머스 콘텐츠에 특화된 최적화 전략이다. 이 전략들은 학술 콘텐츠나 뉴스 콘텐츠에 적용되는 범용 GEO 전략과는 성격이 다르다. 아래는 전략의 카테고리별 분류다.

카테고리	전략 예시	적용 대상
구조적 최적화	스펙 테이블 삽입, 비교 매트릭스 추가, FAQ 구조화	전 유형
데이터 강화	가격 정보 추가, 사용자 리뷰 요약 삽입, 벤치마크 수치	제품 탐색, 비교
신뢰 신호	전문가 인용, 검증 데이터 출처 명시, 테스트 결과	구매 의사결정
포맷 최적화	장단점 리스트, 별점 요약, 추천 이유 명시	제품 비교, 탐색
의도 매칭	구매 가이드 어조, 문제 해결 단계화, 사용 시나리오	구매/사용

이 15가지 전략의 효과는 균일하지 않다. E-GEO의 실험에서 가장 효과적이었던 전략과 그렇지 않은 전략 간의 차이가 크며, 이는 “이커머스 GEO에서는 아무 전략이나 적용하면 된다”는 접근이 유효하지 않음을 의미한다.

반복적 프롬프트 최적화 (Iterative Prompt Optimization)

E-GEO의 또 다른 방법론적 기여는 반복적 프롬프트 최적화(IPO)다. 이 접근은 단일 프롬프트로 최적화를 수행하는 것이 아니라, 여러 차례의 반복을 통해 프롬프트를 점진적으로 개선한다.

E-GEO의 반복적 프롬프트 최적화는 단일 시도 대비 다회 반복 시 가시성 지표에서 유의미한 향상을 보였다. 특히 비교형 쿼리에서 반복 효과가 가장 두드러졌다.

이 방법론은 AutoGEO의 규칙 기반 접근과 대비된다. AutoGEO가 명시적 규칙을 추출하여 적용하는 방식이라면, E-GEO의 IPO는 규칙을 명시적으로 정의하지 않고 프롬프트의 반복적 조정을 통해 최적 결과를 탐색하는 방식이다.

이커머스 GEO의 고유한 발견

E-GEO에서 도출된 이커머스 도메인 고유의 발견들을 정리한다.

범용 GEO 전략이 이커머스 쿼리에서는 약 40-60% 수준의 효과만 보인다. 이커머스에 특화된 전략을 적용할 때 가시성 향상이 유의미하게 높아진다.

이 발견은 “GEO 전략은 범용적으로 적용 가능하다”는 가정에 대한 직접적 반증이다. 도메인이 달라지면 최적화 전략도 달라져야 한다.

구체적으로, 이커머스 콘텐츠에서 AI 엔진의 인용을 유도하는 데 효과적인 요소들은 다음과 같다.

가격 비교 데이터: 경쟁 제품 간 가격을 정량적으로 비교하는 테이블이 있을 때 인용 확률이 높아진다.
스펙 테이블: 핵심 사양을 구조화된 테이블로 제시하면, AI 엔진이 비교 응답을 생성할 때 해당 소스를 인용할 확률이 높아진다.
실사용 리뷰 요약: 단순 별점이 아닌, 실사용 경험을 카테고리별로 요약한 콘텐츠가 선호된다.
구매 의사결정 트리: “예산이 X만원 이하라면 A, 이상이라면 B”와 같은 조건부 추천 구조가 인용에 유리하다.

반면, 학술 콘텐츠에서 효과적인 전략 - 권위 인용(authoritative citation), 통계 수치 밀도 등 - 은 이커머스 맥락에서 상대적으로 효과가 낮았다.

교차 분석: 범용 vs 버티컬 특화

두 논문을 나란히 놓으면, GEO 연구가 분화하는 두 방향이 명확히 드러난다.

비교 프레임워크

차원	AutoGEO	E-GEO
핵심 질문	품질 유지하며 최적화 가능한가	특정 도메인에서 벤치마크 구축 가능한가
접근 방향	범용 (General-purpose)	버티컬 특화 (Vertical-specific)
방법론	규칙 추출 + 자동 리라이팅 + 품질 검증	휴리스틱 설계 + 프롬프트 반복 최적화
에이전트 구조	Multi-agent cooperative	단일 최적화 루프
쿼리 유형	정보 탐색 중심	상거래 의도 중심
규모	다양한 도메인의 쿼리셋	7,000+ 이커머스 특화 쿼리
평가 기준	GEO 지표 + 유용성 이중 측정	이커머스 가시성 지표
자동화 수준	높음 (규칙 추출부터 리라이팅까지)	중간 (휴리스틱은 수동, 적용은 자동)
실무 시사점	콘텐츠 팀의 GEO 도입 근거	커머스 사업자의 AI 검색 전략 근거

수렴 지점

표면적으로 다른 두 접근법이지만, 수렴하는 지점이 있다.

첫째, 구조화된 콘텐츠의 중요성. AutoGEO의 선호 규칙 추출 결과에서도, E-GEO의 리라이팅 휴리스틱에서도, 구조화된 콘텐츠(테이블, 리스트, 단계별 가이드 등)가 비구조화된 서술형 콘텐츠보다 AI 엔진의 인용 확률이 높다는 점은 공통적으로 발견된다. 이는 LLM이 학습 데이터에서 구조화된 정보를 더 효과적으로 인코딩하며, 응답 생성 시에도 구조화된 소스를 참조하기 쉽다는 기술적 특성과 부합한다.

둘째, 콘텐츠 유형별 차별화의 필요성. AutoGEO가 규칙을 콘텐츠 도메인에 따라 선택적으로 적용하는 것이나, E-GEO가 쿼리 유형별로 다른 최적화 전략의 효과를 측정하는 것이나, 둘 다 “하나의 GEO 전략이 모든 콘텐츠에 통용되지 않는다”는 결론에 도달한다.

셋째, 반복적 최적화의 유효성. AutoGEO의 피드백 루프와 E-GEO의 반복적 프롬프트 최적화 모두, 한 번의 최적화보다 여러 차례 반복이 더 나은 결과를 보인다는 결론을 공유한다.

결합 가능성

flowchart TD
    subgraph Combined["결합 프레임워크 (가설)"]
        A[AutoGEO의 규칙 추출] --> B[도메인 특화 규칙 필터링]
        B --> C[E-GEO의 이커머스 휴리스틱과 병합]
        C --> D[통합 리라이팅]
        D --> E[AutoGEO의 품질 검증]
        E -->|통과| F[최적화 완료]
        E -->|실패| G[E-GEO의 IPO로 조정]
        G --> D
    end

두 접근법은 상호 배타적이지 않다. 오히려 결합했을 때 더 강력해질 가능성이 있다. AutoGEO의 cooperative GEO 프레임워크(규칙 추출 + 품질 검증)를 E-GEO의 이커머스 도메인에 적용하는 것이 자연스러운 다음 단계다. 구체적으로:

AutoGEO의 규칙 추출 단계에서 이커머스 도메인의 쿼리를 학습 데이터로 사용
추출된 규칙을 E-GEO의 15가지 휴리스틱과 비교하여 도메인 특화 규칙 강화
AutoGEO의 품질 검증 단계에 이커머스 고유의 유용성 지표(가격 정확성, 스펙 완전성 등) 추가
E-GEO의 반복적 프롬프트 최적화를 AutoGEO의 피드백 루프에 통합

품질을 유지하면서 커머스 특화 최적화를 수행하는 모델이 실무적으로 가장 유용할 것이다.

미해결 과제 (Gap Analysis)

두 논문 모두 현 시점 GEO 연구의 구조적 한계를 공유한다. 이 한계들은 개별 논문의 약점이라기보다, GEO 분야 전체가 아직 초기 단계임을 보여주는 지표다.

한계 1: 생성형 엔진의 변동성

두 논문 모두 특정 시점의 AI 엔진 응답을 기반으로 실험한다. 그러나 LLM 기반 검색 엔진은 모델 업데이트, 프롬프트 변경, 랭킹 로직 수정이 수시로 일어난다. 오늘 유효한 최적화 전략이 다음 모델 업데이트에서 무효화될 수 있다.

이 문제는 SEO에서도 존재했지만 정도가 달랐다. 구글의 검색 알고리즘 업데이트(Panda, Penguin, BERT 등)는 연 단위로 발생했고, 업데이트 간 랭킹 로직의 연속성이 있었다. 반면 LLM 기반 엔진의 변동성은 훨씬 크다. 모델 아키텍처 자체가 변경될 수 있고, 동일 모델이라도 프롬프트 엔지니어링에 따라 응답 패턴이 크게 달라진다.

한계 2: 평가 지표의 표준 부재

AutoGEO와 E-GEO가 사용하는 GEO 지표가 동일한 기준인지, 교차 비교가 가능한지 불명확하다. GEO 연구 전체에 걸쳐 통일된 벤치마크가 아직 존재하지 않는다.

논문	사용 지표	교차 비교 가능성
Aggarwal et al. (2024)	GEO-Bench 고유 지표	기준점 역할 (de facto standard)
Chen et al. (2025)	PAWC 메트릭	부분적 호환
Wu et al. (AutoGEO)	GEO 가시성 + 유용성	Aggarwal 기반이나 확장
Bagga et al. (E-GEO)	이커머스 가시성	독자적 지표, 호환성 불명

이 상황은 NLP 분야에서 GLUE/SuperGLUE가 등장하기 전의 상황과 유사하다. 각 연구가 자체 벤치마크와 지표를 사용하면, 연구 간 비교가 불가능해지고 분야 전체의 진전을 측정하기 어려워진다.

한계 3: 비즈니스 KPI와의 연결 고리 부재

GEO 지표 35.99% 향상이 실제 트래픽, 전환율, 매출에 어떤 영향을 미치는지는 두 논문 모두 다루지 않는다. 학술 벤치마크와 비즈니스 KPI 사이의 간극은 향후 연구가 채워야 할 영역이다.

GEO 가시성 향상 → 실제 트래픽 유입 → 전환 → 매출로 이어지는 인과 사슬에서, 현재 연구는 첫 번째 단계만 다루고 있다.

특히 E-GEO의 이커머스 벤치마크에서 이 연결 고리의 부재가 두드러진다. 이커머스에서 GEO의 가치는 궁극적으로 매출 기여로 측정되어야 하지만, E-GEO는 가시성 지표에서 멈춘다.

한계 4: 다국어/다문화 검증 부재

두 논문 모두 영어 중심의 실험을 수행한다. 한국어, 일본어, 중국어 등 비영어권에서의 GEO 최적화 전략이 동일하게 작동하는지는 검증되지 않았다. 언어별로 LLM의 학습 데이터 분포가 다르고, 콘텐츠 소비 패턴도 다르므로, 영어권 결과의 직접 전이는 위험하다.

한계 5: 멀티모달 콘텐츠 미고려

현재 GEO 연구는 텍스트 콘텐츠에 집중되어 있다. 그러나 이커머스에서 상품 이미지, 동영상 리뷰, 인포그래픽 등 멀티모달 콘텐츠의 비중은 크다. 멀티모달 AI 검색이 확산될 경우, 텍스트 기반 GEO 전략만으로는 불충분하다.

향후 연구 방향

위 한계들을 종합하면, 향후 GEO 최적화 연구가 다루어야 할 방향은 다음과 같다.

연구 방향	필요성	난이도
통일 벤치마크 구축	연구 간 비교 가능성 확보	높음 (커뮤니티 합의 필요)
비즈니스 KPI 연결	GEO의 실무적 가치 입증	높음 (A/B 테스트 필요)
엔진 변동성 대응	지속 가능한 최적화 전략	중간 (모니터링 체계)
다국어 확장	비영어권 적용 검증	중간 (데이터셋 구축)
버티컬 확장	이커머스 외 도메인	중간 (도메인 전문성 필요)
멀티모달 GEO	이미지/동영상 포함 최적화	높음 (새로운 방법론 필요)

실무자 관점의 시사점

두 논문에서 실무적으로 가져갈 수 있는 시사점을 정리한다.

GEO 최적화는 품질 저하를 전제하지 않는다

AutoGEO의 cooperative GEO 결과는 “최적화 vs 품질”의 이분법을 넘어설 수 있음을 시사한다. 콘텐츠 팀이 GEO를 도입할 때 “최적화하면 콘텐츠가 나빠진다”는 우려를 불식시킬 학술적 근거가 존재한다. 다만, 이것은 “아무렇게나 최적화해도 품질이 유지된다”는 뜻이 아니다. 품질 검증을 내장한 체계적 프레임워크 하에서만 유효한 결론이다.

도메인별 GEO 전략은 달라야 한다

E-GEO가 보여주는 것은 범용 GEO 전략의 한계다. 이커머스에서 효과적인 전략과 학술 콘텐츠에서 효과적인 전략이 다르다. 이는 이커머스, 헬스케어, 금융, 여행 등 각 버티컬에 특화된 벤치마크와 전략이 필요함을 의미한다.

구조화가 핵심이다

두 논문 모두에서 구조화된 콘텐츠(테이블, 리스트, 단계별 가이드)가 비구조화된 서술보다 AI 엔진 인용에 유리하다는 결론이 도출된다. 이는 즉시 실행 가능한 전략이다. 기존 콘텐츠에 구조적 요소를 추가하는 것만으로도 AI 검색 가시성을 개선할 수 있다.

자동화의 현실적 수준을 파악해야 한다

AutoGEO의 자동 리라이팅은 완전 자율 자동(fully autonomous)이 아닌 규칙 기반(rule-based)이다. E-GEO의 휴리스틱도 사람이 설계한 것이다. 현 시점에서 GEO 최적화는 도구 보조형(tool-assisted) 접근이 현실적이다. “AI가 알아서 최적화해 줄 것”이라는 기대는 시기상조다.

모니터링 체계가 필수다

생성형 엔진의 변동성을 고려하면, 한 번의 최적화로 끝나는 것이 아니라 지속적인 모니터링과 재최적화가 필요하다. 이는 SEO에서 순위 모니터링 도구가 필수인 것과 동일한 맥락이다. GEO에서도 AI 엔진 응답 모니터링 체계가 필요하며, 이 영역은 아직 도구화가 미흡하다.

References

Wu, Z. et al. (2025). AutoGEO: Automating Generative Engine Optimization with Cooperative Content Rewriting. Preprint.
Bagga, N. et al. (2025). E-GEO: A Testbed for Generative Engine Optimization in E-Commerce. Preprint.
Aggarwal, P. et al. (2024). GEO: Generative Engine Optimization. Proceedings of KDD 2024.
Chen, J. et al. (2025). Generative Engine Optimization: How to Dominate AI Search. Preprint.