GEO Score 4-Layer 메트릭 설계

이 글의 범위

WICHI의 GEO Score는 AI 검색 엔진에서 브랜드가 어떻게 노출되는지를 측정하는 메트릭입니다. 이 글은 GEO Score를 구성하는 4개 레이어의 설계 철학과 개념적 프레임워크를 다룹니다. 구체적인 가중치, 알고리즘, 스코어링 공식은 제품의 핵심 IP이므로 이 글에서 다루지 않습니다.

왜 4계층인가

단일 점수의 구조적 한계

GEO Score를 하나의 숫자로 뽑는 것은 쉽습니다. 브랜드 언급 횟수를 세거나, 노출률을 백분율로 변환하면 됩니다. 문제는 그 숫자만으로는 무엇이 잘되고 있고 무엇이 문제인지 알 수 없다는 점입니다.

몇 가지 실제 상황을 보면 단일 점수의 한계가 분명해집니다.

노출됐지만 부정적인 경우. AI 검색 응답에 브랜드가 언급되긴 했는데, “~보다 비싸다”, “대안으로는 ~가 있다” 같은 맥락에서 등장합니다. 노출 자체는 있으니 단일 점수로는 괜찮아 보이지만, 실제로는 경쟁사에 유리한 언급입니다.
자주 나오지만 부정확한 경우. 언급 빈도는 높은데, 제공하지 않는 기능을 제공한다고 서술하거나 가격 정보가 틀린 경우. 사용자가 이를 신뢰하고 행동하면 오히려 브랜드 신뢰를 훼손합니다.
한 번은 좋았는데 다음엔 사라지는 경우. 동일 쿼리를 오늘 실행하면 1위로 언급되고, 내일 실행하면 아예 빠지는 경우. 일회성 측정으로는 이 불안정성을 포착할 수 없습니다.
상위 노출인데 맥락이 부정적인 경우. 응답 첫 문장에서 브랜드가 등장하지만 “주의해야 할 서비스”라는 맥락입니다. 위치 기준으로는 최상위지만, 실질적으로는 역효과입니다.
언급은 많지만 인용이 없는 경우. 브랜드명은 여러 번 나오지만, 출처 링크나 도메인 인용은 전혀 포함되지 않습니다. AI가 브랜드를 “알고는 있지만 신뢰하지는 않는” 상태로 해석할 수 있습니다.

이런 시나리오들은 단일 점수 체계에서 모두 동일한 숫자로 환원됩니다. 70점이라는 점수가 “잘 노출되고 있다”를 의미하는지, “많이 노출되지만 부정확하다”를 의미하는지, “오늘은 좋지만 내일은 모른다”를 의미하는지 구분할 수 없습니다.

기존 접근법의 문제

현재 시장에서 AI 검색 가시성을 측정하는 일반적인 접근법들이 있습니다. 각각 고유한 한계를 가지고 있습니다.

접근법	측정 방식	한계
단순 언급 카운팅	브랜드명 등장 횟수	맥락(긍정/부정) 무시
이진 노출 여부	언급됨/안됨	위치, 비중, 품질 정보 없음
감성 분석 단독	긍정/부정/중립 분류	노출 여부, 위치 정보 없음
순위 기반	경쟁사 대비 순위	일관성(안정성) 미반영
SOV(Share of Voice) 단독	전체 언급 중 자사 비율	품질, 정확성 무시

이 접근법들의 공통적인 문제는 측정의 단면성입니다. 각각은 AI 검색 가시성의 한 측면만 포착하고, 나머지를 무시합니다. 그 결과 동일한 데이터에서 서로 다른 접근법이 모순된 결론을 내릴 수 있습니다.

“측정하기 쉬운 것을 측정하는 것이 아니라, 의미 있는 것을 측정해야 합니다. 하나의 숫자는 측정하기 쉽지만, 의사결정에 필요한 정보를 담지 못합니다.”

계층 구조라는 해답

이런 한계에 대한 해답으로 WICHI는 4개의 독립적인 레이어를 가진 계층 구조를 선택했습니다. 핵심 원칙은 세 가지입니다.

각 레이어는 하나의 질문에 답한다. “언급되는가?”, “눈에 띄는가?”, “정확한가?”, “일관적인가?” - 각 질문은 독립적이며, 각각의 답이 다른 행동을 요구합니다.
레이어 간에 논리적 의존 관계가 존재한다. 언급되지 않는 브랜드의 품질을 측정할 수 없습니다. 이 의존 관계가 해석의 순서를 결정합니다.
합산 점수보다 레이어별 패턴이 중요하다. 총점 70이 의미하는 바는 각 레이어의 분포에 따라 완전히 달라집니다.

graph TD
    A["GEO Score"] --> B["L1: Inclusion<br/>노출도"]
    A --> C["L2: Prominence<br/>주목도"]
    A --> D["L3: Quality<br/>품질"]
    A --> E["L4: Stability<br/>안정성"]

    B -->|"전제 조건"| C
    B -->|"전제 조건"| D
    E -->|"신뢰도 검증"| B
    E -->|"신뢰도 검증"| C
    E -->|"신뢰도 검증"| D

    style B fill:#e8f4f8,stroke:#2196F3
    style C fill:#fff3e0,stroke:#FF9800
    style D fill:#e8f5e9,stroke:#4CAF50
    style E fill:#fce4ec,stroke:#E91E63

위 다이어그램에서 화살표 방향에 주목합니다. L1(Inclusion)은 L2, L3의 전제 조건이고, L4(Stability)는 나머지 모든 레이어의 신뢰도를 검증하는 역할입니다. 이 구조적 관계가 단순히 4개 점수를 나열하는 것과 4계층 아키텍처의 차이입니다.

각 계층 상세

전체 레이어 요약

Layer	이름	핵심 질문	측정 대상	활성화 조건
L1	Inclusion (노출도)	브랜드가 언급되는가?	존재 여부, 인용 포함, 점유율	항상
L2	Prominence (주목도)	얼마나 눈에 띄는가?	응답 내 위치, 비중, 서술 깊이	L1 > 0
L3	Quality (품질)	정확하고 긍정적인가?	감성, 정확성, 메시지 일치도	L1 > 0
L4	Stability (안정성)	일관성이 있는가?	반복 실행 간 편차, 변동성	2회 이상 실행

L1 - Inclusion (노출도)

핵심 질문

“AI 검색 엔진이 이 브랜드의 존재를 인지하고 있는가?”

Inclusion은 가장 기본적인 레이어입니다. AI 검색 엔진의 응답에 브랜드명이 등장하는지 여부를 측정합니다. 여기서 점수가 낮다면 나머지 세 레이어는 논의 자체가 무의미합니다. 언급되지 않는 브랜드의 품질이나 안정성을 측정할 수는 없습니다.

왜 이진 값이 아닌가

Inclusion을 단순한 Yes/No로 처리하면 정보를 잃습니다. “10개 쿼리 중 1개에서 언급됨”과 “10개 쿼리 중 9개에서 언급됨”은 둘 다 “언급됨”이지만 완전히 다른 상태입니다. 따라서 Inclusion은 여러 하위 신호를 종합하여 0에서 1 사이의 연속적인 점수로 표현됩니다.

측정 대상

하위 신호	설명	왜 필요한가
브랜드 언급 여부	응답 텍스트에 브랜드명이 등장하는가	가장 기본적인 존재 확인
인용 포함 여부	출처 인용에 브랜드 도메인이 포함되는가	AI가 브랜드를 신뢰할 만한 출처로 인식하는지 판단
점유율 (Share of Voice)	응답에 언급된 전체 브랜드 중 자사 비율	카테고리 내 상대적 위치 파악

세 가지 하위 신호를 종합하는 이유는 각각이 서로 다른 의미를 가지기 때문입니다. 브랜드명이 텍스트에 등장하는 것과 출처로 인용되는 것은 다릅니다. AI 검색 엔진은 텍스트에서 브랜드를 언급하면서도 인용 링크를 제공하지 않을 수 있고, 이는 “알고는 있지만 공식 출처로 신뢰하지는 않는다”는 신호일 수 있습니다.

해석 가이드

Inclusion 수준	의미	우선 행동
매우 낮음	AI 검색에서 브랜드가 거의 인식되지 않음	외부 출처 확보, 구조화된 데이터 제공
낮음	일부 쿼리에서만 산발적 노출	타겟 쿼리별 콘텐츠 전략 수립
중간	카테고리 쿼리에서 간헐적 노출	노출 일관성 향상에 집중
높음	대부분의 관련 쿼리에서 안정적 노출	L2-L3 최적화로 전환
매우 높음	거의 모든 쿼리에서 노출 + 인용 포함	현상 유지 + 신규 쿼리 영역 확장

flowchart LR
    Q["AI 검색 쿼리"] --> R["AI 응답 생성"]
    R --> M{"브랜드<br/>언급?"}
    M -->|No| X["L1 = 0<br/>L2~L4 측정 불가"]
    M -->|Yes| C{"인용<br/>포함?"}
    C -->|No| S1["텍스트 언급만 존재"]
    C -->|Yes| S2["텍스트 + 인용 존재"]
    S1 --> SOV["SOV 계산"]
    S2 --> SOV
    SOV --> L1["L1 Inclusion Score"]

    style X fill:#ffebee,stroke:#c62828
    style L1 fill:#e8f4f8,stroke:#2196F3

Inclusion의 함정

Inclusion이 높다고 해서 무조건 좋은 것은 아닙니다. “최악의 서비스” 목록에 올라가도 Inclusion은 높게 측정됩니다. 이것이 L3(Quality)가 필요한 이유이며, Inclusion만으로 GEO 상태를 판단해서는 안 되는 이유입니다.

전통적인 SEO에서도 비슷한 문제가 있었습니다. 검색 노출 횟수(Impressions)가 높아도 클릭률(CTR)이 낮으면 의미가 없습니다. Inclusion은 GEO 세계에서의 Impressions에 해당하며, 다른 레이어들이 CTR과 전환에 해당하는 역할을 합니다.

L2 - Prominence (주목도)

핵심 질문

“브랜드가 응답에서 어떤 위치에, 얼마나 비중 있게 등장하는가?”

Inclusion이 “존재 여부”라면, Prominence는 “존재의 질”입니다. 동일하게 언급된다 해도, 응답 첫 번째 추천으로 상세하게 서술되는 것과 말미의 “기타 옵션” 목록에 한 줄로 포함되는 것은 사용자 행동에 미치는 영향이 완전히 다릅니다.

위치가 중요한 이유

AI 검색 응답에서의 위치 효과는 전통적인 검색 결과 페이지(SERP)의 위치 효과와 유사하지만 더 극단적입니다. SERP에서는 사용자가 페이지를 스크롤할 수 있지만, AI 검색 응답은 대개 하나의 연속된 텍스트로 제시됩니다. 사용자는 응답의 앞부분에서 답을 얻으면 뒷부분을 읽지 않을 가능성이 높습니다.

Aggarwal et al. (KDD 2024)이 제안한 PAWC(Position-Adjusted Word Count)는 이 현상을 정량화한 개념입니다. 응답 내에서 브랜드 관련 텍스트가 앞에 위치할수록 더 높은 가중치를 부여하는 방식입니다.

측정 대상

하위 신호	설명	반영하는 현상
위치 보정 점수 (PAWC 기반)	응답 앞쪽에 위치할수록, 분량이 많을수록 높은 점수	사용자가 앞부분에 더 주목하는 행동 패턴
브랜드 언급 비중	전체 응답 분량 중 브랜드 관련 서술 비율	AI가 브랜드를 얼마나 깊이 다루는지

PAWC 개념 설명

PAWC의 핵심 아이디어는 단순합니다. 같은 분량의 텍스트라도 응답의 1번째 문단에 있는 것과 5번째 문단에 있는 것은 가시성이 다릅니다. 앞에 위치한 텍스트는 더 많은 사용자에게 읽히고, 뒤에 위치한 텍스트는 읽히지 않을 가능성이 높습니다.

시나리오	응답 내 위치	브랜드 관련 분량	상대적 PAWC
A	첫 번째 문단	50단어	높음
B	세 번째 문단	50단어	중간
C	마지막 문단	50단어	낮음
D	첫 번째 + 세 번째	30 + 20단어	A보다 낮고, B보다 높음

시나리오 A와 C는 동일한 50단어가 브랜드에 할애되었지만, PAWC 관점에서의 가시성은 크게 다릅니다. 이것이 단순 언급 횟수나 단어 수 카운팅이 포착하지 못하는 차이입니다.

해석 가이드

Prominence 수준	의미	일반적인 상태
매우 낮음	언급은 되지만 부수적인 위치	”기타 옵션” 목록, 비교표 하단
낮음	존재하지만 눈에 띄지 않음	중간 위치에 간단한 서술
중간	의미 있는 비중으로 다뤄짐	여러 옵션 중 하나로 상세 서술
높음	상위 추천 중 하나	응답 앞부분에서 주요 옵션으로 소개
매우 높음	첫 번째 추천, 가장 상세한 서술	응답의 핵심 답변으로 제시

Prominence와 Inclusion의 관계

Prominence는 Inclusion이 0보다 클 때만 의미가 있습니다. 언급되지 않는 브랜드의 위치를 논할 수 없기 때문입니다. 그러나 Inclusion이 높다고 Prominence도 높은 것은 아닙니다. 10개 쿼리 모두에서 언급되지만(L1 높음), 매번 마지막 줄에 간단히 언급되는 경우(L2 낮음)가 가능합니다.

이 두 레이어의 조합이 만드는 패턴은 다음과 같습니다.

패턴	L1	L2	해석
보이지 않음	낮음	-	AI가 브랜드를 인지하지 않음
존재만 함	높음	낮음	언급은 되지만 비중이 낮음
주목받음	높음	높음	잘 노출되고 비중도 높음
간헐적 주목	중간	높음	일부 쿼리에서만 높은 비중

L3 - Quality (품질)

핵심 질문

“AI가 브랜드에 대해 말하는 내용이 정확하고, 브랜드에 유리한가?”

Quality는 노출의 “내용”을 평가하는 레이어입니다. 노출되고 눈에 띄더라도, 그 내용이 부정확하거나 부정적이라면 노출 자체가 독이 됩니다. 실제로 잘못된 정보가 높은 위치에서 서술되는 경우는 아예 노출되지 않는 것보다 나쁠 수 있습니다. 사용자가 AI 응답을 신뢰하고 행동할 가능성이 높기 때문입니다.

왜 Quality가 가장 복잡한 레이어인가

Inclusion은 텍스트 매칭으로 측정할 수 있습니다. Prominence는 위치와 분량이라는 구조적 속성으로 측정할 수 있습니다. 그러나 Quality는 텍스트의 의미를 평가해야 합니다. “이 서비스는 비싸지만 좋다”와 “이 서비스는 좋지만 비싸다”는 거의 같은 단어를 사용하지만 전달하는 뉘앙스가 다릅니다.

이 때문에 Quality 측정에는 LLM 기반 평가(LLM-as-a-Judge) 접근법이 포함됩니다. 단순 키워드 매칭이나 규칙 기반 감성 분석으로는 포착할 수 없는 맥락적 의미를 평가해야 하기 때문입니다.

측정 대상

Quality 레이어는 여러 차원을 종합합니다. 각 차원은 브랜드 언급의 서로 다른 측면을 평가합니다.

차원	설명	낮을 때의 의미
감성 (Sentiment)	브랜드에 대한 전체적인 톤	부정적이거나 비판적인 맥락에서 언급됨
정확성 (Accuracy)	서술된 정보의 사실 부합도	없는 기능을 있다고 하거나, 가격이 틀리거나, 출시일이 잘못됨
메시지 일치도 (Narrative Alignment)	브랜드가 의도하는 핵심 메시지와의 부합도	AI가 브랜드를 의도와 다른 포지셔닝으로 서술
환각 위험도 (Hallucination Risk)	AI가 생성한 정보 중 사실과 다른 비율	존재하지 않는 기능, 서비스, 가격 등을 사실인 것처럼 서술

graph TD
    R["AI 응답 내 브랜드 언급"] --> S["감성 분석<br/>Sentiment"]
    R --> A["정확성 검증<br/>Accuracy"]
    R --> N["메시지 일치도<br/>Narrative"]
    R --> H["환각 탐지<br/>Hallucination"]

    S --> Q["L3 Quality Score"]
    A --> Q
    N --> Q
    H --> Q

    Q --> I1{"높음?"}
    I1 -->|Yes| G["노출이 브랜드에 유리함"]
    I1 -->|No| B["노출이 브랜드에 해로울 수 있음"]

    style Q fill:#e8f5e9,stroke:#4CAF50
    style G fill:#c8e6c9,stroke:#388E3C
    style B fill:#ffcdd2,stroke:#c62828

환각(Hallucination) 문제의 심각성

AI 검색에서 환각은 단순한 기술적 오류가 아니라 비즈니스 리스크입니다. AI가 “이 서비스는 무료 체험판을 제공합니다”라고 서술했는데 실제로는 무료 체험판이 없다면, 사용자는 실망하고 브랜드 신뢰가 훼손됩니다. 더 나쁜 경우, 규제 산업(금융, 의료 등)에서 잘못된 정보가 AI를 통해 확산되면 법적 리스크로 이어질 수 있습니다.

Quality 레이어는 이런 환각을 감지하고, 높은 Inclusion에도 불구하고 Quality가 낮은 경우를 명확히 식별합니다. 이는 단순 언급 카운팅 방식에서는 불가능한 진단입니다.

해석 가이드

Quality 수준	의미	우선 행동
매우 낮음	부정적이거나 부정확한 정보로 언급됨	정보 정정 콘텐츠 제작, 공식 정보 소스 업데이트
낮음	중립적이지만 핵심 메시지 미반영	USP 중심 콘텐츠 강화
중간	대체로 정확하지만 일부 부정확 요소 존재	특정 부정확 정보 타겟팅 정정
높음	정확하고 긍정적으로 서술됨	현상 유지 + 메시지 일치도 미세 조정
매우 높음	핵심 메시지 정확 반영, 긍정적 톤, 환각 없음	이상적 상태 유지

Quality의 역설: 높은 Inclusion + 낮은 Quality

가장 위험한 패턴은 L1이 높고 L3가 낮은 경우입니다. 이 조합은 노출이 브랜드에 역효과를 내고 있다는 의미입니다.

시나리오	예시	위험도
부정확한 정보 확산	”이 서비스는 무료입니다” (실제로는 유료)	높음 - 사용자 불만 직결
경쟁사 유리 맥락	”A보다 저렴한 대안은 B입니다”	중간 - 간접적 매출 손실
오래된 정보	2년 전 가격이나 기능으로 서술	중간 - 사용자 혼란
부정적 톤	”문제가 많은 것으로 알려진”	높음 - 브랜드 이미지 훼손

L4 - Stability (안정성)

핵심 질문

“측정 결과를 신뢰할 수 있는가? 반복 실행 시에도 일관된 결과가 나오는가?”

Stability는 다른 세 레이어와 성격이 다릅니다. L1-L3가 “현재 상태가 어떤가”를 측정한다면, L4는 “그 측정이 얼마나 신뢰할 만한가”를 검증합니다. AI 검색 엔진의 응답은 동일 쿼리에 대해서도 실행 시점, 모델 버전, 지역 등에 따라 달라질 수 있습니다.

왜 AI 검색은 불안정한가

전통적인 검색 엔진에서는 동일 쿼리에 대해 비교적 안정적인 결과를 반환합니다. Google의 SERP는 시간에 따라 변하지만, 하루 단위로 급변하지는 않습니다. 반면 AI 검색 엔진(ChatGPT, Perplexity, Gemini 등)은 구조적으로 더 높은 변동성을 가집니다.

변동 요인	설명
모델 업데이트	AI 모델이 업데이트되면 동일 쿼리에 대한 응답이 달라짐
온도(Temperature) 파라미터	생성 과정의 무작위성으로 인해 같은 쿼리도 다른 결과 가능
컨텍스트 윈도우	이전 대화 맥락에 따라 동일 쿼리의 응답이 달라질 수 있음
실시간 데이터 반영	일부 AI 검색은 실시간 웹 데이터를 반영하여 시점에 따라 결과 변동
지역 및 언어 설정	사용자 설정에 따라 동일 쿼리의 응답이 달라질 수 있음

측정 대상

하위 신호	설명	활성화 조건
응답 편차 (Response Drift)	동일 쿼리의 현재 vs 이전 결과 간 GEO Score 차이	2회 이상 실행
인용 변동성 (Citation Volatility)	인용 목록에 브랜드가 포함/제외되는 변동	2회 이상 실행
프롬프트 민감도 (Prompt Sensitivity)	유사한 쿼리 변형에 대한 결과 차이	2회 이상 실행
모델 버전 편차 (Model Version Drift)	AI 모델 버전 간 결과 차이	2회 이상 실행

flowchart TD
    R1["실행 1"] --> S1["L1~L3 Score Set A"]
    R2["실행 2"] --> S2["L1~L3 Score Set B"]
    R3["실행 N"] --> S3["L1~L3 Score Set N"]

    S1 --> CMP["실행 간 비교"]
    S2 --> CMP
    S3 --> CMP

    CMP --> D{"편차 수준?"}
    D -->|"작음"| ST["L4 높음<br/>결과 신뢰 가능"]
    D -->|"큼"| UN["L4 낮음<br/>결과 신뢰 어려움"]

    style ST fill:#c8e6c9,stroke:#388E3C
    style UN fill:#ffcdd2,stroke:#c62828

2회 이상 실행이 필수인 이유

Stability는 본질적으로 비교 메트릭입니다. 단 한 번의 측정만으로는 안정성을 논할 수 없습니다. 이것은 측정의 근본적인 한계이며, WICHI가 이를 명시적으로 인정하는 이유이기도 합니다.

단일 실행에서는 L4가 비활성화됩니다. “아직 안정성을 평가할 수 없다”는 것을 점수로 표현하는 것보다, 아예 측정하지 않는 것이 더 정직한 접근이라고 판단했습니다. 가짜 확신보다 명시적 불확실성이 낫습니다.

해석 가이드

Stability 수준	의미	함의
측정 불가	단일 실행만 완료	현재 L1-L3 점수는 참고용, 의사결정 근거로 부족
낮음	실행마다 결과가 크게 달라짐	L1-L3 점수 기반 의사결정 보류, 추가 측정 필요
중간	일부 변동 존재하지만 전체 추세 유지	L1-L3 점수의 방향성은 신뢰 가능, 세부 수치는 참고용
높음	반복 실행 간 일관된 결과	L1-L3 점수 기반 의사결정 가능

Stability의 사업적 의미

Stability 레이어는 SaaS 구독 모델의 핵심 차별점이기도 합니다. 일회성 측정 도구는 L1-L3만 제공할 수 있지만, 정기 구독 모델은 반복 측정을 통해 L4를 제공합니다. 이는 “한 번 측정하고 끝”이 아니라 “지속적으로 모니터링해야 하는 이유”를 데이터로 보여주는 레이어입니다.

AI 검색 엔진이 계속 업데이트되고, 응답이 계속 변하는 환경에서 일회성 측정의 가치는 빠르게 감소합니다. Stability 레이어가 이 감소 속도를 정량화합니다.

계층 간 관계

의존 관계 구조

4개 레이어는 독립적으로 측정되지만, 해석 시에는 명확한 의존 관계가 있습니다.

graph BT
    L4["L4: Stability<br/>신뢰도 검증 레이어"] -.->|"모든 레이어의<br/>신뢰도 결정"| L1
    L4 -.-> L2
    L4 -.-> L3

    L1["L1: Inclusion<br/>전제 조건 레이어"] -->|"L1 > 0 필요"| L2["L2: Prominence<br/>위치·비중 레이어"]
    L1 -->|"L1 > 0 필요"| L3["L3: Quality<br/>내용·품질 레이어"]

    style L1 fill:#e8f4f8,stroke:#2196F3
    style L2 fill:#fff3e0,stroke:#FF9800
    style L3 fill:#e8f5e9,stroke:#4CAF50
    style L4 fill:#fce4ec,stroke:#E91E63

L1은 L2, L3의 전제 조건입니다. 언급 자체가 되지 않는데 위치나 품질을 논할 수 없습니다. L1이 0이면 L2와 L3는 측정 자체가 불가능하며, N/A로 처리됩니다.

L2와 L3는 서로 독립적입니다. 높은 위치에서 부정확하게 서술될 수도 있고(L2 높음, L3 낮음), 낮은 위치에서 정확하게 서술될 수도 있습니다(L2 낮음, L3 높음). 이 두 레이어는 서로 다른 축을 측정합니다.

L4는 메타 레이어입니다. L1-L3의 “값”이 아니라 “신뢰도”를 측정합니다. L4가 낮으면 L1-L3의 현재 값이 아무리 좋아도 의사결정 근거로 쓰기 어렵습니다.

12가지 레이어 조합 패턴

네 개의 레이어가 각각 높음/낮음을 가질 때 이론적으로 16가지 조합이 가능하지만, L1이 낮으면 L2와 L3가 무의미하므로 실질적인 패턴은 제한됩니다. 실무에서 자주 관찰되는 핵심 패턴을 정리합니다.

패턴 이름	L1	L2	L3	L4	진단	우선 행동
투명인간	낮	-	-	-	AI에 존재하지 않음	콘텐츠+출처 확보
들러리	높	낮	높	높	언급되지만 비중 낮음	포지셔닝 강화
역효과	높	높	낮	높	눈에 띄게 잘못 알려짐	정보 정정 긴급
우등생	높	높	높	높	이상적 상태	유지 + 확장
불안정 우등생	높	높	높	낮	좋지만 불안정	지속 모니터링
오해	높	중	낮	높	안정적으로 잘못 알려짐	근본적 콘텐츠 개편

“같은 총점이 완전히 다른 상태를 나타낼 수 있습니다. 레이어 패턴을 보지 않으면 잘못된 처방을 내리게 됩니다.”

해석의 순서

레이어 간 의존 관계는 해석의 순서를 결정합니다.

먼저 L1을 확인합니다. L1이 매우 낮으면 나머지 레이어를 논의할 필요가 없습니다. “먼저 존재해야 합니다.”
L1이 충분하면 L2와 L3를 함께 확인합니다. 위치(L2)와 내용(L3) 중 어디에 문제가 있는지, 또는 둘 다 문제인지를 진단합니다.
마지막으로 L4를 확인합니다. L1-L3의 진단 결과가 얼마나 신뢰할 만한지를 판단합니다. L4가 낮으면 1-2단계의 진단을 잠정적으로 취급하고 추가 측정이 필요합니다.

이 순서는 의료 진단의 트리아지(Triage)와 유사합니다. 모든 검사를 동시에 해석하는 것이 아니라, 전제 조건부터 확인하고 순차적으로 깊이 들어갑니다.

설계 철학

원칙 1: 측정하기 쉬운 것이 아니라, 의미 있는 것을 측정한다

“Measure what matters, not what’s easy.”

브랜드 언급 횟수를 세는 것은 쉽습니다. 정규식 하나면 됩니다. 그러나 그 언급이 긍정적인지, 정확한지, 안정적인지를 판단하려면 훨씬 복잡한 파이프라인이 필요합니다. Quality 레이어의 감성 분석, 정확성 검증, 메시지 일치도 평가에는 LLM 기반 평가가 포함됩니다. Stability 레이어는 반복 실행이라는 비용을 요구합니다.

이 복잡성을 감수하는 이유는 단순합니다. 단순한 측정이 제공하는 정보로는 올바른 의사결정을 내릴 수 없기 때문입니다. “언급 횟수가 늘었습니다”보다 “언급 횟수는 늘었지만 부정확한 정보 비율도 함께 늘었습니다”가 훨씬 유용한 인사이트입니다.

원칙 2: 합산보다 분해

GEO Score의 4개 레이어를 하나의 숫자로 합산할 수 있습니다. 그리고 실제로 WICHI는 개략적인 종합 점수를 제공합니다. 그러나 이 종합 점수는 대시보드 요약용이지, 의사결정의 근거가 아닙니다.

동일한 총점 65를 가진 두 브랜드의 예시를 보면 명확합니다.

	브랜드 A	브랜드 B
L1 Inclusion	90	60
L2 Prominence	80	70
L3 Quality	30	70
L4 Stability	60	60
종합 (참고용)	~65	~65
진단	역효과 - 많이 노출되지만 부정확	들러리 - 노출 부족
우선 행동	정보 정정 긴급	콘텐츠 전략 강화

총점이 동일해도 취해야 할 행동이 정반대입니다. 브랜드 A는 노출을 줄이는 것이 오히려 나을 수 있고(잘못된 정보 확산 방지), 브랜드 B는 노출을 늘려야 합니다. 합산 점수만 보면 이 구분이 불가능합니다.

원칙 3: 명시적 불확실성

Stability 레이어를 단일 실행에서 비활성화하는 결정은 이 원칙을 반영합니다. 데이터가 없는데 점수를 추정하는 것보다, “아직 이 차원은 측정할 수 없습니다”라고 명시하는 것이 더 정직합니다.

같은 원칙이 다른 레이어에도 적용됩니다. L1이 0이면 L2와 L3에 임의의 값을 넣는 대신 N/A로 표시합니다. 측정할 수 없는 것을 측정한 것처럼 표시하는 것은 사용자를 오도하는 것입니다.

원칙 4: 진단 → 처방의 연결

이 구조에서 핵심은 최종 합산 점수가 아닙니다. Layer별 패턴이 중요합니다. 패턴이 진단을 결정하고, 진단이 처방(행동)을 결정합니다.

패턴	진단	처방
L1 낮음	존재감 부재	콘텐츠 생성, 외부 출처 확보, 구조화 데이터
L1 높음, L2 낮음	비중 부족	차별화 포인트 강화, 비교 콘텐츠
L1 높음, L3 낮음	잘못된 노출	정보 정정, 공식 출처 업데이트, FAQ 강화
L1-L3 높음, L4 낮음	불안정	정기 모니터링, AI 모델 변경 추적
L1-L4 모두 높음	최적 상태	유지 + 신규 쿼리 영역 확장

점수 자체를 올리는 것보다, 어떤 레이어에서 문제가 발생하는지를 진단하고 그에 맞는 조치를 취하는 것이 이 설계의 목적입니다.

이 프레임워크의 일반화 가능성

WICHI를 넘어서

4계층 프레임워크는 WICHI라는 특정 제품을 위해 설계되었지만, 개념적으로는 AI 검색 가시성을 측정하려는 모든 시스템에 적용할 수 있습니다. 핵심 질문 4개 - 존재하는가, 눈에 띄는가, 정확한가, 일관적인가 - 는 측정 대상이 브랜드든, 제품이든, 정보 소스든 동일하게 유효합니다.

다른 도메인으로의 확장

도메인	L1 해석	L2 해석	L3 해석	L4 해석
브랜드 GEO	언급 여부	응답 내 위치	감성/정확성	반복 일관성
학술 출처	인용 여부	인용 위치/비중	인용 정확성	시간 경과 안정성
뉴스 소스	참조 여부	헤드라인/본문	사실 부합도	이슈 지속성
제품 비교	후보 포함 여부	추천 순위	스펙 정확성	쿼리 변형 안정성

프레임워크의 구체적인 구현(하위 신호, 가중치, 평가 방법)은 도메인마다 달라지지만, 4계층 구조 자체는 “존재 → 비중 → 질 → 신뢰도”라는 보편적 논리를 따릅니다.

구현 시 고려사항

이 프레임워크를 자체 시스템에 적용하려는 경우 몇 가지 고려할 점이 있습니다.

L1은 가장 구현이 쉽고, L3는 가장 어렵습니다. 텍스트 매칭(L1)에서 시작하여 점진적으로 복잡도를 높여가는 것을 권장합니다.
L4는 시간이 필요합니다. 최소 2회 이상의 측정 데이터가 쌓여야 활성화되므로, 초기에는 L1-L3만으로 운영해야 합니다.
레이어 간 가중치는 도메인에 따라 달라져야 합니다. 정확성이 매우 중요한 의료/금융 도메인에서는 L3의 가중치가 높아야 하고, 노출 자체가 중요한 초기 스타트업에서는 L1의 가중치가 높아야 합니다.
Quality 측정에 LLM Judge를 사용할 경우, 평가의 일관성(Stability) 자체가 문제가 됩니다. Judge 모델의 응답도 변동이 있기 때문에, Judge 자체의 Stability를 별도로 관리해야 합니다.

정리

GEO Score의 4계층 설계는 다음 질문에 순서대로 답합니다.

flowchart LR
    Q1["존재하는가?<br/>L1 Inclusion"] --> Q2["눈에 띄는가?<br/>L2 Prominence"]
    Q2 --> Q3["정확한가?<br/>L3 Quality"]
    Q3 --> Q4["신뢰할 수 있는가?<br/>L4 Stability"]

    style Q1 fill:#e8f4f8,stroke:#2196F3
    style Q2 fill:#fff3e0,stroke:#FF9800
    style Q3 fill:#e8f5e9,stroke:#4CAF50
    style Q4 fill:#fce4ec,stroke:#E91E63

각 레이어는 독립적으로 측정되지만 해석은 순서가 있습니다. L1이 전제 조건이고, L4가 신뢰도를 검증합니다. 합산 점수보다 레이어별 패턴이 중요하며, 패턴이 진단을, 진단이 행동을 결정합니다.

이 설계에서 의도적으로 거부한 것은 단일 숫자의 편리함입니다. “GEO Score 72점”이라는 한 줄보다, “Inclusion 높음, Prominence 높음, Quality 낮음, Stability 미측정”이라는 네 줄이 더 많은 정보를 담고, 더 정확한 행동으로 연결됩니다.

이 글의 범위

왜 4계층인가

단일 점수의 구조적 한계

기존 접근법의 문제

계층 구조라는 해답

각 계층 상세

전체 레이어 요약

L1 - Inclusion (노출도)

핵심 질문

왜 이진 값이 아닌가

측정 대상

해석 가이드

Inclusion의 함정

L2 - Prominence (주목도)

핵심 질문

위치가 중요한 이유

측정 대상

PAWC 개념 설명

해석 가이드

Prominence와 Inclusion의 관계

L3 - Quality (품질)

핵심 질문

왜 Quality가 가장 복잡한 레이어인가

측정 대상

환각(Hallucination) 문제의 심각성

해석 가이드

Quality의 역설: 높은 Inclusion + 낮은 Quality

L4 - Stability (안정성)

핵심 질문

왜 AI 검색은 불안정한가

측정 대상

2회 이상 실행이 필수인 이유

해석 가이드

Stability의 사업적 의미

계층 간 관계

의존 관계 구조

12가지 레이어 조합 패턴

해석의 순서

설계 철학

원칙 1: 측정하기 쉬운 것이 아니라, 의미 있는 것을 측정한다

원칙 2: 합산보다 분해

원칙 3: 명시적 불확실성

원칙 4: 진단 → 처방의 연결

이 프레임워크의 일반화 가능성

WICHI를 넘어서

다른 도메인으로의 확장

구현 시 고려사항

정리

관련 글

Railway + Supabase 운영 리뷰

9-Bucket 쿼리 프레임워크 설계 기록

멀티엔진 아키텍처 - 3개 AI 엔진 병렬 수집 구조