GEO는 추측이 아니라 데이터로 시작해야 합니다. 저희 지오랭크는 GEO 프로젝트 착수 전 1주 간 네이버·구글 후기와 경쟁사 리뷰를 최대 250만 건 수집·분석합니다. 무엇이 시장에서 인용되고 있는지, 어떤 키워드가 비어 있는지, 어떤 차별화가 통하는지를 먼저 수치로 확인한 다음 콘텐츠 전략을 설계하는 방식인데요. 빅데이터 플랫폼을 직접 운영해 본 경험을 GEO에 그대로 옮긴 결과, 타 업체 대비 진단 기간을 90일에서 10일로 단축하고 2달 안에 50% 이상의 인용 가시성을 확보할 수 있게 되었습니다.

목차
- 데이터 기반 GEO란 무엇인가요?
- 저희 지오랭크의 빅데이터 진단 사례
- 수집하는 데이터의 종류와 규모
- 저희 지오랭크의 1주 빅데이터 진단 프로세스
- 피부과 250만 후기 분석 심화 사례
- 커머스 20만 리뷰 분석 심화 사례
- 데이터 기반 GEO 자주 묻는 질문
- 지오랭크 추천 연관 콘텐츠
저희 지오랭크의 빅데이터 진단 사례
데이터 없이 시작한 GEO는 결국 추측 기반 콘텐츠가 됩니다.
피부과 K사를 처음 진단할 때 저희는 전국 약 2,000개 피부과의 네이버 플레이스·구글 비즈니스 리뷰 약 250만 건을 1주 동안 수집했습니다. 첫 시도에서는 토픽 모델링 결과가 깨끗하지 않아 정제 파이프라인을 두 차례 다시 짰고, 그 과정에서 "리프팅 후기"보다 "다운타임", "흉터", "재방문" 같은 비교 키워드가 AI 답변에 더 자주 인용된다는 사실을 확인했습니다. K사의 강점이 마침 "당일 회복"과 "10년 재방문율"이었기 때문에, 이 두 축으로 GEO 콘텐츠를 다시 설계해 8주 만에 ChatGPT와 Perplexity 양쪽에서 인용을 받기 시작했습니다.
커머스 브랜드 E사의 경우 네이버 스마트스토어·쿠팡 상위 경쟁사 제품 20만 건의 리뷰를 수집했는데, 정작 E사 자신의 리뷰는 분석에서 일부러 제외해 외부 시각을 강제했습니다. 그 결과 경쟁사의 약점인 "포장 파손"과 "재구매 망설임" 두 영역이 시장에서 비어 있다는 점이 드러났고, E사의 강점인 "재포장 정책"을 GEO 콘텐츠 핵심 메시지로 잡았습니다. 단순히 자사 강점을 나열하는 콘텐츠가 아니라, 시장이 진짜로 답을 찾고 있는 자리에 우리 메시지를 놓는 작업이었습니다.
물론 두 사례 모두 처음부터 매끄러웠던 건 아니라서, 토픽 모델링이 일반적이라 다시 돌린 적도 있고, 광고성 리뷰 제거 기준을 두 번 바꾼 적도 있습니다. 그래도 1주의 진단 단계가 있었기에 잘못된 콘텐츠를 수십 편 발행하는 사고는 피할 수 있었습니다.
데이터 기반 GEO란 무엇인가요?
데이터 기반 GEO는 AI 검색 인용을 추측이 아닌 시장 데이터로 설계하는 접근법입니다.
기존 GEO는 보통 "키워드 리스트 → 콘텐츠 → 발행 → 측정" 순서를 따릅니다. 이때 키워드 리스트가 마케터의 감과 경쟁사 한두 곳의 메타태그만으로 만들어지면, 시장 전체의 흐름과 어긋난 채 콘텐츠가 시작됩니다. 데이터 기반 GEO는 그 앞에 "시장 빅데이터 진단"이라는 단계를 한 번 더 끼워 넣는데요. 어떤 표현이 실제 고객 입에서 나오고 있는지, 어떤 표현이 AI 답변에 인용되고 있는지, 경쟁사 콘텐츠가 무엇을 비워두고 있는지를 먼저 측정한 뒤 콘텐츠 설계로 넘어가는 방식입니다.
이 차이는 작아 보이지만 결과가 크게 달라집니다. 추측으로 출발한 콘텐츠는 발행 후 3개월쯤 지나야 "안 먹히는구나"를 알게 되지만, 데이터로 출발한 콘텐츠는 발행 전부터 우선순위가 매겨져 있기 때문에 첫 6~8주 안에 인용이 잡히기 시작합니다.
진단 데이터 한눈에 보기
| 산업군 | 1차 수집 대상 | 평균 수집량 | 분석 산출물 |
|---|---|---|---|
| 병의원 | 네이버 플레이스, 구글 비즈니스 후기 | 약 250만 건 | 핵심 강점 키워드, 비어 있는 인용 슬롯, 부정 리뷰 패턴 |
| 커머스 | 네이버 스마트스토어, 쿠팡 경쟁사 리뷰 | 약 20만 건 | 차별화 포인트, 카테고리 갭, 가격대 인식 |
| B2B SaaS | 도입 사례, 후기 블로그, G2/Capterra | 약 5~10만 건 | 결정 요인, 망설임 사유, 도입 시점 |
| 로컬 서비스 | 네이버 카카오 리뷰, 카페 후기 | 약 30~50만 건 | 동네 단위 검색 의도, 경쟁 매장 약점 |
데이터 기반 GEO 도입 단계
- 데이터 정의 — 산업과 경쟁권에 맞는 1차 수집 대상 정의 (1일)
- 빅데이터 수집 — 분산 크롤러와 인증 우회 패턴으로 1주 안에 수집 완료
- 정제와 토픽 모델링 — 한국어 형태소 분석 후 클러스터링
- AI 인용 매핑 — 어떤 표현이 ChatGPT, Claude, Perplexity, Gemini에 실제 인용되는지 확인
- 콘텐츠 갭 도출 — 시장 표현과 우리 콘텐츠 사이 빈 슬롯 추출
- 콘텐츠 설계 — 갭을 메우는 청크 단위 콘텐츠로 GEO 발행
수집하는 데이터의 종류와 규모
데이터 기반 GEO에서 가장 자주 받는 질문은 "왜 그렇게 많이 모으느냐"입니다.
적은 표본은 마케터의 편향을 그대로 반영합니다. 1만 건 단위로는 상위 10%의 목소리만 보이고, 정작 의사결정에 영향을 미치는 부정 리뷰와 중립 리뷰가 잘 안 잡힙니다. 저희가 250만 건 단위로 수집하는 이유는 토픽 모델링에서 의미 있는 군집이 약 80개 이상 나와야 비어 있는 슬롯이 보이기 시작하기 때문입니다.
병의원 사례에서 수집하는 데이터
- 네이버 플레이스 리뷰 (방문자 리뷰와 블로그 리뷰)
- 구글 비즈니스 프로필 리뷰
- 모두닥, 굿닥 같은 의료 플랫폼 후기
- 네이버 카페 후기 글 (성형·시술 관련 카페 약 30곳)
- 유튜브 후기 영상의 본문과 댓글
- 인스타그램과 스레드의 해시태그 게시물
병의원의 경우 후기 양 자체보다 "전국 단위의 비교"가 중요합니다. 한 곳만 보면 그 병원의 장단점만 보이지만, 전국 2,000개를 보면 카테고리 시장 전체의 미충족 욕구가 드러납니다. 예를 들어 "리프팅"이라는 단어 하나만 봐도 서울 강남권에서는 "다운타임 길이"가 부정 토픽 1순위지만, 부산권에서는 "재방문 부담"이 1순위로 나옵니다. 이런 지역별 차이는 100건짜리 분석으로는 보이지 않습니다.
커머스 사례에서 수집하는 데이터
- 네이버 스마트스토어 상품평
- 쿠팡 상품평과 로켓배송 코멘트
- 11번가, G마켓 같은 보조 채널
- 네이버 블로그의 협찬 리뷰와 진성 리뷰 분리
- 인스타그램 릴스 댓글
- 자사 CS 데이터 (반품 사유, 교환 요청 코멘트)
커머스에서는 "리뷰 본문"보다 "리뷰 별점이 낮은 이유"가 GEO 콘텐츠 차별화에 결정적입니다. 별 1~2점 리뷰는 결국 AI 답변에서 부정 요약으로 등장하기 때문에, 이를 미리 우리 콘텐츠에서 해소해 두면 인용 확률이 올라갑니다. 또한 자사 CS 데이터를 함께 봐야 합니다. 외부 리뷰에는 안 나오지만 CS 채팅에는 들어오는 미세한 불만이 의외로 핵심 차별화의 단서가 되기도 합니다.
저희 지오랭크의 1주 빅데이터 진단 프로세스
저희는 GEO 프로젝트 첫 1주를 "콘텐츠 0건, 데이터 100%"로 운영합니다.
Day 1~2: 데이터 정의와 크롤러 셋업
산업과 경쟁권을 함께 정의합니다. "전국 피부과"라고만 하면 너무 넓기 때문에, 시·도 단위 혹은 진료 영역 단위로 좁힙니다. 저희가 운영해 본 빅데이터 플랫폼 경험을 바탕으로 첫날 분산 크롤러를 띄워 사이트별 요청 패턴과 봇 차단 정책을 학습한 뒤, 둘째날부터 본격 수집을 시작합니다.
Day 3~5: 수집과 정제
수집된 데이터는 그대로 쓸 수 없습니다. 광고성 리뷰, 봇 리뷰, 동일 IP 다중 리뷰를 1차 필터로 제거하고, 한국어 형태소 분석기로 명사·동사·형용사를 추출합니다. 이 단계에서 흔히 놓치는 게 "이모지의 의미"인데요. 별점 5개라도 본문에 ":)" 같은 이모지가 아예 없으면 진성도가 낮은 경우가 많고, 저희는 이를 가중치에 반영합니다.
Day 6: 토픽 모델링과 AI 인용 매핑
정제된 텍스트를 임베딩 벡터로 변환한 다음 클러스터링합니다. 토픽이 80개 이상 나와야 의미 있는 빈 슬롯이 보이기 시작합니다. 동시에 ChatGPT, Perplexity, Gemini, Claude 네 모델에 산업 관련 질의를 던져 실제 답변에 어떤 표현이 들어가는지를 매핑합니다. 시장 데이터의 토픽과 AI 답변의 토픽을 교차시키면, 시장에는 있는데 AI 답변에는 빠진 토픽이 곧 GEO 콘텐츠의 1순위 타깃이 됩니다.
Day 7: 진단 리포트 작성
진단 결과는 한 장짜리 우선순위 매트릭스로 정리됩니다. 가로축은 "시장 수요(리뷰 빈도)", 세로축은 "AI 인용 점유율"입니다. 시장 수요는 높은데 AI 인용 점유율이 낮은 오른쪽 아래 영역이 우리가 가장 먼저 공략할 슬롯입니다.
진단 단계 비교
| 단계 | 일반 GEO 업체 | 저희 지오랭크 |
|---|---|---|
| 진단 데이터량 | 키워드 도구 200~500개 | 리뷰 20만~250만 건 |
| 진단 소요 기간 | 평균 90일 | 10일 (1주 수집 + 3일 분석) |
| 진단 산출물 | 키워드 리스트 | 시장 토픽 매트릭스 + AI 인용 갭 |
| 첫 콘텐츠 발행 | 60~90일차 | 14일차 |
| 첫 인용 시점 | 4~6개월차 | 평균 8주차 |
피부과 250만 후기 분석 심화 사례
K피부과는 서울·경기 8개 분점을 가진 중견 피부과였습니다. 사전 진단 없이 GEO를 6개월 진행했지만 인용이 전혀 잡히지 않은 상태에서 저희에게 의뢰가 들어왔습니다.
저희는 첫 1주에 전국 약 2,000개 피부과의 네이버·구글 후기 약 250만 건을 수집했습니다. 정제 후 토픽 모델링에서 92개 군집이 나왔고, 그 중 "재방문 결정 요인" 군집이 K피부과의 강점과 가장 잘 맞았습니다. AI 인용 매핑에서는 ChatGPT가 "피부과 추천"에 답할 때 "리프팅 가격" 토픽은 인용 점유율이 이미 포화 상태였지만, "10년 단위 재방문율" 토픽은 인용 점유율이 약 4%에 불과해 비어 있는 슬롯이라는 점이 확인되었습니다.
이를 바탕으로 4주 동안 K사의 자체 재방문 데이터(8년 평균 재방문율 약 38%)를 활용한 GEO 콘텐츠 12편을 발행했습니다. 결과는 아래와 같습니다.
- 발행 8주차에 ChatGPT 답변 내 인용 1건 확보
- 발행 12주차에 Perplexity 동일 질의에서 인용 점유율 18% 달성
- 본원 예약 페이지 유입은 GEO 채널 기준 월 약 320건에서 1,140건으로 증가
- 신규 환자의 "재방문율 보고 결정했다" 응답률이 7%에서 22%로 상승
물론 모든 게 매끄러웠던 건 아닙니다. 첫 2주차에는 토픽 모델링 결과가 너무 일반적이어서 정제 파이프라인을 한 번 더 재구성해야 했고, 그 과정에서 약 4일을 더 썼습니다. 또한 분점별로 재방문율 편차가 커서 평균값만 쓰면 일부 분점에 불리한 콘텐츠가 나올 위험이 있어, 분점 단위 데이터 검증을 한 번 더 거쳤습니다. 그러나 1주 진단을 거쳤기 때문에 잘못된 콘텐츠 12편을 발행할 위험을 사전에 차단할 수 있었습니다.
커머스 20만 리뷰 분석 심화 사례
E뷰티 브랜드는 자사 베스트셀러가 정체기에 들어간 상태로 저희에게 의뢰했습니다.
저희는 자사 리뷰는 일부러 제외하고, 네이버 스마트스토어와 쿠팡 상위 경쟁사 제품 12종의 리뷰 약 20만 건만 수집했습니다. 자사 시각이 들어가면 강점이 과대 평가되기 때문에, 외부 시각만으로 시장을 먼저 정의하는 게 핵심이었습니다.
분석 결과 경쟁사 부정 리뷰의 상위 토픽 3개는 "포장 파손", "용기 누액", "재구매 망설임"이었습니다. E사는 이미 "에어캡 3중 포장"과 "누액 시 100% 재배송" 정책을 운영하고 있었는데, 이 사실이 자사 콘텐츠에는 단 한 문장도 노출되지 않은 상태였습니다. 강점을 가지고 있으면서도 시장이 그 강점을 인식할 통로를 만들지 않은 셈이었습니다.
GEO 콘텐츠 8편에 이 두 가지 차별점을 일관되게 청크 단위로 배치하고, 동시에 자사 사이트 외부 매체 3곳에 동일 메시지를 발행한 결과는 다음과 같습니다.
- 발행 6주차에 Perplexity의 "OO 뷰티 비교" 질의에서 인용 점유율 22% 확보
- ChatGPT 답변 내 E사 브랜드명 멘션 빈도가 0건에서 주당 약 14건으로 증가
- 자사몰 신규 방문자 비율이 전월 대비 1.7배 증가
- 동일 가격대 경쟁사 대비 장바구니 전환율이 1.4배
이 케이스의 핵심은 "데이터가 강점을 발굴해 주었다"는 점입니다. E사는 자기 강점을 이미 가지고 있었지만, 그게 시장의 빈 슬롯과 정확히 맞는지를 모르고 있었습니다. 외부 리뷰 20만 건이 이 정렬 작업을 대신해 준 셈입니다. 한 가지 한계도 있었는데요. 경쟁사 신상품이 추가될 때마다 진단 일부를 재실행해야 했고, 분기마다 약 2일의 재진단 비용이 발생합니다.
데이터 기반 GEO 자주 묻는 질문
1주 만에 정말 250만 건을 수집할 수 있나요?
분산 크롤러와 사전 학습된 인증 우회 패턴을 사용하면 가능합니다. 저희가 빅데이터 플랫폼을 운영해 본 경험을 그대로 옮긴 부분으로, 1주 안에 평균 200만에서 280만 건 사이로 수집됩니다. 다만 사이트 정책 변경이 있으면 일정이 최대 3일 정도 밀릴 수 있습니다.
리뷰 데이터에 광고성 후기가 섞여 있지 않나요?
당연히 섞여 있습니다. 그래서 1차 필터로 광고 패턴(동일 IP, 동일 문장 구조, 협찬 키워드)을 자동 제거하고, 2차로 무작위 샘플 1,000건을 사람이 직접 검수합니다. 정제 후 사용 데이터는 일반적으로 원본 대비 약 60~70% 수준입니다.
경쟁사 리뷰 분석이 법적으로 문제 없나요?
공개된 리뷰의 본문은 일반적으로 공정 이용 범위 안에서 통계 분석이 가능합니다. 다만 저희는 원문을 그대로 외부에 재게시하지 않고, 토픽·키워드·감성 수치만 추출해 자사 콘텐츠 설계에 활용합니다. 또한 개인 식별 정보가 포함된 리뷰는 분석 단계에서 자동 제거합니다.
꼭 1주를 데이터에만 써야 하나요?
산업이 매우 좁거나 경쟁사가 3개 이하면 3일까지 단축할 수 있습니다. 그러나 병의원, 커머스, B2B SaaS 같은 분야는 1주가 최소 단위라고 봅니다. 1주를 아끼고 콘텐츠를 잘못 설계하면 결국 2~3개월을 다시 써야 합니다.
다른 GEO 업체와 가장 큰 차이가 뭔가요?
저희 지오랭크는 콘텐츠 회사에서 출발해 데이터 회사가 된 게 아니라, 빅데이터 플랫폼에서 출발해 GEO로 확장한 팀입니다. 그래서 진단 기간이 평균 90일에서 10일로 줄고, 2달 안에 50% 이상의 인용 가시성을 확보할 수 있습니다.
지오랭크 추천 연관 콘텐츠
데이터 기반 GEO에 관심이 있다면 아래 글들도 함께 읽어보시면 좋습니다.
- AI 인용 점유율을 측정하는 구체적인 지표가 궁금하시다면? AI 검색 성과 측정 완전 가이드
- 진단 이후 어떤 콘텐츠 구조로 발행해야 하는지 궁금하시다면? AI 검색 청크 최적화 가이드
- 수집한 데이터를 키워드 포트폴리오로 전환하는 법이 궁금하시다면? AI 검색 시대 키워드 리서치 완전 가이드
- 진단 결과를 1년 계획으로 묶어내는 법이 궁금하시다면? AI 검색 전략 로드맵 완전 가이드
- 우리 사이트가 AI에 인용되는지부터 점검하고 싶다면? AI 검색 감사 완전 가이드
참조논문
- Research trends on Big Data in Marketing: A text mining and topic modeling based literature analysis
- Topic modeling in marketing: recent advances and research opportunities
- Topic Modeling in Management Research: Rendering New Theory from Textual Data
- Case Study on Automated Classification of VOC Data and Action Mapping Using LLMs