SNU KOSSDA 공모전 참가 후기

공모전 개요

KOSSDA 대학생 공모전 2025의 주제는 다음과 같았다.

데이터로 읽는 한국 사회: 변화와 미래를 그리다

우리가 선택한 질문은 **“한국은 왜 편의점 공화국이 되었을까?”**였다. 단순히 편의점 수가 많다는 현상을 설명하는 것을 넘어, 한국 사회의 노동시장, 자영업 구조, 도시 밀도, 소비 패턴, 사회 안전망의 빈틈이 어떻게 하나의 소매업 형태로 응축되는지 보고 싶었다.

이 글은 공모전 참가 후기이면서, 동시에 다음 분석을 위한 문제 정의 노트다. 특히 후반부에는 AI를 이용해 한국 편의점 시장의 미래를 어떻게 예측할 수 있을지 수학적, 물리학적 관점에서 정리한다.

참가 동기

4학년이 되면서 취업 준비를 더 이상 미룰 수 없다고 느꼈다. 이력서에 적을 수 있는 경험도 부족했고, 내가 실제로 어떤 문제를 정의하고 끝까지 분석해본 사람인지 보여줄 만한 산출물도 많지 않았다.

데이터 분석을 전문적으로 공부한 상태도 아니었다. 파이썬은 다룰 수 있었지만, 통계적 추론, 모델링, 데이터 해석을 실제 프로젝트 수준으로 연결해본 경험은 부족했다. 머신러닝과 딥러닝 과목도 수강했지만, 이론을 프로젝트 문제로 변환하는 감각은 아직 약했다.

그래서 공모전은 나에게 두 가지 의미가 있었다.

외부 평가를 받는 실제 산출물을 만드는 경험
데이터 분석을 공부가 아니라 문제 해결로 적용하는 훈련

혼자 공부하면 흐름이 느슨해지기 쉽다. 공모전이라는 마감과 제출 형식이 있으면, 부족하더라도 끝까지 결과물을 만들 수 있을 것이라고 생각했다.

팀 구성과 시간 제약

비슷한 상황에 있는 친구들과 팀을 구성했다. 다만 우리 모두 데이터 분석 프로젝트 경험이 충분하지 않았고, 학기 중 기말고사 일정과도 겹쳤다. 실제로 함께 논의할 수 있는 시간은 주말 정도로 제한되었다.

이때부터 이미 리스크는 분명했다.

분석 주제를 정하는 시간
데이터를 찾고 정제하는 시간
모델을 만들고 검증하는 시간
발표 자료를 구성하는 시간

이 모든 과정을 2~3주 안에 압축해야 했다. 결과적으로 이번 공모전의 가장 큰 한계는 실력보다도 문제를 깊게 밀어붙일 시간과 밀도였다.

주제 선정: 왜 편의점인가

처음에는 여러 사회 문제를 검토했다. 저출산, 고령화, 부동산, 교육, 정치적 갈등, 자영업 문제 등이 후보였다. 모두 중요한 주제였지만, “한국 사회의 변화와 미래”를 보여주는 고유한 현상으로 만들기는 쉽지 않았다.

저출산과 고령화는 다른 선진국도 겪고 있고, 부동산 문제도 세계 주요 도시에서 반복된다. 정치적 갈등 역시 한국만의 문제라고 보기 어렵다. 우리는 한국적이면서도 데이터로 관찰 가능한 현상이 필요했다.

그 과정에서 편의점이 눈에 들어왔다.

편의점은 단순한 소매업이 아니다. 한국의 편의점은 다음 현상들을 한꺼번에 비춘다.

높은 도시 밀도와 24시간 생활 리듬
퇴직 이후 자영업으로 이동하는 노동시장 구조
낮은 진입장벽과 높은 경쟁 압력
1인 가구, 즉시 소비, 소량 구매 문화의 확산
지역별 상권 격차와 임대료 부담

즉 편의점은 한국 사회의 작은 관측 장치처럼 보였다. 편의점 밀도와 생존율을 보면, 단순히 “장사가 잘 되는가”가 아니라 “어떤 사회 구조가 사람들을 이 시장으로 밀어 넣는가”를 질문할 수 있다.

그래서 우리는 최종 질문을 이렇게 정리했다.

한국은 왜 편의점 공화국이 되었고, 이 구조는 앞으로 지속될 수 있을까?

분석 관점

이번 주제에서 중요한 것은 편의점 수 자체가 아니다. 편의점 수는 결과 변수다. 더 중요한 것은 그 수를 만들어내는 구조적 압력이다.

편의점 증가를 설명하려면 최소한 세 층위를 함께 봐야 한다.

인구와 도시 구조: 인구 밀도, 유동인구, 1인 가구, 주거 형태
경제 구조: 임대료, 소득, 고용 불안, 자영업 진입률
소비 구조: 즉시 소비, 소량 구매, 야간 소비, 배달 및 플랫폼 사용

이 변수들은 서로 독립적이지 않다. 예를 들어 1인 가구가 늘어나면 소량 구매 수요가 늘고, 도시 밀도가 높으면 점포 접근성이 중요해진다. 반대로 편의점이 너무 많아지면 점포 간 매출이 분산되고 폐업 압력이 커진다.

따라서 편의점 시장은 단순한 선형 성장 문제가 아니라, 수요, 공급, 경쟁, 포화가 동시에 작동하는 동역학 시스템에 가깝다.

AI로 한국 편의점의 미래를 예측한다면

AI를 사용해 “한국 편의점의 미래”를 예측한다는 말은 단순히 내년 점포 수를 맞히는 것이 아니다. 더 정확히는 다음과 같은 질문을 모델링하는 일이다.

어느 지역에서 편의점 밀도가 더 증가할 것인가?
어떤 지역은 이미 포화 상태인가?
어떤 사회경제적 변화가 편의점 생존율에 영향을 주는가?
신규 출점이 지역 소비 편의성을 높이는가, 아니면 기존 점포의 수익성을 악화시키는가?
1인 가구, 고령화, 온라인 소비, 배달 플랫폼은 편의점 수요를 어떻게 바꾸는가?

이를 수식으로 쓰면, 지역 $r$ , 시간 $t$ 에서의 편의점 밀도 또는 점포 수를 $y_{r,t}$ 라고 둘 수 있다.

y_{r,t} = f(X_{r,t}, S_{r,t}, C_{r,t}) + \epsilon_{r,t}

여기서 각 항은 다음을 의미한다.

$X_{r,t}$ : 인구, 소득, 가구 구조, 임대료 같은 지역 특성
$S_{r,t}$ : 주변 점포 수, 경쟁 강도, 상권 포화도
$C_{r,t}$ : 소비 패턴, 야간 유동인구, 배달 및 플랫폼 영향
$\epsilon_{r,t}$ : 관측되지 않은 충격 또는 잡음

하지만 이 식은 정적인 설명에 가깝다. 미래를 예측하려면 시간 변화가 들어가야 한다.

y_{r,t+1} = y_{r,t} + \Delta y_{r,t}

그리고 변화량은 다음처럼 볼 수 있다.

\Delta y_{r,t} = g(X_{r,t}, S_{r,t}, C_{r,t}) - h(y_{r,t}, S_{r,t}) + \eta_{r,t}

여기서 $g$ 는 신규 출점을 밀어 올리는 힘이고, $h$ 는 포화와 경쟁으로 인해 성장을 억제하는 힘이다. $\eta_{r,t}$ 는 정책 변화, 경기 변동, 팬데믹 같은 외생 충격이다.

AI 모델은 이 함수 $f$ , $g$ , $h$ 를 데이터로부터 근사한다. 예를 들어 다음 모델들을 비교할 수 있다.

회귀 모델: 해석 가능성이 높고 기초 가설 검증에 좋다.
Random Forest, Gradient Boosting: 비선형 관계와 변수 상호작용을 잘 포착한다.
시계열 모델: 지역별 시간 변화와 추세를 분석할 수 있다.
Graph Neural Network: 인접 지역 간 상권 영향과 공간 전이를 모델링할 수 있다.
Bayesian 모델: 예측 불확실성을 함께 표현할 수 있다.

공모전 수준에서는 복잡한 모델 하나를 무리하게 쓰기보다, 해석 가능한 기준 모델을 먼저 만들고 이후 비선형 모델을 비교하는 방식이 더 설득력 있다.

물리학적 관점: 편의점 시장을 동역학 시스템으로 보기

편의점 시장은 물리학에서 말하는 입자계나 확산-포화 시스템과 비슷하게 생각할 수 있다.

각 편의점을 하나의 입자라고 보면, 점포는 수요가 높은 지역으로 모인다. 유동인구, 주거 밀도, 교통 접근성은 일종의 퍼텐셜 필드처럼 작동한다.

P(r,t) = \alpha D_{r,t} + \beta M_{r,t} + \gamma A_{r,t} - \lambda R_{r,t}

여기서 $P(r,t)$ 는 지역 $r$ 의 출점 매력도다.

$D_{r,t}$ : 수요 밀도
$M_{r,t}$ : 유동인구 또는 접근성
$A_{r,t}$ : 소비 편의성
$R_{r,t}$ : 임대료 또는 비용 압력

출점은 $P(r,t)$ 가 높은 곳으로 이동하려는 경향을 가진다. 하지만 이미 점포가 많아지면 경쟁 압력이 커진다. 이를 반발력처럼 표현할 수 있다.

F_{competition}(r,t) = -\kappa y_{r,t}

즉 같은 지역에 점포가 많을수록 추가 출점의 순이익은 감소한다. 이때 전체 변화는 매력도와 경쟁 압력의 합으로 볼 수 있다.

\frac{dy_{r,t}}{dt} = aP(r,t) - b y_{r,t} - c y_{r,t}^{2}

여기서 $c y_{r,t}^{2}$ 항은 포화 효과다. 점포 수가 적을 때는 성장 여지가 있지만, 점포 수가 많아질수록 경쟁이 비선형적으로 커진다는 의미다.

이 관점은 편의점 시장을 단순히 “많다/적다”로 보지 않게 해준다. 중요한 질문은 “어느 지역이 포화점에 가까운가”다.

예측에서 중요한 것은 정확도만이 아니다

AI 예측 모델을 만들 때 흔히 RMSE, MAE 같은 수치만 본다.

MAE = \frac{1}{n}\sum_{i=1}^{n} |y_i - \hat{y}_i|

RMSE = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2}

하지만 사회 데이터 분석에서는 예측 오차만큼이나 해석 가능성이 중요하다. 특히 공모전이나 정책 분석에서는 “맞혔다”보다 “왜 그런 예측이 나왔는가”를 설명해야 한다.

따라서 좋은 분석은 다음 세 가지를 함께 갖춰야 한다.

예측력: 미래 점포 수나 밀도를 어느 정도 맞히는가
해석력: 어떤 변수가 예측에 큰 영향을 주는가
사회적 설명력: 그 결과가 한국 사회의 구조와 어떻게 연결되는가

예를 들어 어떤 지역의 편의점 증가를 모델이 예측했다고 하자. 그 이유가 단순히 인구가 많아서인지, 1인 가구 비율 때문인지, 임대료가 낮아서인지, 주변 경쟁이 약해서인지 설명할 수 있어야 한다.

이를 위해 SHAP, permutation importance, partial dependence plot 같은 해석 도구를 사용할 수 있다. 다만 이런 도구도 자동으로 진실을 알려주는 것은 아니다. 최종 해석은 데이터의 맥락을 이해한 사람이 검토해야 한다.

회고

1. 문제 정의를 더 빨리 끝냈어야 했다

주제 선정에 시간이 오래 걸렸다. 좋은 질문을 찾는 과정은 중요하지만, 공모전에서는 분석과 검증에 필요한 시간을 반드시 남겨야 한다.

이번에는 질문을 늦게 확정하면서 데이터 수집, 모델링, 시각화, 발표 자료 구성 시간이 모두 줄어들었다.

2. 데이터 분석의 깊이가 부족했다

데이터를 모으고 그래프를 그리는 것만으로는 충분하지 않다. 변수 간 관계를 통계적으로 검증하고, 대안 가설을 비교하고, 모델의 한계를 설명해야 한다.

특히 편의점 문제는 단순 상관관계로 결론을 내리기 어렵다. 편의점 수가 많은 지역은 수요가 많아서 그런 것일 수도 있고, 이미 과잉 경쟁 상태일 수도 있다. 이 둘을 구분하려면 시간축과 지역 단위 분석이 필요하다.

3. AI 모델을 쓰더라도 질문이 먼저여야 한다

이번 경험을 통해 느낀 것은, AI 모델 자체보다 질문 설계가 더 중요하다는 점이다.

모델은 데이터를 함수로 근사할 수 있지만, 어떤 변수를 넣을지, 어떤 단위로 볼지, 어떤 결과를 사회적으로 의미 있다고 해석할지는 사람이 결정해야 한다.

결국 데이터 분석의 차별화는 다음 질문에서 나온다.

이 데이터로 어떤 새로운 관점을 만들 수 있는가?

다음 분석을 위한 계획

다음에 이 주제를 다시 다룬다면 다음 순서로 분석하고 싶다.

지역 단위 편의점 밀도 데이터 구축
인구, 1인 가구, 소득, 임대료, 유동인구 변수 결합
편의점 밀도와 폐업률 또는 생존율의 관계 분석
선형 회귀 모델로 기준선 설정
비선형 ML 모델로 예측 성능 비교
변수 중요도와 지역별 차이를 해석
“편의점 공화국”이라는 현상을 한국 사회 구조와 연결

이 과정을 제대로 하면 단순 공모전 발표가 아니라, 하나의 사회 데이터 분석 글이나 논문 리뷰 형식의 글로 발전시킬 수 있을 것 같다.

마무리

이번 KOSSDA 공모전은 결과와 별개로 나에게 중요한 전환점이었다.

나는 데이터 분석을 단순히 도구 사용으로 생각하고 있었다. 하지만 실제로 해보니 중요한 것은 도구가 아니라 문제 정의, 변수 선택, 모델 해석, 그리고 사회적 맥락이었다.

AI는 미래를 “정답처럼” 예언하지 않는다. AI는 과거와 현재의 패턴을 바탕으로 가능한 미래의 분포를 추정한다.

그래서 한국 편의점의 미래를 예측한다는 것은, 편의점 수 하나를 맞히는 일이 아니다. 한국 사회의 소비 구조, 노동시장, 도시 공간, 자영업 압력이 앞으로 어떤 방향으로 움직일지 모델링하는 일이다.

이번에는 그 수준까지 가지 못했다. 하지만 다음에는 이론, 데이터, 모델, 해석을 더 단단하게 연결해서 다시 도전해보고 싶다.

Hun-Bot

KOSSDA 대학생 공모전 참가 후기: 한국은 왜 편의점 공화국이 되었을까