SNU KOSSDA コンペ参加記

コンペ概要

KOSSDA大学生コンペ2025のテーマは次の通りだった。

データで読む韓国社会：変化と未来を描く

私たちが選んだ問いは、**「韓国はなぜコンビニ共和国になったのか？」**だった。単にコンビニの数が多いという現象を説明するだけでなく、韓国社会の労働市場、自営業構造、都市密度、消費パターン、社会的セーフティネットの隙間が、どのように一つの小売業態へ凝縮されているのかを見たかった。

この文章はコンペ参加記であると同時に、次の分析のための問題定義ノートでもある。特に後半では、AIを使って韓国のコンビニ市場の未来をどのように予測できるのかを、数学的・物理学的な観点から整理する。

参加動機

4年生になり、就職準備をこれ以上先延ばしできないと感じた。履歴書に書ける経験も少なく、自分が実際に問題を定義し、最後まで分析した人間であることを示せる成果物も多くなかった。

データ分析を専門的に勉強していたわけでもなかった。Pythonは扱えたが、統計的推論、モデリング、データ解釈を実際のプロジェクトレベルでつなげた経験は不足していた。機械学習や深層学習の授業も受けたが、理論をプロジェクトの問題へ変換する感覚はまだ弱かった。

そのため、このコンペは私にとって二つの意味を持っていた。

外部評価を受ける実際の成果物を作る経験
データ分析を勉強ではなく問題解決として適用する訓練

一人で勉強すると流れが緩くなりがちだ。コンペという締切と提出形式があれば、不完全でも最後まで結果物を作れるだろうと思った。

チーム構成と時間制約

似た状況にある友人たちとチームを組んだ。ただし、私たち全員がデータ分析プロジェクトの経験を十分に持っていたわけではなく、学期中の期末試験とも重なった。実際に一緒に議論できる時間は週末程度に限られていた。

この時点で、すでにリスクは明確だった。

分析テーマを決める時間
データを探して整える時間
モデルを作って検証する時間
発表資料を構成する時間

これらすべてを2〜3週間ほどに圧縮しなければならなかった。結果的に、今回のコンペで最も大きな限界は、実力だけではなく、問題を深く押し込むための時間と密度の不足だった。

テーマ選定：なぜコンビニなのか

最初は複数の社会問題を検討した。少子化、高齢化、不動産、教育、政治的対立、自営業問題などが候補だった。どれも重要なテーマだったが、「韓国社会の変化と未来」を示す固有の現象として作り込むのは簡単ではなかった。

少子化や高齢化は他の先進国も経験しており、不動産問題も世界の主要都市で繰り返されている。政治的対立も韓国だけの問題とは言いにくい。私たちは韓国的でありながら、データで観察可能な現象を必要としていた。

その過程でコンビニが目に入った。

コンビニは単なる小売業ではない。韓国のコンビニは、次の現象を同時に映し出している。

高い都市密度と24時間型の生活リズム
退職後に自営業へ移動する労働市場構造
低い参入障壁と高い競争圧力
1人世帯、即時消費、少量購入文化の拡大
地域別商圏格差と賃料負担

つまり、コンビニは韓国社会の小さな観測装置のように見えた。コンビニ密度と生存率を見ると、単に「商売になるのか」ではなく、「どのような社会構造が人々をこの市場へ押し込んでいるのか」を問うことができる。

そこで私たちは最終的な問いを次のように整理した。

韓国はなぜコンビニ共和国になり、この構造は今後も持続できるのか？

分析観点

このテーマで重要なのは、コンビニの数そのものではない。コンビニの数は結果変数だ。より重要なのは、その数を作り出す構造的圧力である。

コンビニの増加を説明するには、少なくとも三つの層を同時に見る必要がある。

人口と都市構造：人口密度、流動人口、1人世帯、住居形態
経済構造：賃料、所得、雇用不安、自営業参入率
消費構造：即時消費、少量購入、夜間消費、配達およびプラットフォーム利用

これらの変数は互いに独立していない。たとえば1人世帯が増えると少量購入需要が増え、都市密度が高いと店舗へのアクセス性が重要になる。逆にコンビニが多すぎると、店舗間で売上が分散し、廃業圧力が大きくなる。

したがって、コンビニ市場は単純な線形成長問題ではなく、需要、供給、競争、飽和が同時に作用する力学系に近い。

AIで韓国コンビニの未来を予測するなら

AIを使って「韓国コンビニの未来」を予測するというのは、単に来年の店舗数を当てることではない。より正確には、次のような問いをモデル化することだ。

どの地域でコンビニ密度がさらに増加するのか？
どの地域はすでに飽和状態なのか？
どのような社会経済的変化がコンビニの生存率に影響するのか？
新規出店は地域の消費利便性を高めるのか、それとも既存店舗の収益性を悪化させるのか？
1人世帯、高齢化、オンライン消費、配達プラットフォームはコンビニ需要をどう変えるのか？

数式で表すなら、地域 $r$ 、時間 $t$ におけるコンビニ密度または店舗数を $y_{r,t}$ と置くことができる。

y_{r,t} = f(X_{r,t}, S_{r,t}, C_{r,t}) + \epsilon_{r,t}

各項は次の意味を持つ。

$X_{r,t}$ ：人口、所得、世帯構造、賃料などの地域特性
$S_{r,t}$ ：周辺店舗数、競争強度、商圏飽和度
$C_{r,t}$ ：消費パターン、夜間流動人口、配達・プラットフォームの影響
$\epsilon_{r,t}$ ：観測されないショックまたはノイズ

ただし、この式は静的な説明に近い。未来を予測するには時間変化を入れる必要がある。

y_{r,t+1} = y_{r,t} + \Delta y_{r,t}

変化量は次のように見ることができる。

\Delta y_{r,t} = g(X_{r,t}, S_{r,t}, C_{r,t}) - h(y_{r,t}, S_{r,t}) + \eta_{r,t}

ここで $g$ は新規出店を押し上げる力であり、 $h$ は飽和と競争によって成長を抑制する力である。 $\eta_{r,t}$ は政策変化、景気変動、パンデミックのような外生ショックを表す。

AIモデルは、この関数 $f$ 、 $g$ 、 $h$ をデータから近似する。たとえば次のようなモデルを比較できる。

回帰モデル：解釈可能性が高く、基本的な仮説検証に向いている。
Random Forest、Gradient Boosting：非線形関係と変数間相互作用を捉えやすい。
時系列モデル：地域別の時間変化とトレンドを分析できる。
Graph Neural Network：隣接地域間の商圏影響や空間的波及をモデル化できる。
Bayesianモデル：予測不確実性を予測値と一緒に表現できる。

コンペレベルでは、複雑なモデルを一つ無理に使うより、解釈可能な基準モデルを先に作り、その後に非線形モデルと比較する方が説得力がある。

物理学的観点：コンビニ市場を力学系として見る

コンビニ市場は、物理学でいう粒子系や拡散・飽和システムのように考えることができる。

各コンビニを一つの粒子と見れば、店舗は需要の高い地域に集まる。流動人口、住居密度、交通アクセス性は、一種のポテンシャル場のように働く。

P(r,t) = \alpha D_{r,t} + \beta M_{r,t} + \gamma A_{r,t} - \lambda R_{r,t}

ここで $P(r,t)$ は地域 $r$ の出店魅力度である。

$D_{r,t}$ ：需要密度
$M_{r,t}$ ：流動人口またはアクセス性
$A_{r,t}$ ：消費利便性
$R_{r,t}$ ：賃料またはコスト圧力

出店は $P(r,t)$ が高い場所へ移動しようとする傾向を持つ。しかし、すでに店舗が多くなると競争圧力が大きくなる。これは反発力のように表現できる。

F_{competition}(r,t) = -\kappa y_{r,t}

つまり同じ地域に店舗が多いほど、追加出店の純利益は低下する。このとき全体の変化は、魅力度と競争圧力の和として見ることができる。

\frac{dy_{r,t}}{dt} = aP(r,t) - b y_{r,t} - c y_{r,t}^{2}

ここで $c y_{r,t}^{2}$ の項は飽和効果である。店舗数が少ないときは成長余地があるが、店舗数が増えるほど競争は非線形に大きくなる。

この観点は、コンビニ市場を単に「多い／少ない」と見ることを避けさせてくれる。重要な問いは「どの地域が飽和点に近いのか」である。

予測で重要なのは精度だけではない

AI予測モデルを作るとき、RMSEやMAEのような数値だけを見がちだ。

MAE = \frac{1}{n}\sum_{i=1}^{n} |y_i - \hat{y}_i|

RMSE = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2}

しかし社会データ分析では、予測誤差と同じくらい解釈可能性が重要だ。特にコンペや政策分析では、「当てた」ことよりも「なぜその予測が出たのか」を説明しなければならない。

したがって、良い分析には次の三つが必要である。

予測力：未来の店舗数や密度をどの程度当てられるか
解釈力：どの変数が予測に大きな影響を与えたのか
社会的説明力：その結果が韓国社会の構造とどのようにつながるのか

たとえば、ある地域でコンビニが増加するとモデルが予測したとする。その理由が単に人口が多いからなのか、1人世帯比率のためなのか、賃料が低いからなのか、周辺競争が弱いからなのかを説明できる必要がある。

そのためにSHAP、permutation importance、partial dependence plotのような解釈ツールを使うことができる。ただし、こうしたツールも自動的に真実を教えてくれるわけではない。最終的な解釈は、データの文脈を理解した人間が検討しなければならない。

振り返り

1. 問題定義をもっと早く終えるべきだった

テーマ選定に時間がかかった。良い問いを探す過程は重要だが、コンペでは分析と検証に必要な時間を必ず残さなければならない。

今回は問いを確定するのが遅くなり、データ収集、モデリング、可視化、発表資料の構成時間がすべて短くなった。

2. データ分析の深さが足りなかった

データを集めてグラフを描くだけでは十分ではない。変数間の関係を統計的に検証し、代替仮説を比較し、モデルの限界を説明する必要がある。

特にコンビニ問題は、単純な相関関係だけで結論を出しにくい。コンビニ数が多い地域は需要が多いからそうなっているのかもしれないし、すでに過剰競争状態なのかもしれない。この二つを区別するには、時間軸と地域単位の分析が必要だ。

3. AIモデルを使うとしても、問いが先である

今回の経験を通じて感じたのは、AIモデルそのものよりも問いの設計が重要だという点だ。

モデルはデータを関数として近似できる。しかし、どの変数を入れるのか、どの単位で見るのか、どの結果を社会的に意味があると解釈するのかは人間が決める必要がある。

結局、データ分析の差別化は次の問いから生まれる。

このデータでどのような新しい視点を作れるのか？

次の分析に向けた計画

次にこのテーマを再び扱うなら、次の順序で分析したい。

地域単位のコンビニ密度データを構築する。
人口、1人世帯、所得、賃料、流動人口の変数を結合する。
コンビニ密度と廃業率または生存率の関係を分析する。
線形回帰モデルで基準線を設定する。
非線形MLモデルで予測性能を比較する。
変数重要度と地域別差異を解釈する。
「コンビニ共和国」という現象を韓国社会構造と結びつける。

この過程をきちんと行えば、単なるコンペ発表ではなく、一つの社会データ分析記事や論文レビュー形式の記事へ発展させられると思う。

おわりに

今回のKOSSDAコンペは、結果とは別に私にとって重要な転換点だった。

私はデータ分析を単なるツール利用だと考えていた。しかし実際にやってみると、重要なのはツールではなく、問題定義、変数選択、モデル解釈、そして社会的文脈だった。

AIは未来を「正解」のように予言するものではない。AIは過去と現在のパターンをもとに、可能な未来の分布を推定する。

だから韓国コンビニの未来を予測するということは、コンビニ数一つを当てることではない。韓国社会の消費構造、労働市場、都市空間、自営業圧力が今後どの方向へ動くのかをモデル化することだ。

今回はその水準までは到達できなかった。しかし次は、理論、データ、モデル、解釈をより堅く結びつけて、もう一度挑戦してみたい。

Hun-Bot

KOSSDA大学生コンペ参加記：韓国はなぜコンビニ共和国になったのか