機械学習における「多重共線性の罠」が起きる理由とは？

この記事では機械学習における「多重共線性」について、初心者の方にも分かりやすく解説していきたいと思います。

多重共線性とは何か？

多重共線性とは、機械学習モデルで使用する特徴量（データの特性を表す値）同士が強く関連している状態のことです。

簡単に言えば、「似たような情報を持つデータが複数ある」という状況です。

機械学習の代表的な手法である線形回帰は、次のような形で表されます：

家賃 = a × 部屋の広さ + b × 駅からの距離 + c × 築年数 + ...

数式で表すと：

y = a₁x₁ + a₂x₂ + a₃x₃ + ... + a₍ₙ₎x₍ₙ₎

ここで：

機械学習の目的は、これらの係数 a₁, a₂, a₃… の最適な値を見つけることです。

以下のような賃貸物件データで家賃予測モデルを考えてみましょう：

物件	広さ(㎡)	広さ(畳)	駅距離(分)	家賃(万円)
A	20	12	5	8
B	25	15	10	9
C	30	18	15	10
D	35	21	5	12

このデータを使って、次のような予測式を作りたいとします：

家賃 = a × 広さ(㎡) + b × 広さ(畳) + c × 駅距離(分)

「広さ(㎡)」と「広さ(畳)」は強い相関関係があります。実際、1畳 ≈ 1.65㎡なので、ほぼ比例関係です。

多重共線性がある場合、様々な係数の組み合わせが同じくらい「良い」予測になってしまいます。

例えば：

これらのパターンはすべて、サンプルデータに対して同じくらい良い予測を行います。なぜなら「広さ(㎡)」と「広さ(畳)」は実質的に同じ情報だからです。

少しだけ学習データが変わるだけで、係数の値が大きく変動してしまいます。これが「不安定」であるということです。

新しい物件Eのデータを考えてみましょう：

パターン1の場合の予測：

家賃 = 0.3 × 22 + 0 × 13.3 - 0.1 × 8 = 6.6 - 0.8 = 5.8万円

パターン2の場合の予測：

家賃 = 0 × 22 + 0.5 × 13.3 - 0.1 × 8 = 6.65 - 0.8 = 5.85万円

これらは近い値ですが、実際の不動産データでは「広さ(㎡)」と「広さ(畳)」の関係が完璧に比例していないことがあります。

例えば、物件Eの畳数が少し異なっていたら：

パターン1の場合の予測：

家賃 = 0.3 × 22 + 0 × 12 - 0.1 × 8 = 6.6 - 0.8 = 5.8万円

パターン2の場合の予測：

家賃 = 0 × 22 + 0.5 × 12 - 0.1 × 8 = 6.0 - 0.8 = 5.2万円

わずかな違いで予測結果が大きく変わってしまいました！

このような不安定なモデルは、学習データにはよく合うかもしれませんが、新しいデータに対しては予測精度が低下します。これが「過学習」と呼ばれる問題です。

多重共線性があると、次のような問題が生じます：

方程式を解くのが難しくなる: 数学的には、係数を求める方程式の解が「一意に定まらない」状態になります。これは「x + y = 10」だけでは x と y の値が一意に決まらないのと似ています。
小さな変化が大きな影響を与える: 学習データにわずかなノイズや誤差があると、係数の値が大きく変わってしまいます。
特徴量の個別の重要度が分からなくなる: 「広さ」と「家賃」の関係を知りたいのに、「広さ(㎡)」と「広さ(畳)」のどちらが重要なのか判断できなくなります。