人口データで理解する統計の基本

統計

日本の 47 都道府県の人口データを使って、統計学の基本的な概念である平均値、中央値、標準偏差、そして偏差値について詳しく解説します。これらの指標は、データの特性を理解し、比較するための重要なツールです。

データの概要

まず、2023 年度の日本の都道府県人口データを見てみましょう。このデータには 47 都道府県の人口が含まれており、最も人口が多いのは東京都(約 1,409 万人)、最も少ないのは鳥取県(約 54 万人)です。

順位都道府県人口偏差値
1東京都14,086,00091.3
2神奈川県9,229,00073.8
3大阪府8,784,00072.1
4愛知県7,542,00067.7
5埼玉県7,331,00066.9
6千葉県6,257,00063.0
7兵庫県5,395,00060.1
8福岡県5,103,00058.9
9北海道5,092,00058.8
10静岡県3,598,00053.6
1-10 / 47

上記の表は人口上位 10 都道府県のデータです。全国の都道府県データを見ると、人口の多い都市部と少ない地方部で大きな差があることがわかります。

平均値(算術平均)

平均値は、すべてのデータの合計をデータの数で割った値です。数式で表すと:

μ = (x₁ + x₂ + ... + xₙ) ÷ n

ここで、平均値を μ、各データ値を x、データの総数を n とすると:

μ = (x₁ + x₂ + ... + xₙ) ÷ n

都道府県の人口データを使って計算してみましょう:

平均値 = (5,092,000 + 1,184,000 + ... + 1,468,000) ÷ 47

全都道府県の人口を合計すると約 125,909,000 人となり、これを 47 で割ると:

平均値 = 125,909,000 ÷ 47 ≈ 2,678,915人

つまり、日本の都道府県の平均人口は約 268 万人です。

中央値

中央値は、すべてのデータを小さい順に並べたときに真ん中に位置する値です。データ数が奇数の場合は真ん中の値、偶数の場合は真ん中の 2 つの値の平均になります。

都道府県のデータは 47 個あるので、24 番目のデータが中央値となります:

  1. 人口順に並べると、24 番目は三重県の 1,727,000 人です。

したがって、日本の都道府県の人口の中央値は約 173 万人です。

注目ポイント: 平均値(約 268 万人)と中央値(約 173 万人)には大きな差があります。これは、東京都や大阪府などの人口が特に多い都道府県が平均値を引き上げているためです。このような場合、中央値の方がデータの「典型的な値」をよく表していると言えるでしょう。

四分位数と四分位範囲

四分位数は、データを 4 等分する値です。具体的には:

  • 第 1 四分位数(Q1): データを小さい順に並べたとき、下位 25%に位置する値
  • 第 2 四分位数(Q2): 中央値(データの 50%に位置する値)
  • 第 3 四分位数(Q3): データを小さい順に並べたとき、上位 25%に位置する値

四分位範囲(IQR: Interquartile Range)は、第 3 四分位数と第 1 四分位数の差(Q3 - Q1)で、データの中心的な 50%の広がりを示します。

都道府県人口データの場合:

  1. 47 都道府県を人口の小さい順に並べます
  2. 第 1 四分位数(Q1): 12 番目の値 = 約 93 万人(佐賀県)
  3. 第 2 四分位数(Q2): 24 番目の値 = 約 173 万人(三重県)
  4. 第 3 四分位数(Q3): 36 番目の値 = 約 270 万人(京都府)
  5. 四分位範囲(IQR)= Q3 - Q1 = 270 万人 - 93 万人 = 約 177 万人

この四分位範囲は、「中心的な」都道府県の人口のばらつきを示しています。極端に人口の多い東京都や大阪府、極端に少ない鳥取県などの影響を受けにくいため、データの中心部分の分布を理解するのに役立ちます。

箱ひげ図(Box Plot): 四分位数はよく箱ひげ図で視覚化されます。箱の下端が Q1、中の線が Q2(中央値)、上端が Q3 を表し、箱の長さが四分位範囲となります。「ひげ」は通常、Q1-1.5×IQR から Q3+1.5×IQR までの範囲内のデータを示し、それを超えるデータは外れ値として個別にプロットされます。

都道府県人口データの場合、東京都(約 1,409 万人)は明らかに外れ値として表示されるでしょう。

外れ値

外れ値(アウトライアー)とは、他のデータから著しく離れた値のことです。外れ値は、データセット全体の分析結果に大きな影響を与えることがあります。外れ値を特定する一般的な方法としては、以下のようなものがあります:

  1. 四分位範囲(IQR)を用いた方法

    • 下限: Q1 - 1.5 × IQR
    • 上限: Q3 + 1.5 × IQR
    • この範囲を超えるデータを外れ値とみなします
  2. 標準偏差を用いた方法

    • 平均値から標準偏差の 2 倍または 3 倍以上離れたデータを外れ値とみなします

都道府県の人口データに IQR 法を適用すると:

  • Q1 = 93 万人
  • Q3 = 270 万人
  • IQR = 177 万人
  • 下限 = 93 万人 - 1.5 × 177 万人 = -172.5 万人(人口は負にならないので実質 0)
  • 上限 = 270 万人 + 1.5 × 177 万人 = 535.5 万人

この基準によると、人口が約 535.5 万人を超える都道府県は外れ値となります。具体的には:

  • 東京都(約 1,409 万人)
  • 神奈川県(約 923 万人)
  • 大阪府(約 880 万人)
  • 愛知県(約 754 万人)
  • 埼玉県(約 736 万人)
  • 千葉県(約 627 万人)
  • 兵庫県(約 541 万人)

これらの都道府県は、日本の三大都市圏(東京圏、大阪圏、名古屋圏)を構成する主要な都道府県であり、人口が特に集中していることがわかります。

外れ値の扱い方: 外れ値の存在は必ずしも「誤り」を意味するわけではありません。特に人口データのような場合、東京都の人口が突出して多いのは現実を反映しています。外れ値の扱い方としては:

  1. そのまま分析に含める:現実をそのまま反映させたい場合
  2. 除外して分析する:外れ値の影響を受けない傾向を見たい場合
  3. 変換して分析する:対数変換などで極端な値の影響を緩和する方法

例えば、東京都を除いた場合の都道府県の平均人口は約 239 万人となり、全体の平均(約 268 万人)よりも低くなります。これは、東京都の人口が平均値を引き上げていたことを示しています。

標準偏差

標準偏差は、データのばらつき(分散)の度合いを示す指標です。計算方法は以下の通りです:

  1. 各データから平均値を引く
  2. その差を 2 乗する
  3. すべての 2 乗した差を合計する
  4. 合計をデータ数で割る(これが分散)
  5. 分散の平方根を取る(これが標準偏差)

数式で表すと: 標準偏差 = √[(データと平均値の差の 2 乗の合計) ÷ データ数]

都道府県データの場合:

北海道:(5,092,000 - 2,678,915)² = 5,820,812,726,225
青森県:(1,184,000 - 2,678,915)² = 2,238,732,276,225
...
(他の都道府県も同様に計算)
...
沖縄県:(1,468,000 - 2,678,915)² = 1,469,121,076,225

これらの 2 乗差の合計を 47 で割り、平方根を取ると、標準偏差は約 2,547,841 人となります。

この大きな標準偏差は、都道府県間の人口の差が非常に大きいことを示しています。

偏差値

偏差値は、あるデータが平均からどれだけ離れているかを標準化した値です。平均が 50、標準偏差が 10 になるように変換されます。

偏差値の計算式: 偏差値 = 10 × (データ値 - 平均値) ÷ 標準偏差 + 50

例えば、東京都の偏差値を計算すると:

東京都の偏差値 = 10 × (14,086,000 - 2,678,915) ÷ 2,547,841 + 50 ≈ 91.3

提供されたデータに偏差値が含まれていますが、これは上記の式で計算された値です。例えば:

偏差値が 50 を超える都道府県は平均より人口が多く、50 未満の都道府県は平均より人口が少ないことを示しています。

データの分布と解釈

このデータの特徴として、以下のことが挙げられます:

  1. 非対称分布(正の歪度): 多くの都道府県が平均値より小さい人口を持ち、少数の都道府県が非常に大きな人口を持っています。このため、平均値が中央値より大きくなっています。

  2. 異常値の影響: 東京都の人口は約 1,409 万人で、第 2 位の神奈川県(約 923 万人)よりもはるかに多く、平均値を大幅に引き上げています。

  3. 四分位範囲の意義: 四分位範囲(約 177 万人)は、中心的な 50%の都道府県の人口の広がりを示しています。これは極端な値の影響を受けにくいため、データの中心部分の分布を理解するのに役立ちます。

  4. 偏差値による比較: 偏差値を使うことで、各都道府県の人口の「相対的な立ち位置」を理解できます。例えば、偏差値 60 を超える都道府県は、人口が特に多い都市部の都道府県(東京都、神奈川県、大阪府、愛知県、埼玉県、千葉県、兵庫県、福岡県)に限られています。

まとめ

統計的指標は、データの特性を理解し、比較するための強力なツールです。平均値はデータの中心傾向を表しますが、分布が非対称の場合は中央値の方が「典型的な値」をよく表すことがあります。四分位範囲は中心的なデータの広がりを示し、標準偏差はデータ全体のばらつきを示します。偏差値はデータを標準化して比較しやすくします。

外れ値の分析は、データセットの特性を理解する上で重要です。特に人口データのような自然に偏りが生じるデータでは、外れ値の存在自体が重要な情報となります。都道府県人口データでは、大都市圏の都道府県が明確な外れ値として識別され、日本の人口分布の特徴を示しています。

日本の都道府県人口データのような現実の事例を通じて、これらの概念がどのように適用され、どのような洞察を提供するかを理解することができます。データ分析において、単一の指標だけでなく、複数の指標を組み合わせて検討することが重要です。