第6回ヒストグラムとローレンツ曲線
表1は平成15年における家計調査のうち、全世帯の消費支出に関する都道府県所在地別データである。
(1)
分析ツールを用いて度数分布を作成しなさい。またヒストグラムも作成しなさい。
a)
階級設定を行わない場合
b)
階級設定を等間隔で行った場合
(2) エクセル統計を用いて度数分布表を作成し、ヒストグラムを作成しなさい。
「ツール」⇒「分析ツール」で以下のダイアログボックスを表示させ、「ヒストグラム」を選択し、「OK」を押します。
入力範囲には消費支出のデータが入力されているB2からB50までをマウスで指定してください。
出力先は消費支出の右側に出力させたいのでC2を指定します。
グラフも同時に作成するため、「グラフ作成」にチェックを入れましょう。
「OK」を押します。
これで以下のような結果が出力されます。
これでできあがり
エクセルではデータ区間を自動的に計算しますが、データ区間を設定することもできます。
まずデータがどの範囲に入っているかを出力してみましょう。
最大値と最小値を計算していきます。最大値と最小値の計算には以下の関数を用います。
EXCEL関数 | |
最大値 | MAX |
最小値 | MIN |
セルF2に
=MAX(B2:B50)
セルF3に
=MIN(B2:B50)
と入力します。これで最大値と最小値が得られます。
この結果から23万から38万までにすべてのデータが入っていることがわかります。
これにより階級のデータ区間を設定していきます。例えば20000の階級幅で等間隔で階級を設定する場合、
最初のセルF4には最小値の230000と入力していきます。
次にセルF5には
=F4+20000として、
F5の関数を最大の380000を超えるまで貼り付けを行っていきます。
再度分析ツールからヒストグラムのダイアログボックスを出力させます。
先ほどと同じように設定しますが、データ区間にF4からF12までを指定します。
出力先は先ほどとは異なるところ(例えばG1)を指定します。
これでできあがり
「エクセル統計」⇒「基本統計量」⇒「数量データ 度数分布」で以下のダイアログボックスを表示させます。
データ入力範囲には消費支出のデータが入力されているB1からB50までをマウスで指定してください。
「OK」を押します。
これで以下のような結果が出力されます。
これでできあがり
エクセル統計では等間隔の階級設定を自動的に行えます。このためには最小値と間隔を設定していきます。
先ほどの結果で最小値は237400と得られています。そこで最小値を230000、間隔を20000として作成してみます。
再度エクセル統計で度数分布のダイアログボックスを出力させます。
データ入力範囲には先ほどと同様に消費支出のデータが入力されているB1からB50までをマウスで指定してください。
次に階級設定を押し、等間隔にチェックをします。
最小値には230000、間隔には20000と入力します。
OKを押します。
これでできあがり
ヒストグラムはデータの分布をよく表す階級幅を設定すればよいグラフが作成できます。試行錯誤してよいグラフが作成できるようにしてください。
累積相対曲線については階級値を横軸、累積相対度数を縦軸にした線付きの散布図を作成しましょう。またX=0,Y=0を通る必要があります。3行目に1行挿入し、A列とD列に「0」と入力しましょう。
表1は、アメリカにおける5分位階級別の所得のシェア(%)を全世帯(1980,94年)、白人世帯(94年)黒人世帯(94年)について示しています。5分位階級別とは、すべての世帯を所得の低い方から20ずつ、5つのグループに分けることを意味します。
@1980年と94年の全世帯に関するジニ係数を求めなさい。
A1980年と94年の全世帯のローレンツ曲線を描きなさい。
B1980年と94年を比較して所得格差はどのように変化していますか?簡単にまとめなさい。
ジニ係数の計算ややローレンツ曲線を作成するためには、各階級の世帯比率、累積世帯比率、所得比率、累積所得比率を計算する必要があります。
世帯比率と累積世帯比率の計算
B列に2列挿入し、1行目のタイトル欄に「世帯比率」、「累積世帯比率」と入力します。
5分位階級とは世帯を5分割した階級をいいます。よって各階級の世帯比率は全体の1を5等分した
1÷5=0.2
より0.2となります。よってB列にはすべて0.2と入力します。セル「B2」に0.2と入力し、B2をコピーして他のB列に貼り付けます。また
累積世帯比率=それまでの累積世帯比率+世帯比率
を計算していきます。
そこでセルC2には
=B2
と入力し、C3には
=C2+B3
と入力します。この関数が入力されているC3をコピーし、C4からC6まで貼り付ければ累積世帯比率が計算できます。
ジニ係数の計算
次にジニ係数の計算を行います。まずは1980年全世帯の右側に3列挿入し、1行目に「累積所得比率」「累積所得比率の和」「ジニ計算」と入力します。
最初に世帯比率で計算した方法と同様にして累積所得比率を計算しましょう。セルE2には
=D2
と入力し、E3には
=D3+E2
と入力します。この関数が入力されているC3をコピーし、E4からE6まで貼り付ければ累積世帯比率が計算できます。
ジニ係数は
で定義されます。ここで
は累積世帯比率
は累積所得比率
を表しています。
この計算を以下の順序で行います。
(a)は累積世帯比率の差ですから、世帯比率を意味しています。これはB列に入力されています。
(b)は累積所得比率の和ですから、セルF2には
=E2
と入力し、セルF3には
=E3+E2
と入力します。さらに、F3をコピーし、F4からF6まで貼り付けを行います。
(c)世帯比率がB列、累積所得比率の和がE列に入力されていておのおのの積を求めていきます。セルF2に
=B2*D2
と入力し、F2の関数をF3からF6まで貼り付けを行います。
(d)最後に和を求め、1から引くことによりジニ係数が計算できます。ジニ計算となっているF列の下のセル「G7」にSUM関数
を用いて和を計算します。
また「G8」には1からG7を引きます。
これによりジニ係数が0.342と得られました。
1994年も同様に作成してください。以下が作成例です。
これによりジニ係数が0.394と得られました。
ローレンツ曲線を作成する場合は横軸(X)に累積世帯比率、縦軸(Y)に累積所得比率とする線付の散布図を作成します。また完全平等線も同時に出力する必要があります。
また原点を通るようにするため、2行目にすべて0と入力しておきます。
まず1980年のローレンツ曲線を出力します。
でグラフウィザードを表示させます。散布図のうち、折れ線でつないだ散布図を選択し、「次へ」を押します。
「系列」を押して追加ボタンを押します。
Xの値には累積世帯比率を入力するため、マウスでC2からC7を指定します。
Yの値には累積所得比率を入力するため、マウスでC2からC7を指定します。
名前には1980年と入力しておきましょう。
さらに1994年のローレンツ曲線を出力させます。
「追加」ボタンを押してXの値には累積世帯比率のあるC列、Yの値には1994年の累積所得比率のあるI列を指定し、名前には1994年と入力しましょう。
次に完全平等線を出力させます。
「追加」ボタンを押してXの値には累積世帯比率のあるC列、Yの値にも累積世帯比率のあるC列を指定します。
次へを押します。
グラフタイトルや数値軸名を入力します。ここでは以下のようにしました。
グラフタイトル | 1980年と1994年のローレンツ曲線 |
X数値軸 | 累積世帯比率 |
Y数値軸 | 累積所得比率 |
完了を押せば出来上がりです。
ローレンツ曲線を完成させるためには以下の点に留意して作成する必要があります。
比率は0から1までなので数値軸、項目軸のメモリを0から1までとすること
2つのローレンツ曲線は違いがわかるように線の色、線種を変えて表示させること
完全平等線は補助的な線なので点線などに変更すること
以下が完成例です。本授業ではこの形で作成してください。
B ローレンツ曲線は所得格差を表した曲線です。完全平等線から離れればそれだけ所得の格差が大きいことを表しています。またジニ係数は完全平等線とローレンツ曲線との間の面積を表しています。よってジニ係数が大きければローレンツ曲線は完全平等線よりも離れてしまうのでそれだけ所得格差が大きいと考えることができます。
例題1ではそれぞれの年代のジニ係数は
1980年 | 0.342 |
1994年 | 0.394 |
と得られました。よって1994年の方がジニ係数が高いことから所得の不平等化が進展していると結論付けられます。
1980年に比べ、1994年の方がジニ係数が高いため(1980年;0.342、1994年;0.394)、所得分配の不平等化が進展している。
表2は、わが国の年間収入階級別データ(全世帯:1995年)で、その階級に含まれる世帯数と平均年間収入が示されています。
@
階級別の相対度数、累積相対度数を計算しなさい。
A
年間収入について,ローレンツ曲線を描きなさい。
B
ジニ係数を求めなさい.
相対度数、累積相対度数は以下の計算により求められます。
相対度数=階級の度数÷全度数
累積相対度数=それまでの累積相対度数+その階級の相対度数
まずは相対度数と累積相対度数を出力させて見ます。
集計世帯数の右に2列挿入し、タイトル欄の2行目に「相対度数」、「累積相対度数」と入力してみます。
集計世帯数の下のセルD21にSUM関数を用いて合計を計算します。
これで相対度数を計算する場合の全度数がD21に出力されました。これを用いて各相対度数を計算していきます。
0〜200万未満の階級の相対度数を出力するセル「E3」に
=D3/D$21
と入力します。ここで$は絶対参照のため必ずつけてください。
E3をコピーし、E列の残りのセルにコピーしていきます。これで相対度数が計算できました。
次に累積相対度数を計算していきます。
最初のセル「F3」には
=E3
と入力しておきます。次の「F4」には
=F3+E4
と入力します。ここで作成したF4の関数をコピーし、残りのF列のセルに貼り付けていきます。
これで累積相対度数が計算できました。
@で計算した相対度数が世帯比率、累積相対度数が累積世帯比率です。
次に所得比率を計算しましょう。
まず各階級の所得合計を計算します。年間収入の右側に「所得合計」、「所得比率」、「累積所得比率」と入力します。
所得合計=その階級の年間収入×階級の度数
ですからセル「H3」に
=G3*D3
と入力します。
H3をコピーし、残りのH列のセルに貼り付けます。
最後にSUM関数を用いて合計を「H21」に出力させます。
先ほどの相対度数と同様、所得比率を
所得比率=階級の所得合計÷全所得
で計算していきます。
0〜200万未満の階級の所得比率を出力するセル「I3」に
=H3/H$21
と入力します。ここで$は絶対参照のため必ずつけてください。
I3をコピーし、I列の残りのセルにコピーしていきます。これで所得比率が計算できました。
次に累積相対度数を計算していきます。
最初のセル「J3」には
=I3
と入力しておきます。次の「J4」には
=J3+I4
と入力します。ここで作成したJ4の関数をコピーし、残りのJ列のセルに貼り付けていきます。
これで累積世帯比率、累積所得比率が計算できました。これにより散布図でローレンツ曲線と完全平等線を例題1と同じ方法で作成します。なお、2曲線を作成するに当たってはX、Yを以下のように設定します。
Xの値 | Yの値 | |
ローレンツ曲線 | F列 | J列 |
完全平等線 | F列 | F列 |
例題1における注意点を参考に以下のグラフを作成してください。
ジニ係数に関しても例題1と同様に計算してみましょう。以下に出力例を参考にしてください。
これよりジニ係数は0.2995と得られました。
表4は2000年における都道府県産業別就業者のデータである。度数分布表を作成し、ヒストグラムを作成しなさい。なお、ヒストグラムの作成にあたっては分布がよくわかるよう階級の設定を調整してください。
例題1について以下の問いに答えなさい。
1)
1994年における白人世帯と黒人世帯に関するジニ係数を求めなさい。
2)
1994年における白人世帯と黒人世帯のローレンツ曲線を描きなさい。
3)
白人世帯と黒人世帯を比較して所得格差はどのような違いがありますか?簡単にまとめなさい。
表5は、わが国の年間収入階級別データ(全世帯:平成12年)で、その階級に含まれる世帯数と平均年間収入が示されています。また、表6は、貯蓄現在高階級別データ(全世帯:平成12年)であり、同様にその世帯数と平均貯蓄現在高が示されています。
@
階級別の相対度数、累積相対度数をそれぞれ計算しなさい。
A
年間収入と貯蓄現在高について,それぞれローレンツ曲線を描きなさい。
B
それぞれジニ係数を求めなさい。
C
例題3と比較して所得格差はどのように変化しているのか、理由とともに答えなさい。
D
収入の格差と貯蓄の格差ではどのような違いがあるのかをまとめなさい。
ジニ係数は格差の大きさを表しています。ジニ係数が大きくなればなるほど格差が大きくなっていることを表しています。
Cは1995年と比較してジニ係数がどうなっているのか?それによって格差はどのように変化したかをまとめましょう。
Dは収入と貯蓄ではどちらの格差が大きいのかをまとめましょう。さらにそれにより生活するうえでどのような影響を及ぼすのか自分の考えをまとめられればさらによいと思います。