★SPSSで重回帰分析を行う

 重回帰分析は、@従属変数を予測するための式を作る A従属変数との関係が強い独立変数群を探す ときに使われます。

 例えば、ある店の売り上げがあったとします。その額は、いろいろな要因によって変動するはずです。

 要因をいくつか挙げてみると、
  1.店の立地条件
  2.品揃え
  3.店員の接客態度
  4.周囲の人口
  5.店の規模      etc.
 これらの要因から売上額を推定する式をたてるのが重回帰分析です。
 重回帰分析で導かれる式は、次のようになります。

   y=a+b1x1+b2x2+b3x3+…+bnxn

 上の例をふまえて書き直すとこうなります。

 売上額=定数+立地条件の重み×立地条件+品揃えの重み×品揃え+…+店の規模の重み×店の規・ヘ

 重みとはいったい何でしょう?簡単に言うと、どれくらい重視するかの目安です。立地条件が売上額に大きく影響しているなら、その重みは大きくなります。

 仮に、重みをつけて式を書き直してみます。

 売上額=定数+(−1000)×立地条件3000×品揃え1500×接客態度1800×人口2500×規模

 ある店が、立地条件…駅から徒歩10分 品揃え…50種類 接客態度…良(ここでは便宜的に3点とする) 人口…250世帯 規模…400u
 という要因を持っていたとすると、その店の売上額は次のようになります。

 売上額=定数+(−1000)×103000×501500×31800×2502500×400
 →売上額=定数+1594500

 定数は、想定した要因以外の要因からなる数値です。定数が1000000なら、この店の売上額は2594500円となります。
 もし定数・品揃え・接客態度・人口・規模が全く同じで、立地条件が駅から徒歩5分の店があれば、売上額は2599500円となります。

 この重みのことを偏回帰係数と呼びます。非標準化係数とも言います。
 もし偏回帰係数の数が一つしかなければどうなるでしょう?もちろん式は次のようになります。

   y=a+bx

 これは単純な回帰直線の式になります。

 

 では、これからSPSSを使った手順の説明に移ります。

 

 以下のようなデータがあったとします。

給料(円) 勤続年数(年) 仕事量(個/時) 欠勤日数(日) 特殊免許
1 213000 8 261 2 1
2 192000 5 188 4 0
3 199000 7 167 2 0
4 241000 13 244 0 0
5 175000 2 122 6 0
6 220000 10 238 2 0
7 208000 4 253 1 1
8 184000 3 196 2 0
9 203000 7 201 5 0
10 245000 12 278 0 1
11 188000 6 166 8 0
12 216000 10 256 7 0
13 200000 6 193 3 1
14 173000 1 132 1 0
15 187000 3 170 2 0
16 191000 3 181 1 1
17 219000 9 240 1 1
18 189000 2 194 8 1
19 236000 11 255 0 1
20 179000 1 143 0 1

 

 

 

 

 

 

 これはある工場の従業員の給料と、従業員の属性です。
 これを重回帰・ェ析にかけ、給料を予測する式を得ようと思います。
 架空のデータなので、細かいことはあんまり気にしてはいけません。


 

 これをSPSSの分析にかけます。

 

 

 

 

 

 分析”→“回帰”→“線型を選択します。


 

 

 

 この場合yにあたるものは給料です。
 上の従属変数には「給料」を入れます。
 
 「勤続年数」「仕事量」「欠勤」「免許」は、
 「給料」を説明する変数なので、独立変数に入れます。
 
 次に方法を選択するのですが、目的により使い分けます。
 
 強制投入法…独立変数を全て使って式をたてる
 ステップワイズ法…独立変数を徐々に増やして式をたてる 
 
 独立変数が確定している場合は強制投入法を、
 独立変数が未確定ならステップワイズ法を使ってください。
 もちろん他の方法を用いても構いません。
 ここではステップワイズ法を用いたとして話を進めます。


 

 次に“統計”をクリックします。

 

 

 

 

 ここでは“共線性の診断”にチェックを入れます。
 共線性については後で説明します。
 “続行”をクリックしてください。


 

 次は“オプション”です。

 

 

 

 ステップワイズ法では、独立変数を徐々に加えて最適な式を導き出すものです。
 その変数の加え方をここでは設定しますが、初期の設定でとりあえずは大丈夫です。
 分析をしたら独立変数が一つになってしまった、などのときにこれらの条件を緩和してください。
 どうしても駄目なら、ステップワイズ法を諦め、強制投入法などを使って・ュださい。
 “続行”をクリックしてください。


 

 これで準備が整ったので、“OK”をクリックします。

 結果の見方を解説します。

 

 

 

まずこんな表が出力されます。
ここでは、
モデル1…給料を説明するのに勤続年数だけを使ったモデル
モデル2…給料を説明するのに勤続年数と特殊免許を使ったモデル
モデル3…給料を説明するのに勤続年数と特殊免許と仕事量を使ったモデル
モデル4…給料を説明するのに勤続年数と特殊免許と仕事量と欠勤回数を使ったモデル
ということです。
通常は一番下にあるモデルを使います。この場合、モデル4を採用することになります。
このデータの場合、全ての独立変数が給料にかかわるという結果になっています。

元のデータによっては、全ての変数が投入されないこともあります。
強制投入法では、有無を言わさず全ての変数を投入します。


 

 

次にこの表です。前述したとおり、モデル4以外は無視しても構いません。
この表で重要なのはR2乗です。これを重決定係数と言います。
これはモデルのあてはまりの良さを示します。
重決定係数が良い値かそうでないかは、次の分散分析表を見なければなりません。


 

 

 

 

これも例によってモデル4だけを見れば大丈夫です。
この表によると、有意確率は.000ですから、
この分析によって得られた式は非常にあてはまりが良いと言えます。


 

 

結果のメインがこの表です。
これもモデル4に注目します。

青い枠内が、式となります。すなわち、
給料=154458.444(定数)
    +4055.461×勤続年数
    +4883.696×特・齧ニ許
    +116.884×仕事量
    +(−919.920)×欠勤回数
になります。ということは、勤続5年、特殊免許なし、
仕事量200個/時、欠勤回数1回の従業員は、
154458.444+2077.305+0+23376.8-919.920
=178992.629円が給料の期待値となります。


 

 偏回帰係数はわかりましたが、係数の大きさは単純に比較することはできません。
 つまり特殊免許の係数と仕事量の係数を比較して、特殊免許の方が比重が大きいとは言えないのです。なぜなら単位が違うからです。
 特殊免許は有るか無いか、つまり1か0かです。一方仕事量は大体150〜250という数値です。
 では実際、特殊免許と仕事量では、どちらが給料に占める割合が大きくなっているのでしょう?そこで緑の枠をみてください。
 これは標準化係数(β、または標準偏回帰係数)といって、標準得点に直したものです。つまり同じものさしで測っているわけです。
 表から、特殊免許の標準化係数βは0.116、仕事量の標準化係数は0.254ですから、仕事量のウエイトは特殊免許よりも大きくなっています。

 

 次は除去された変数という表がありますが、これは無視して構いません。

 最後に、共線性の表を見ます。

 

 

共線性とは、独立変数間に相関があることを言います。
要因同士に相関があると、いろいろ問題が起きます。
予測式が狂う可能性を秘めていることになります。

共線性の診断では、条件指標にまず注目します。
これの大きいところに共線性の可能性があります。
条件指標が大きいところを見つけたら、横を見ます。
この表の場合、勤続年数と仕事量の値が高いです。
つまり、勤続年数と仕事量は相関していると言えます。


 

 共線性が見つかったら、その変数を除去するなどしてから、もう一度分析をしたり、相関行列に切り替えたりといった対処をしてください。

 

 

 これで重回帰分析の解説を終わります。

 

 戻る