テストや質問紙を作る上で、この妥当性と信頼性をはずすことはできません。 妥当性は大まかに三つ種類があります。信頼性は、古典的テスト理論では算出のしかたが四種類あります。
テストや質問紙に用いられている課題や質問内容が、自分の調べたいことを含んでいるか、というものです。
例えば、国語の学力を測りたいときに、課題として計算問題や図形問題を出すのは、まったくナンセンスなわけです。
これはつまり、課題内容が内容的妥当性を持っていないため、ナンセンスであると言えるのです。
この内容的妥当性は、例にも示した通り、学力試験を作る上で非常に重要になってきます。
テストの得点を見て絶対評価をする場合、内容的妥当性が高いことが不可欠となります。
自分の作成したテストや質問紙と、そのテストに関連のあるテストや質問紙(これらのテストや質問紙を「外的基準」と呼びます)と相関するかのことです。 つまり、自分のテストの得点と、外的基準のテストの得点との間の相関が高ければ、この基準連関妥当性が高いと言えます。 もし相関係数を出した場合、その数値は妥当性係数と呼ばれ、またそのとき、妥当性を経験的妥当性とか統計的妥当性と呼びます。
外的基準と比較するときに、既存の外的基準と照らし合わせた場合、基準連関妥当性は特に、併存的妥当性といいます。 例えば、不安を測る質問紙を新しく作った場合に、既にある不安尺度を測る質問紙との相関は、併存的妥当性です。 このとき注意しなければならないことは、妥当性係数が非常に大きくなってしまった場合です。 この場合は新しく質問紙を作る意味がなくなってしまいます。なぜなら既存の質問紙を使えば同じことがわかるからです。
また、既存の外的基準ではなく、未来に作られるであろう外的基準と照らし合わせた場合、これを予測的妥当性といいます。
例えば、職業適性テストを作ったとします。すると当然、何年か後にその適性テストが正確だったか、ということがわかります。
適性テストで“あなたは教師向きです”と診断された人が、実際教師をやっているか別の仕事についているかは調べればすぐわかります。
適性テストと実際の進路がよく一致していれば、これは予測的妥当性の高い良いテストだ、と言えます。
これは因子的妥当性とも呼ばれます。
テストや質問紙を作るとき、闇雲に作るわけではありません。何らかの要因を考えつつ作ります。
つまり、因子が存在することを念頭においてテストや質問紙を作るわけです。
全体的に見て、個々の因子を組み合わせたとき、テストや質問紙全体が意図するものを測っているかどうかに関する妥当性です。
例えば総合的な学力を測る試験を作るとします。このとき考えられる因子は、文系的学力と理系的学力が考えられます。
逆に考えたとき、文系的学力と理系的学力を測るテストをまとめたら、総合的学力を測ることに他なりません(ここではそういうことにしておきます)。
この場合、このテストは構成概念妥当性がある、といえるでしょう。
信頼性とは、そのテストが信頼できるか、という指標のことです。しかしこれでは説明にならないので、信頼性をもう少し分解してみましょう。
信頼性の目安となるものは、大きく分けて二つです。
@同一個人に同一の条件で同一のテストを行った場合、同一の結果が出るかどうか…安定性
A同一個人が同じような(同一の、ではない)質問に対して、同じような答えをするか…一貫性(あるいは等質性)
この二つの視点から信頼性を測る方法を述べていきます。
信頼性は、数値の形であらわすことができます。これを信頼性係数ρ(ローと読みます)と呼びます。
ρは0から1までの値をとり、1に近いほど信頼性が高くなります。
安定性に関する信頼性を主に追求する方法です。
その名の通り、同一の被験者に期間を空けて同一のテストをさせ、一回目と二回目のテスト結果を比較するものです。
一回目と二回目のテスト結果がよく一致すれば、安定性が高い、ということになります。
しかし、この方法にはいくつかの問題点があります。
まず、同じテストを二回やるということで、以前の記憶が二回目の回答に影響するおそれがあります。
次に、期間を空けたことにより、その人の中で何か変化が起きたとしたら、当然回答のパターンは前回とは違ってきます。
つまり、再テスト法ではどれくらい期間を空ければよいのか、というジレンマが生じます。
期間を空けずに実施すれば、その人の中での変化は小さいでしょうが、記憶の影響を受けやすくなります。
期間をおいて実施すれば、記憶の影響は小さくなりますが、その人の中で変化が起きている可能性は高くなります。
再テスト法におけるρは、一回目のテストと二回目のテストの相関係数です。記号で表現すると以下のようになります。
ρ=r
安定性に関する信頼性を主に追及する方法です。
再テスト法では同一のテストを二回させることに問題がありました。
そこで、平行テスト法では、二つのテストを同一人物に行い、この二つのテストの一致度を見ます。
二つのテストは、質問や課題の難易度・質・量が同等なものを用います。
つまり、表面的には違っていますが、やってることは同じテストということです。
やってることは同じなのですから、理論的にはこの二つのテストは一致します。
しかし、やっぱりこの方法にも欠陥があります。
平行テスト法では、二つのテストが等質であることが絶対条件です。
ところが、二つのテストが似ているというのは主観的な判断でしかないので、客観的な基準はありません。
二つのテストが絶対に等質かどうか誰が決定しますか?
つまり、二つのテストが等質かどうかは永遠の謎なのです。
平行テスト法におけるρは、二つのテストの相関係数です。記号で表現すると以下のようになります。
ρ=r
どちらかというと、一貫性に関する信頼性を主に追及する方法です。
再テスト法も平行テスト法も、同一被験者に少なくとも二回の実施を必要とします。そのため、負担や厳密性が損なわれるおそれがあります。
折半法は一度のテストで信頼性を決定しようとするものです。
平行テスト法では、等質(“?”付きですが)なテストを二回実施する試みでしたが、折半法は一つのテストを等質にわけてしまおう、とする試みです。
すなわち、一つのテストを半分にします。そのとき、半分同士が似通った質のものになるようにします。
被験者には何食わぬ顔でテストをしてもらい、回答を得た後、あらかじめ決めてあった方法に従って、テストを半分に分割するのです。
いわば、平行テスト法の変形です。回答を得た一つのテストを二つに分け、あたかも二回実施したかのように見せかけるわけです。
しかし、これも重大な欠陥が潜んでいます。
平行テスト法と同じように、二つに分けた段階で、その分け方は本当に正しい分け方なのでしょうか?
半分同士が等質だと誰が決定しますか?平行テスト法と同じ壁にぶつかることになります。
折半法におけるρは、二つに分けたもの同士の相関係数です。
ρ=2r/(1+r)
この公式のことをスピアマン-ブラウンの公式といいます。
一貫性による信頼性を追及する方法です。信頼性を出すときにもっともよく用いられます。
折半法は一つのテストを二つに分けて、その間の相関を見る方法でしたが、二つに分けるやり方によって相関は異なってきます。
そこで、全ての分け方についてρを出し(スピアマン-ブラウンの公式で)、それを平均しようというものがこれです。
こうして得られる値を、とくにクロンバックのα係数と言います。
SPSSでは、コマンドを指定すれば、すぐに信頼性を計算してくれます。Excelではコマンドがないので式を入れなければなりません。
しかしながら、式自体は非常に単純ですので、Excelで十分出すことが可能です。
α=項目数/(項目数-1)×(1-(各項目の分散の合計/合計点の分散)
言葉で説明してもよくわからないと思うので、Excelの画面で説明しましょう。
項目数は10です。
各項目の分散の合計は17.5です。
合計点の分散は69.5です。
式にあてはめると、次のようになります。
10/(10-1)×(1-(17.5/69.5))
結果はα=0.83でした。
α係数の目安は0.80以上です。
0.90を超えれば、かなりの信頼性と言えます。
式から見て分かる通り、α係数を高くするには、
@合計点の分散を大きくする(=被験者の回答が、被験者同士バラバラになる)
A各項目の分散の合計を小さくする(=ある項目に関して、被験者全員が同じような回答をする)
B項目数を増やす
これらの方法があります。@とAは矛盾しますが、これの意味することは、弁別性と問題の等質性に他なりません。
αを高めるにはBがもっとも簡単でしょう。問題数が増えれば、自然にαは高くなります。
αの予想値から判断すると、50問あれば、相応にαの値が得られるでしょう。