学長室だより

統計数理研究所との連携協定、林知己夫先生の"数量化" その2

統計数理研究所との連携協定、林知己夫先生の"数量化" その2

前回記しましたように、相関係数というのは、データの状態を記述するだけのものなので、記述統計の範囲ですが、それを、例えば、前回の図のBのような状態の時に、この0.61という相関が、確かに意味のあるものかどうなのか、言い換えれば、この2変数の関係は、相関が0ではなく、確かに何か意味のある相関があると言いたいとなると(この誘惑は強いものです...)、推測統計の世界に足を踏み出すことになります。これは、相関係数の有意性の検定ということで、2変数間の相関が0という状態の時に、こうした状態(この場合、0.61という相関係数が得られるような事態)が生じる確率を計算することになります。そして、その確率が、100回のうち5回も起こらない稀なことだと計算されれば、この2つの変数間には何か意味のある相関があるのだと判断することになります。こうした計算過程に進む時に求められる前提条件が無作為のサンプリングということで、それがなされていなければ、こうした計算及び判断プロセスは無意味なこととなります。学校や教育の事象では、これが難しいというのは、前回の学長室だよりにも記しました。

前回記しましたように、私を救ってくれた林先生の"数量化Ⅰ類"は、そのデータ処理は簡単ではなく、パソコン等を使わなければ到底無理ですが、種類としては、記述統計とも言えます。私は、検定プロセスには入らずに論文を書きましたが、それで当時(30数年前)の学会誌に査読を通って掲載されました。また、前回少し触れた重回帰分析などの多変量解析も、検定に踏み込まなければ、記述統計として使うことのできるものだと思います。

今本学で進めているカリキュラム改訂の中では、データ・サイエンスの科目も立てることにしています。そこで、この記述統計を中心に、相関係数や多変量解析まで扱う8コマ程度で1単位の授業が構成できるのではないかと思い、シラバスを作り、カリキュラム改訂を担当している佐々木理事・副学長に見せましたが、残念ながら、お眼鏡にかなわず、ボツとなってしまいました(ちゃんと見たのかなぁ?、とも思っているのですが。内心...)、が、心を残しており、いつかどこかでリベンジしたいと思っています。

ちなみに、統計学には、数学以外の研究者・学者が多く関わっています。統計学が"応用"数学とされる所以だと思います。研究所でわれわれに対応してくださった椿広計所長は、工学者で理系の方でしたが、川崎能典副所長は経済学者でした。私が研究室に置いていた統計学のもっとも浩瀚(と思われる)な辞典、東洋経済の「統計学辞典」の編者代表の竹内啓氏も経済学者でした。多変量解析のひとつ、因子分析の開発には心理学者が多く関わっていますし、授業中の課題で、Fの表の見方がわからなくてオタオタしている学部生の私に、机間巡視しながら、悲しげな表情で見るべきところを指差しで教えてくれた東北大学の教育心理学講座にいらした繁桝算男先生は、ベイズ統計の第1人者でした。そう言えば、前回記した相関係数に名前のついているピアソンの師匠筋にあたるフランシス・ゴールトンは、実験心理学及び近代統計学の祖のひとりとされていますが、何学者と言っていいのかわからないような人でした。ご本人的には"優生学者"ということだと思いますが。このダーウィンの従弟にして、イギリスの高級陶器メーカー・ウェッジウッドにつながる、生涯を高等遊民として生きた不思議な奇人とも言えるゴールトンについては、また何かの折に記したいと思います。

統計数理研究所との連携協定、林知己夫先生の"数量化" その1

少し前となりますが、立川の統計数理研究所と、連携協定を結びました。本学からは、間をつないでくれた数学の西村圭一教授、佐々木幸寿理事・副学長と私が赴き、椿広計所長と川端能典副所長にご対応頂きました。

https://www.u-gakugei.ac.jp/pickup-news/2021/04/post-783.html

統計数理研究所には初めて行ったのですが、ああ、ここがかの統計数理研究所か...、という感慨がありました。統計数理研究所は、有名な研究者を数々輩出している世界的な研究所ですが、そうした先生方の中で、1970年代から80年代にかけて所長もお務めになった林知己夫先生には、特別な思いがありました。一面識もありませんが、林先生が開発された"数量化"という手法のおかげで、私は学位論文を書くことができたからです。

"数量化"は、相関という考え方をつかって、多くの変数間の関係を調べる統計手法である多変量解析のひとつです。

私の学位論文では、知的障害を有する人の平均台歩きや片足立ちといったバランス運動の成績が、年齢(生活年齢)、障害の程度を表すIQ、ダウン症や自閉症といった診断名、歩き始めの時期である始歩期というような変数でどのくらい説明されるか明らかにし、そして、それら変数の関与の大きさを比較する必要がありました。この変数の中には、診断名という数量データではないカテゴリー・データが含まれています。こうした場合、よく知られた多変量解析である重回帰分析などはうまくあてはまりません。この点で大分苦しみましたが、数量データとカテゴリー・データが混ざっていても、私が必要としたような分析を行い得るのが、林先生の開発した"数量化"のうちの"数量化Ⅰ類"というものでした。このやり方を知った時には、世界をつかんだような気がしました。"数量化Ⅰ類"での分析を糸口にして、学位論文のストーリーをつくり、まとめることができました。

最近、データ・サイエンスということが盛んに言われており、教育にもそうした考え方の導入を、ということで(何を今頃?とも思いますが)、いろいろなところで統計の簡単な紹介がなされていますが、検定論に多くのスペースが割かれているのを見るとどうかな、と思います。t検定や分散分析といった検定は、よく知られているものですが、これらは推測統計の範疇に入るもので、推測統計では確率計算をしますので、前提としてデータ抽出の手続きー無作為抽出を厳密に行うことが求められます。それが果たされていないとそこから先の分析は意味がありません。心理学はいざしらず、学校や教育の事象では、データを採れるところはそう多くありませんので、データの無作為抽出というのは、かなり困難な手続きです。私は、そうした事象には、無理に推測統計をあてはめず、記述統計を用いたらどうかと思います。記述統計は、代表値やグラフ表記の仕方程度のものと、軽んじられているようにも思いますが、相関係数まで使えば、手元にあるデータについての特徴をすっきりと言うのにかなり役に立つと思っています。ただし、データ抽出の手続きを踏んでいなければ、あくまで手元のデータの整理ということですので、一般的なことまでいうのには、それなりの、別の論理が必要となりますが。

相関係数というのは、2つの変数の相関の程度をあらわすもので、ピアソンの相関係数がよく知られています。これは、2つの変数の相関の程度をマイナス1からプラス1までの間で表します。実際を図によりながら説明しますと、下のAは、2つの変数間に相関がほとんどないというような状態で、データは全体にばらついています。この時の相関係数rは、ほとんど0です。Bの状態は、中程度の相関が2つの変数間にある状態で、データは右上がりにばらつきます。相関係数rは0.61です。2変数間の相関がもっと強いのがCで、相関係数rは0.88です。このように2変数間の相関が強くなると、相関係数は大きくなり、rが1という時には、データは一直線上に乗ります。符号は、相関が右上がりの場合プラス、右下がりの場合マイナスです。相関係数というのは、このように2つの変数の相関の状態を、ひとつの数値で表すことのできる便利なものです。一応、計算式を言いますと、2変数の共分散を、それぞれの変数の標準偏差の積で割るというものです、何のことかいな?という感じとは思いますが、excelでは、関数のひとつとして入っています(=correl(変数1,変数2))。下の図は、これでデータをシュミレーションしながら描いたものです。(この記事続く...)

20210715_a.jpg

20210715_b.jpg

20210715_c.jpg