N人の生徒がいて、数学、国語の試験の得点が
だとしましょう。このとき、数学と国語の相関係数rは次で計算されるのでした。
分母は数学の標準偏差と国語の標準偏差の積。分子は数学と国語の共分散です。このr、一体何を意味しているのでしょうか。一応、高校の授業では「数学がいい成績であるほど国語がよければrは1に近くなり、あまり関係がないなら0に近く、数学がよい生徒ほど国語が悪い傾向があれば-1に近い」みたいな話をされます。また、-1≦r≦1であることも説明されます。しかし、どれもきちんとした理由は示されていないはずです。数学Ⅰの知識だけでは説明できないのです。
とおきましょう。この2本は3次元空間内のベクトルです。ここではN=3としておきました。つまり3人分のデータがあるということです。
の2本のベクトルの長さ自体を直接比較しても意味がありません。これらはそもそも数学、国語の得点であって、平均点だって恐らく異なるからです。しかし、3次元空間の中で2本のベクトルのなす角θが小さければ「数学がよい生徒は国語もよい傾向がある」と言ってよいでしょう。あるいは、cosθが1に近ければ数学、国語は似た傾向にあるということです。
先ほど書いた相関係数rは、ベクトルを使って表現すれば下のようになることが分かると思います。
こうしてr=cosθ が分かりました。つまり、相関係数とは2本のベクトルのなす角のコサインだったわけです。最後のイコールは内積の(高校の)定義です。-1≦r≦1も当たり前、ということになります。
しかし、これは3次元までの話。生徒が4人なら4次元の空間、5人なら5次元空間で考えなければなりません。そのとき単純に類推みたいなことをしていいのか分かりませんが、自然な発想という気はするし、まあよしとしましょう。