日曜日, 3月 08, 2009

納得感と説明方法(3月8日)

相関係数と回帰直線の関係についての質問をされ調べた。
「相関係数が1や-1に近ければ、その直線はデータをよく説明していると言える。」という表現がありもっともらしく感じた。
しかし、本来の相関係数や回帰直線の用途との関係としては少し意味合いが違ってくる。
相関係数は、「二つの変数の間の直線的な関係の強さの程度を数量的に表したもの」である。
回帰直線は、「二つの変数の関係を式で表した」際に求められる直線である。
その関係をひとことで表すことは難しい。
アナリスト試験で言えば、相関係数は
2つの変数で表されるデータの一方の変数の平均から直線を経由したあるデータまでの距離の2乗に占める、平均から直線までと直線からデータまでのそれぞれの距離の2乗うち、直線から平均までの2乗の割合(1-直線からデータまでの距離の2乗の割合)
となると思う。(一つの距離を2つに分け、分けたものを2乗しているので、内訳という表現は正しくないかもしれない)
公式的には、
回帰直線の傾きは、相関係数にy軸の標準偏差をx軸の標準偏差で割ったものをかけ合わせたもの
となっていた。
公式の意味を考えると、
xとyの変数をそれぞれの標準偏差で標準化した場合の傾きが相関係数になっている
というようにも見えた。
しかし、両方の解釈とも、ある距離を2種類に分け、分けたものを2乗し、再度足し合わせ、元のある距離の2乗とイコールで結ぶ前提を取っているように見えた。
人に説明する場合は、そういった前提であることまでは説明しづらい。
証明に納得いかない部分があるが、流れを暗記するか、確かな資料を元に説明をしなければいけない。

0 コメント: