ちょっと背伸びしたい頃は誰にでもあることだ。私はいまだにその頃から抜け出せていない。平均値は次のように定義される統計学では代表値と呼ばれる、データを説明するための量の一種である。
ここから、平均値というのは個の値を「平らに均す」ようにして定義される値であるとわかる。具体的には次の定理が成り立つ。
自明であるが、よく使うので気に留めておいた方が良いだろう。別に気に留める必要もないかもしれないが。さて、平均値とは異なる代表値として中央値という量を考える。
ちょっとわかりにくいので、例を提示する。
データに対して、この中央値は小さい順に左から並べた
の中央に位置する
である
データに対して、この中央値は小さい順に左から並べた
の中央の二数
の平均値
である
このように、ちょうど中央にくる値が、データ数が偶数だと存在しないので、データ数の偶奇で場合分けした定義がされている。
この二つをうま〜く特徴づけしたい。平均値はともかく、中央値はうまくいかなさそうだが
次のような問題を考えてみよう。
二乗誤差と絶対誤差という単語が新しく出てきたが、別段難しい概念ではない。二乗誤差、絶対誤差はのような元となるデータからどれくらいある一つの値が総合してズレているかを表す量である。
このような問題を考えたのはデータをうまく表現する量を求めたかったからである。たとえばデータとしてがあったとしてそれらから遠く離れた
になんの意味があるだろうか。
総合的に見てデータの値に近いような値こそデータをうまく表現するのに相応しいだろう。それが二乗誤差と絶対誤差を最小にするような数を求めたい理由である。
さて、問題について考えよう。最小値を求めたい時には微分を使うというのが鉄板であるが、絶対誤差は見るからにカクカクしていて、微分はできなさそうである。
二乗誤差ならおそらく最小にする数が求められるので、求めてみよう。
なるほど。証明を見ると個のデータに延長しても二乗誤差を最小にするような値は平均値に一致しそうである。絶対誤差の方はどうだろうか。絶対値を外せば結局一次関数の最大最小の問題なので、素直に大小関係を定めてやれば良さそうだが面倒臭い!!
しかし、やりたくないことでも積み立てていくのが数学である。やらざるを得ないか
と置く。式の対称性によって
と仮定しても一般性を失わない。ここで
の位置で関数を場合分けする。
のとき、
と絶対値を外せる。この時、
を最小にする
の値は
である。
のとき、
と定数関数になる。
のとき、
でありこのとき
を最小にする
の値は
である
これらを統合すると、で
は最小値をとる
区間の中からあえて一つの値に限定するとなれば、まあ中点を選ぶだろう。よってを代表するのは
であると言える。あくまでもこれは恣意的な判断のもとに選ばれた値であることに注意する。だが、こうすると以降の議論がうまくいく。
続いて、上で行った議論を一般化した定理を示す。これによって平均値、中央値の特徴づけがなされる。
の方が簡単なのでこちらから処理していく。
と導関数が求められるので、
を満たすような
を求めると、これは
であることがわかる。
は下に凸な二次関数なので、
であることが従う。
について考える。考えているデータについて、
という不等式が成り立っていると仮定しても対称性により一般性を失わない。
データ数の時には当然
が求める値なので
のもとで解いていく。
の位置によって
がどのような関数になるか追っていく。
のとき、
が導ける。これは傾きが負の一次関数なので、区間
の最小を取るのは
のとき。
をとる。
を満たすとき、
の最小値について検証する。傾きによって場合わけをするべきである。すると
の三通りの場合がある。
のとき、
は小さくなり続けるので、区間
内では
が最小値を取る。
のとき、
は定数になり、
で
は最小値。
のとき、
は大きくなり続けるので、区間
内では
が最小値を取る。
上の三つの事実を合わせて結論を導く。傾きが負の区間で最小値を取るのはを満たす最大の
に対して
である。傾きが正の区間で最小値を取るのは
を満たす最小の
に対して
である。
ここで、どうやらデータ数の偶奇で場合わけした方が良いことに気づく。
を整数として
とかけるとき、
は
で単調に減少し、
で定数関数であり、
で単調増加である。よって
で最小値を取り続ける。この区間の中点は
であり、これは中央値の定義と一致する。
を整数として
とかけるとき、
は
で単調減少、
で単調増加である。よって
で最小値を取るが、これはまた中央値の定義に一致する
︎
つまり二乗誤差を一番小さくするのが平均値、絶対誤差を一般に一番小さくするのが中央値だとわかった。ここで、新しく分散というものを定義する。
この分散というやつに関しては今回深入りはしないが、値のばらつきであると思ってもらって構わない。このように分散と標準偏差を定義したことで次の不等式がコンパクトにまとめられる。
データ数のデータの平均値を
、中央値を
とおき、標準偏差を
とおく。この時
データをと表す。
上で示した定理から絶対誤差を最小にするのは中央値であるのでを
で置き換えると否応なくその値は大きくなる。
よって最右辺はで抑えられる。この時、次の事実を認めてください。お願いします。
この定理を認めると、をうまいこと抑えられる。
とおいてコーシーシュワルツの不等式を用いると、
ここで両辺非負なので、正の平方をとっても順序は保たれる。よってそうする。
この不等式をに適用する。
右辺はそのまま標準偏差の定義になっているのでとかける。よって不等式が示せた
標準偏差の意味がわからないとこの不等式の示す意味もわからないが、単純にいうと、平均値と中央値が離れすぎることはないことを主張する不等式である。
この不等式が強力なのは普遍的に成立するということだ。どんなデータでも中央値と平均値は離れすぎることはない。まるで鎖で結ばれているかのように。