数ならぬ

理学系のこと、特に数学について書きます。雑学的な知識もまとめていく所存。

平均値と中央値をカッコよく言い換えたい!

 ちょっと背伸びしたい頃は誰にでもあることだ。私はいまだにその頃から抜け出せていない。平均値は次のように定義される統計学では代表値と呼ばれる、データを説明するための量の一種である。

平均値の定義
データ数がnであるデータx_1,x_2,\cdots ,x_nに対して平均値は\bar{x}=\dfrac{\displaystyle\sum_{k=1}^n x_k}{n}と定義される量である

 ここから、平均値というのはn個の値を「平らに均す」ようにして定義される値であるとわかる。具体的には次の定理が成り立つ。

平均値に成り立つ等式
データ数がnであるデータx_1,x_2,\cdots ,x_nに対して平均値\bar{x}を定めると、n\bar{x}=\displaystyle\sum_{k=1}^n x_kが成り立つ

 自明であるが、よく使うので気に留めておいた方が良いだろう。別に気に留める必要もないかもしれないが。さて、平均値とは異なる代表値として中央値という量を考える。

中央値の定義
データ数がnであるデータx_1,x_2,\cdots ,x_nに対して中央値は、nが奇数であれば小さい順に左から並べた時の中央に位置する値、nが偶数であれば、小さい順に左から並べたときの中央にある二数の平均値と定義する

 ちょっとわかりにくいので、例を提示する。

中央値の例

データ7,5,6に対して、この中央値は小さい順に左から並べた5,6,7の中央に位置する6である

データ2,6,1,10に対して、この中央値は小さい順に左から並べた1,2,6,10の中央の二数2,6の平均値\dfrac{2+6}{2}=4である

 このように、ちょうど中央にくる値が、データ数が偶数だと存在しないので、データ数の偶奇で場合分けした定義がされている。

 この二つをうま〜く特徴づけしたい。平均値はともかく、中央値はうまくいかなさそうだが\cdots

 次のような問題を考えてみよう。

誤差の問題
二数a,bが存在する。このとき二乗誤差(t-a)^2+(t-b)^2を最小にするような数m_sと絶対誤差|t-a|+|t-b|を最小にするような数m_aを求めなさい

 二乗誤差と絶対誤差という単語が新しく出てきたが、別段難しい概念ではない。二乗誤差、絶対誤差はa,bのような元となるデータからどれくらいある一つの値が総合してズレているかを表す量である。

 このような問題を考えたのはデータをうまく表現する量を求めたかったからである。たとえばデータとして1,2,3があったとしてそれらから遠く離れた1000になんの意味があるだろうか。

 総合的に見てデータの値に近いような値こそデータをうまく表現するのに相応しいだろう。それが二乗誤差と絶対誤差を最小にするような数を求めたい理由である。

 

 さて、問題について考えよう。最小値を求めたい時には微分を使うというのが鉄板であるが、絶対誤差は見るからにカクカクしていて、微分はできなさそうである。

 二乗誤差ならおそらく最小にする数m_sが求められるので、求めてみよう。

m_sは平均値である!
m_s=\dfrac{a+b}{2}
Proof
f(t)=(t-a)^2+(t-b)^2とおいて、そのtによる導関数を求めるとf'(t)=2(t-a)+2(t-b)であり、これが0に一致するようなtは一次方程式を解くことで、\dfrac{a+b}{2}と導ける。これが最小値になっていることは、f(t)が下に凸な二次関数であることからわかる◽︎

 なるほど。証明を見るとn個のデータに延長しても二乗誤差を最小にするような値は平均値に一致しそうである。絶対誤差の方はどうだろうか。絶対値を外せば結局一次関数の最大最小の問題なので、素直に大小関係を定めてやれば良さそうだが面倒臭い!!

 しかし、やりたくないことでも積み立てていくのが数学である。やらざるを得ないか\cdots

m_a区間である!
m_a\in [a,b]
Proof

g(t)=|t-a|+|t-b|と置く。式の対称性によってa\leq bと仮定しても一般性を失わない。ここでtの位置で関数を場合分けする。t\leq aのとき、g(t)=a-t+b-t=a+b-2tと絶対値を外せる。この時、g(t)を最小にするtの値はaである。

a\leq t\leq bのとき、g(t)=b-t+t-a=b-aと定数関数になる。

b\leq tのとき、g(t)=2t-a-bでありこのときg(t)を最小にするtの値はbである

 これらを統合すると、a\leq t\leq bg(t)は最小値をとる ◽

 区間の中からあえて一つの値に限定するとなれば、まあ中点を選ぶだろう。よってm_aを代表するのは\dfrac{a+b}{2}であると言える。あくまでもこれは恣意的な判断のもとに選ばれた値であることに注意する。だが、こうすると以降の議論がうまくいく。

 続いて、上で行った議論を一般化した定理を示す。これによって平均値、中央値の特徴づけがなされる。

二乗誤差と絶対誤差を最小にする値
データ数nのデータx_1,x_2,x_3,\cdots ,x_nについて、

f(t)=\displaystyle\sum_{k=1}^n (t-x_k)^2

g(t)=\displaystyle\sum_{k=1}^n |t-x_k|

と定義する。このときf(t),g(t)に最小値を取らせるような区間の中点を各々m_s,m_aとおく。m_s=\dfrac{\displaystyle\sum_{k=1}^n x_k}{n}

m_a=中央値

が成り立つ

Proof

f(t)の方が簡単なのでこちらから処理していく。f'(t)=\displaystyle\sum_{k=1}^n 2(t-x_k)導関数が求められるので、f'(t)=0を満たすようなtを求めると、これは\dfrac{\displaystyle\sum_{k=1}^n x_k}{n}であることがわかる。f(t)は下に凸な二次関数なので、m_s=\dfrac{\displaystyle\sum_{k=1}^n x_k}{n}であることが従う。

 

g(t)について考える。考えているデータについて、x_1\leq x_2\leq x_3\leq\cdots\leq x_nという不等式が成り立っていると仮定しても対称性により一般性を失わない。

データ数1の時には当然x_1が求める値なのでn\ge 2のもとで解いていく。

tの位置によってg(t)がどのような関数になるか追っていく。t\leq x_1のとき、g(t)=\displaystyle\sum_{k=1}^n (x_k-t)=\sum_{k=1}^n x_k\hspace{1mm}-ntが導ける。これは傾きが負の一次関数なので、区間t\leq x_1の最小を取るのはt=x_1のとき。

1\leq i\leq n-1をとる。x_i\leq t\leq x_{i+1}を満たすとき、g(t)=\displaystyle\sum_{k=1}^n |t-x_k|

\displaystyle=\sum_{k=1}^i (t-x_k)+\sum_{k=i+1}^n (x_k-t)

\displaystyle=it+\sum_{k=1}^i -x_k\hspace{1mm}-(n-i)t+\sum_{k=i+1}^n x_k

\displaystyle=(2i-n)t+\sum_{k=1}^i -x_k\hspace{1mm}+\sum_{k=i+1}^n x_k

g(t)の最小値について検証する。傾きによって場合わけをするべきである。すると2i<n,2i=n,n<2iの三通りの場合がある。

2i<nのとき、g(t)は小さくなり続けるので、区間x_i\leq t\leq x_{i+1}内ではx_{i+1}が最小値を取る。

2i=nのとき、g(t)は定数になり、[x_i\leq t\leq x_{i+1}g(t)は最小値。

n<2iのとき、g(t)は大きくなり続けるので、区間x_i\leq t\leq x_{i+1}内ではx_iが最小値を取る。

上の三つの事実を合わせて結論を導く。傾きが負の区間で最小値を取るのはi<\dfrac{n}{2}を満たす最大のiに対してx_{i+1}である。傾きが正の区間で最小値を取るのは\dfrac{n}{2}<iを満たす最小のiに対してx_iである。

ここで、どうやらデータ数nの偶奇で場合わけした方が良いことに気づく。

mを整数としてn=2mとかけるとき、g(t)t\leq x_mで単調に減少し、x_m\leq t\leq x_{m+1}で定数関数であり、x_{m+1}\leq tで単調増加である。よってx_m\leq t\leq x_{m+1}で最小値を取り続ける。この区間の中点は\dfrac{x_m+x_{m+1}}{2}であり、これは中央値の定義と一致する。

mを整数としてn=2m+1とかけるとき、g(t)t\leq x_{m+1}で単調減少、x_{m+1}\leq tで単調増加である。よってx_{m+1}で最小値を取るが、これはまた中央値の定義に一致する◽

 つまり二乗誤差を一番小さくするのが平均値、絶対誤差を一般に一番小さくするのが中央値だとわかった。ここで、新しく分散というものを定義する。

分散、標準偏差の定義
データ数がnであるデータx_1,x_2,\cdots ,x_nに対して平均をbar{x}と定めるとき、分散を\sigma ^2=\dfrac{\displaystyle\sum_{k=1}^n \Big(x_k-\bar{x}\Big)^2}{n}と定義する。\sigmaは分散に平方根を取った時の正の値として定義し、これを標準偏差と呼ぶ

この分散というやつに関しては今回深入りはしないが、値のばらつきであると思ってもらって構わない。このように分散と標準偏差を定義したことで次の不等式がコンパクトにまとめられる。

平均値と中央値の不等式関係

データ数nのデータの平均値を\bar{x}、中央値をmとおき、標準偏差\sigmaとおく。この時

|m-\bar{x}|\leq\sigma

Proof

データをx_1,x_2,x_3,\cdots ,x_nと表す。|m-\bar{x}|\leq \Bigg|m-\dfrac{\displaystyle\sum_{k=1}^n x_k}{n}\Bigg|=\dfrac{\displaystyle\bigg|\sum_{k=1}^n (m-x_k)\bigg|}{n}

\leq \dfrac{\displaystyle\sum_{k=1}^n \bigg|m-x_k \bigg|}{n}

上で示した定理から絶対誤差を最小にするのは中央値であるのでm\bar{x}で置き換えると否応なくその値は大きくなる。

よって最右辺は\dfrac{\displaystyle\sum_{k=1}^n \bigg|\bar{x}-x_k \bigg|}{n}で抑えられる。この時、次の事実を認めてください。お願いします。

コーシー・シュワルツの不等式
\displaystyle (\sum_{k=1}^n a_k b_k)^2\leq (\sum_{k=1}^n {a_k}^2)(\sum_{k=1}^n {b_k}^2)

この定理を認めると、\dfrac{\displaystyle\sum_{k=1}^n \bigg|\bar{x}-x_k \bigg|}{n}をうまいこと抑えられる。a_k=|\bar{x}-x_k |,b_k=1とおいてコーシーシュワルツの不等式を用いると、

\displaystyle\bigg(\sum_{k=1}^n |x_k-\bar{x}|\bigg)^2\leq n\sum_{k=1}^n (x_k-\bar{x})^2

ここで両辺非負なので、正の平方をとっても順序は保たれる。よってそうする。

\displaystyle\sum_{k=1}^n |x_k-\bar{x}|\leq\sqrt{n\sum_{k=1}^n (x_k-\bar{x})^2}

この不等式を\dfrac{\displaystyle\sum_{k=1}^n \bigg|\bar{x}-x_k \bigg|}{n}に適用する。

\dfrac{\displaystyle\sum_{k=1}^n \bigg|\bar{x}-x_k \bigg|}{n}\leq\sqrt{\dfrac{\displaystyle\sum_{k=1}^n (x_k-\bar{x})^2}{n}}

右辺はそのまま標準偏差の定義になっているので\sigmaとかける。よって不等式が示せた ◽

 標準偏差の意味がわからないとこの不等式の示す意味もわからないが、単純にいうと、平均値と中央値が離れすぎることはないことを主張する不等式である。

 この不等式が強力なのは普遍的に成立するということだ。どんなデータでも中央値と平均値は離れすぎることはない。まるで鎖で結ばれているかのように。