2014年11月30日日曜日

標準偏差の名付け親は,相関係数で有名なピアソン,不偏標準偏差の話題と共に


私が論じた様々な統計学的な話題のリストは,研究室トップページの「統計学関連の話題」で見られる。
***********

標準偏差の意味や計算法を知らなくても,その言葉自体は,耳にした人も多いと思う。

少しでも統計学をかじった人なら,標準偏差を英語で Standard Deviation と書くことも知っているはずである。

ところがどうも,このStandard Deviationの由来,つまり,誰が名付けたかを知る人は,ずっと少ないらしい。そういえば,大学等で使われる統計学の教科書でも,この語の由来を記したものを私は知らない。

この語を最初に使ったのは,Karl Pearson である。日本人にとっては,「相関係数」で馴染み深い,あのピアソンである。それが公式に登場したのは,次の論文である。

Pearson, K. (1894)
Contributions to the Mathematical Theory of Evolution
Philosophical Transactions of the Royal Society of London. A, 71-110.
https://archive.org/details/philtrans02543681

このURLで全文を見られる。

なお,右下の全画面記号
全画面記号(full screen)
それをクリックし,現れたページで右上のスピーカー記号
スピーカー記号(aloud)
それをクリックすると,論文を英語で読み上げてくれるので,それも面白い。

この論文5ページ目(本文p.75),下から4行目を見てほしい。

" standard-deviation" (Gauss's " Mean Error," Airy's " Error of Mean Square")

ガウスが Mean error (平均誤差)と呼び,エアリーが Error of Mean Square(平均平方誤差)と呼んだ計算式に対して,敢えて,ピアソンが standard-deviation と呼んだのである。

実は,これは公式な論文の話であって,非公式には,1893年1月31日の講義で,そう呼ばれていたようである。

このことは,数学用語の歴史的由来を解説した有名な次のサイトで知ることができる。ただし,日本人には案外知られていないサイトかもしれない。

Earliest Known Uses of Some of the Words of Mathematics

アルファベット順に用語が挙げられているので,Sのページで,STANDARD DEVIATIONを見ると

The term "standard deviation" was introduced in a lecture of 31 January 1893, as a convenient substitute for the cumbersome "root mean square error" and the older expressions "error of mean square" and "mean error."

ガウスの mean error などの用語は,専門的過ぎて分かりにくい(cumbersome),だからもっと簡単にして, standard deviation と呼ぶ,とピアソンは言ったのである。

もしかすると,自分の名付けた用語こそスタンダードだ,と言いたかったのかもしれない。実際,現在の状況を見れば,ピアソンの予想どおり(?),彼よりはるかに著名な科学者ガウスを差し置いて, standard deviation という呼称が,文字通り標準となっているのである。

なお,不偏標準偏差(Unbiased Standard Deviation),つまり,標準偏差の不偏推定量 D は,標本サイズが大きくなると,近似的に,平均からの偏差平方和を n−1.5 で割った値の平方根として求められる。
不偏標準偏差(Unbiased Standard Deviation)

このことは次の論文に書かれている。

Brugger, R. M. (1969)
A note on unbiased estimation of the standard deviation.
The American Statistician, 23(4), 32-32.

不偏分散(Unbiased Variance)が, n−1 で割った形であることは良く知られている。
不偏分散(Unbiased Variance)

しかし, n−1.5 で割った不偏標準偏差の形は,あまり知られていないようである。ウィキペディア(Wikipedia)の標準偏差の項目にも書かれていなかったので,私(Iguchi-Y)が書き加えておいた。

そこにも書いたことだが,困ったことに,不偏標準偏差の定義は二通りある。このブログで私が定義したように,標準偏差の不偏推定量 D を不偏推定量と呼ぶ人もいれば,不偏分散 U2 の平方根を不偏標準偏差と呼ぶ人もいるのである。どちらの定義が使われているか,十分注意が必要である。