統計学。限りなく透明に近い世界。

先日,Twitter 上で統計学にまつわるアンケートを見つけた.

頻度主義統計学における「95%信頼区間」の95%というのは,以下のどちらだと思いますか

 ・確率

 ・割合

 

というもので,私は反射的に「割合」を選択した.

さて,アンケートの結果(投票割合)はというと,回答された1,527票について以下のとおりだった.

 

 ・確率→ 50%
 ・割合→ 50%

 

非常に興味深いと感じた.投票した方々は全員が統計学を勉強したことのある人とは限らないし,適当に投票した人も投票ミスした人も含まれるだろう.それにしても,この結果である.綺麗にまっぷたつ.「信頼区間」という概念,ひいては「統計学」というものがいかにきちんと理解するのが難しいものであるかがわかる気がした.

元のツイート主およびその周辺の方々の間では,統計学を専攻している研究者も交えて Twitter 上で議論がなされたようだが,私自身は主に以下のテキストを通じて少しだけ学んだことがあった.

 

 

 

 

 

統計学を学んだことのある方の中には,おそらくご覧になったことのある方も多いかと思う.

たとえば,1冊目の「統計学のセンス」では信頼区間について以下のように述べられている.

 

統計学のセンス No.2
95% 信頼区間とは

無作為抽出を繰り返し行って 95% 信頼区間を計算したとき,100 回に 95 回くらいは真の平均値 μ を含んでいる範囲である.いま計算された 95% 信頼区間に真の平均値 μ を含む確率が 95% という意味ではない.
その確率は 1(含んでいる)か 0(含んでいない)かのどちらかである.

 

新版 統計学のセンス デザインする視点・データを見る目 p.12
[著] 丹後俊郎

 

明確に「確率が 95% という意味ではない」と述べられているわけだ.4冊目の「統計学入門」の p.225 においても,「~,θを区間内に含むものの割合が 1-α となるということである.~」と太字で述べられている.

ここでは信頼区間について詳しい議論はしないが,このあたりの内容について気になる方は上記のテキストなどを参照された方がよいと思われる(元のツイート主のことはここでは言及しないのであしからず).

 

厳密な議論は他に譲るとして,私が感じたのは「そもそも信頼区間とかそれ以前に,統計学には興味があるものの何をどう勉強していいのかわからない,あるいはわかった気になったまま闇雲に勉強している人が多いのではないか」ということだ.

私自身は先のツイート主や統計学を専攻する研究者のような統計学の専門家というわけではない.あくまで学生時代に研究や講義を通じて学び,実務でデータ分析を行う際に応用すべく統計学を学び続けてきた者である.まだまだ理解が浅いゆえに,研鑽を重ねる必要があると思っている.

 

そもそも統計学に限らず何かを体系的に学ぶということは簡単なことではなく,よほど優れた先導者のもとでしっかりと指導を受けながら時間をかけて学ばないときちんと身につくものではないと思っている.

昨今のデータサイエンス関連の(少しばかりの)ブームや,データサイエンティストなる職種へのある意味で妄信的な憧れの影響として,統計学機械学習などの諸分野を学ぼうとする方々が増えてきているように感じる.もちろんそれ自体は特に問題はないが,一方で学習のロードマップや体系的なカリキュラム,道しるべとなるものがほぼ存在しない状況であるがゆえに,上記のように私が感じたような状況が生まれてきているのではないかと思っている(もしご存じの方はぜひともご教示いただきたい).

 

振り返ってみて自分自身も似たような状況ではあったが,幸いにも師や先輩に恵まれ,実際にデータを使って肌感覚を身につける機会にも恵まれたため,まだまだ未熟ではあるが,ある程度の素養は備わっているのではないかと思う.

言い換えると,そのような機会はそうそう巡ってくるものではないため,これから統計学を勉強しようという方は,優れた先導者や学習の場,演習のためのデータセット・分析例などを能動的に求めなければならないということだ.

 

私の見える景色としては,統計学というのは入口からすでによくわからない霧の中を進むような感覚だけれど,学び進めるうちに一瞬「わかった!」という瞬間が訪れ,少しだけ霧が晴れる.そしてまた次の霧へと向かっていくという,いつまでも終わりのない,限りなく透明に近い世界だ.

この統計学という限りなく透明に近い世界に足を踏み入れた身として,これからも研鑽を重ねなければ,と居住まいを正したというお話.