統計思考の世界~曼荼羅で読み解くデータ解析の基礎
著者:三中 信宏
出版社:技術評論社
分類:確率・統計
出版日:2018/5/18
読みやすさ:☆☆★(読みやすい)
著者の手による統計曼荼羅がなかなか面白い。パラメトリック統計学、ノンパラメトリック統計学、計算機統計学の関係性がわかりやすくまとめられており、非常に参考になる。ただ、パラメトリック統計学に限っても、Leemis and McQueston (2008)に示されるような確率分布の一覧(曼荼羅)をすべて習得するのはかなり大変そう・・・(実益も少ない?)。最近(?)流行りの計算機統計学に関しては、天下り的に多用するのは危険とのことで、これについては確かに納得です。
データの“真ん中”を示す基準値として中央値を選んだときは偏差絶対値和がばらつきの集計値として適していますが、その基準値が平均値であるならば平方和の方が適していることになります。
推測統計学とは観察者の目の前にあるデータの背後に広がる仮想的な母集団に関する推測を行うための方法論です。有限個の標本(データ)から母集団の”ばらつき”に関する推定をしようというのがここでの推測統計学のゴールになります。一方、記述統計学は目の前の10個の数値データの集約をするだけで、背後の母集団に関する推論は眼中にありません。
データサイズnの標本から母分散を普遍性をもって推定するためには、平方和をnではなく(n-1)で割る必要があります。
たまたま無作為抽出されたデータに対する当てはまりがいくらよくても、ありえたかもしれない他のデータに対してそのモデルがよく当てはまるかどうかはわかりません。この2つの問題を同時に解決する決定打として提唱されたのが赤池弘次の「赤池情報量基準(AIC:Akaike Information Criterion)」です。
尤度は実際に得られたデータへのモデルの当てはまりのよさを評価する基準です。これに対して、AICは母集団から無作為抽出されたときのデータに伴うばらつきを考慮して尤度の期待値を求めようとします。
あるモデルの尤度の期待値は「最大対数尤度-パラメーター数」というきわめて単純な尺度によって表現されます。
第12講 コンピューター統計学:データに自らを語らせる
私たちが慣れ親しんできたもとの母集団からのサンプリングに代わる方法として登場したのが、無作為標本からのリサンプリングという新たな考え方です。