「統計学が最強の学問」(西内啓 著)と言う本を読んだので概要を報告します。私は、会社時代に統計的品質管理の切れ味の鋭さを実感してきており、品質管理ベーシックコースや実験計画法セミナーや多変量解析セミナーなど様々な教育を受講してきた。読後感想として、現代にこそもっと使用されるべきと想いを新たにした。
統計リテラシーが社会人の必須の能力になる。ビジネスインテリジェンス、情報すなわち統計学を制する者が世界を制する。どんな分野の議論においても、データを集めて分析することで最速で最善の答えを出すことができる。
疫学の父スノウのコレラ死亡者数の層別し、水道会社間で差がでた。紙とペンの統計学では、ITによる統計学のパワフルさを体験できなかった。サンプリング調査は、その後10年以上も慎重な検証を重ねた結果、驚くほど正確なものだった。正しい判断に必要な最小十分のデータ。
A/Bテストとは、AパターンとBパターンを両方試して比較すること。カイ二乗検定は、意味のある偏りか、誤差であるかを確かめる解析手法であり、その生じる確率(p値)が5%以下であれば、偶然であるとは言えない(有意差あり)と判断する。
因果関係の2つの解決方法。一つは、関連しそうな条件を継続的に調査する(管理図)。二つ目は、データの取り方をフェアに条件を揃える(実験計画法)。
ランダム化比較試験は、科学で扱える対象を自然科学から社会科学へ拡大させた。データ間の関係性を記述する、あるいは一方のデータから他方のデータを予測する数式を推定するのが回帰分析の考え方であり、こうした数式で記述される直線を回帰直線と呼ぶ。
バラツキを持つ現象に対する理論的な予測もバラツキ、平凡へと回帰する。得られたデータから計算された統計量がどの程度の誤差で真値を推定しているかを数学的に整理することで、無限にデータを集めることなく適切な判断が下せる。平均値の差の検定(t検定)は、考え方は回帰分析と同じ。
重回帰分析は、説明変数すなわち予測したい結果に影響する要因が複数ある状況へ拡張された回帰分析である。
統計学の6つの分野:①実態把握を行う社会調査法、②原因究明のための疫学・生物統計学、③抽象的なものを測定する心理統計学、④機械的分類のためのデータマイニング、⑤自然言語処理のためのテキストマイニング、⑥演繹に関心を寄せる計量経済学
IQを生み出した心理統計学家、多因子分析から合祀変数を生み出す。マーケティングの現場で生まれたデータマイニング、ここではカイ二乗検定が用いられ、回帰モデルの方が役に立つ。言葉を分析するテキストマイニング。
確率を、頻度論者は何回中の何回と頻度でとらえ、ベイズ派は事前確率と事後確率を考える。
この記事へのコメントはこちら