kyuinn’s diary

読書感想を個人的につづるブログです。

3の巻~『統計学が最強の学問である』他

今週は類似のタイトルをもつ二冊『統計学が最強の学問である』著:西内啓 と『リスク社会の羅針盤!すべては統計にまかせなさい』著:藤澤陽介 の感想を記したいと思う。

 

統計学が最強の学問である

統計学が最強の学問である

 

 

リスク社会の羅針盤! すべては統計にまかせなさい

リスク社会の羅針盤! すべては統計にまかせなさい

 

 

◆なぜこの本を選んだか

この2冊は共に、統計学の基礎を解説する書籍である。僕自身は統計学の基礎を学習した経験があったため、これまでこの書籍を進んで読もうとは思わなかった。ではなぜ今回この2冊を選んだか。

それはこの2冊の著者が統計学の初心者に対してどのような説明を行うのか、それを知りたかったからである。

諸事情があり、私が講師となって統計学の講義を行うという機会が近々設けられることとなったため、2著者の説明手法になんかしらのヒントを見出そうと考えたのである。

 

◆内容についてのざっくり感想

今回の2冊はタイトルこそ似通っているものの内容は全く異なると言って良い。

 

藤澤氏の『リスク社会の羅針盤!すべては統計にまかせなさい(以下、『羅針盤』)』がアクチュアリーという数理専門家の歴史や技術に焦点をあてているのに対して、西内氏の『統計学が最強の学問である(以下、『最強の学問』)』は統計学を俯瞰し、どのような場面で実学として役にたつのかを記載している。タイトルと内容がよりリンクしているのは『最強の学問』の方であり、『羅針盤』はタイトルと内容がややミスマッチしている印象がある。

 

◎『羅針盤』について

この本は、アクチュアリーという数理専門家がどのような歴史をもち、どのような仕事を行っているのかということを丁寧に記載している。内容は非常に興味深いのだが、今回の僕の読書目的(統計の専門家が、統計の基礎的技術を初心者にどのように説明しているのかを知る)からは外れており、残念ながら得られるものはあまり多くなかった。

統計学を学び、それを社会で生かしたいと考える学生がアクチュアリーという職を知るために読むにはかなりマッチしている本だと思う。逆に本書は一般の人を対象とした本としては内容が難しい、もしくはマニアックすぎる。

 

ただ枝葉の議論ではあったが、高校生の喫煙割合を調べるうえで、フェイクくじを混ぜることで、バイアスを減らすという手法は非常に参考になった。アンケートを取るうえで、どのようにして正直に回答してもらうかというのは大きな課題だと思うが、今回その手法の一つを知ることをできたのは非常に勉強になった。

 

 

◎『最強の学問』について

この書籍は統計学全般にスポットをあてており、僕の目的に合致するものであった。

またそれ以上にこの本は、僕に多くの新規知識を与えてくれる内容だったといってよい。繰り返しになるが僕は統計学については一通り学習しており、検定の手法なり、確率分布に対する知識といったものは持ち合わせている。

この書籍の良いところは、そういった解析手法ではなく、解析前のデータの集め方の方に焦点をあてていることだ。

難しい数式が登場しないため、初学者にもわかりやすい。一方で解析の手法だけは知っているという私のような者にも学びの多い書籍となっている。

 

著者は統計学を使ったデータ解析することで因果関係を無視した物事の洞察が可能となることのメリットを説く。それはつまりいろいろ悩んでるくらいなら、とりあえず行動に移し、その後正解を考えるというビジネス行動が有利であるということになる。

 

正解がないのであればとりあえずランダムに決めてしまう、という選択肢の価値はもっと認められるべきだろう。

  

これは本ブログの1の巻で取り上げた、『マーケット感覚を身につけよう』著:ちきりんの考え方と類似しているといえるだろう。彼女もとりあえずマーケットにきいてPDCAを回せばいいのではないかという考えの持ち主である。

 

次に昨今のビッグデータブームへの皮肉ともいえるサンプリング調査の有効性を説く。

これは標準誤差の数式より明らかである。サンプル数を増やしたところで正確性は大して改善しないのだ。それを無視した巨額のビッグデータ投資に対して、著者は下記のように切り捨てる。

 

ほんの1%やそこらの精度を改善することは、果たして数千万円も投資価値のあるクリティカルな影響を持つのだろうか?

  

莫大なビッグデータへの投資を防ぐ役割は、もしかしたら統計学の専門家の価値がもっとも発揮される場面なのかも知れない。

 

 そしてデータをビジネスに生かすための「三つの問」というお題がつづく。それについて著者は下記のように説く。

 

【問1】何かの要因が変化すれば利益は向上するのか。

【問2】そうした変化を起こすような行動は実際に可能なのか?

【問3】変化を起こす行動が可能だとしてそのコストは利益を上回るのか?

  

書かれていることは当たり前のことなのであるが、僕自身の普段の意識が足りないせいか、非常に印象に残った。

 

一方で統計をビジネスに生かすためには解析と同じくらいデータ収集も大事であるとしている。

 

統計学をある程度マスターすれば、「どのようにデータを解析するか」ということはわかる。だが、実際に研究や調査をしようとすれば、「どのようなデータを収集し解析するか」という点のほうが重要になる。

  

僕は理系の研究を行ったことがなく、また働くようになってからアンケート調査のようなものに携わったこともない。なので、データ収集について考えた経験に乏しいのであるが、おそらくこのようなことを考えずに多額の調査費用をかけている企業というのは多数存在するだろ。そのような担当者には耳の痛い話に違いない。

 

そしてデータの収集にあたっては、「フェアな比較」が重要であり、その手法として下記の二つを提示している。

 

「関連しそうな条件を考えうる限り継続的に追跡調査をし、統計学的な手法を用いて、少なくとも測定された条件については「フェアな比較」を行なうというもの

もう一つは解析ではなくデータの取り方の時点で「フェアに条件を揃える」というやり方である

  

前者は「層別解析」、後者は「ランダム化比較実験」が該当する。

その後はランダム化比較実験を持ち上げる記述がつづく。おそらく余計なことを考えずに利用できる手法ということで有用性が高いからであろう。

 

一方でランダム化比較実験には一定の壁があることも記載されている。

 

世の中にはランダム化を行うこと自体が不可能な場合、行うことが許されない場合、そして行うこと自体は本来何の問題もないはずだが、やると明らかに大損する場合、という3つの壁がある。1つ目の壁は「現実」、2つ目の壁は「倫理」、そして3つ目の壁のことを「感情」と呼ぶこともできるだろう。

  

個人の選択における場面では、現実の壁が一番大きいだろう。本当は結婚や就職といった人生のイベントにおいてもランダム化実験がおこなえればよいのであるが・・・ 

 

引き続いて回帰分析に対する言及がつづく。ここでは回帰分析によって得られた回帰係数自体にバラつきが存在していることに言及し、統計学の父であるフィッシャーは回帰分析を下記のように考えるべきだと主張したと説いている。

 

「無制限にデータを得れば、わかるはずの真に知りたい値」を真値と呼び、たまたま得られたデータから計算された統計量がどの程度の誤差で真値を推定しているかを数学的に整理することで、無限にデータを集めることなく適切な判断が下せる

  

その後は、ビジネスでも重宝される重回帰分析への言及である。重回帰分析が重宝されるのは、シンプソンのバラドックスに強く、層別解析を行わずに結果を分析できるからであり、それは重回帰分析が回帰係数を同時に推定するという特徴を持つからである。ただし、回帰係数には「変数間はお互い相乗効果のない状態、つまり交互作用が存在していないこと」が要求される。

 

重回帰分析は連続する結果変数を解析するのに適しているが、特定の値しかとらないような結果変数には、ロジスティック回帰が有効らしい。

 

もともと0か1かという二値の結果変数を変換し、連続的な変数として扱うことで重回帰分析を行えるようにした、というのがロジスティック回帰の大まかな考え方である。

 

ロジスティック回帰では、回帰係数はオッズ比(約何倍そうなりやすいか)で示す

  

最後は各種統計専門家のスタンスの違いを解説し、日本人は公開されている論文データベースをもっと活用し、科学的に物事を判断するべきだ、と警鐘を鳴らしている。

 

【その他、個人的に記しておきたい用語】

P値・・・実際には何の差もないのに誤差や偶然によってたまたま差が生じる確率

説明変数・・・どのような分析軸で比較するか

結果変数・・・どのような値で比較したいか

ダミー変数・・・本来数値でなものを「2つのグループ」あるいは「二値の変数」で表現するやり方

シンプソンのバラドックス・・・全集団同士での単純比較は、その内訳となる小集団同士との比較の結果と矛盾することもあるという命題

 

◆どう実生活に反映させていくか

サンプリング調査の考え方は日常の業務にも生かせるだろう。

僕は仕事柄、データを集計・計算することが多いのであるが、そのような業務では計算の正確さを検証する作業にも多大な時間がかかる。このような場面では、全件調査ではなく、サンプルチェックという形式で計算ロジックのチェックを行うのが有効なのではないかと感じた。

もちろん極度の正確性が要求されるような業務についてはこの限りではないが、「大局的に正確な結果が得られていれば、多少の誤差は目をつぶることができる」といった類の業務であれば、許容されるであろう。

一方で何件のサンプリングを行えば、〇〇%の信頼水準で正確性が担保されるといった信頼水準にまで落とし込んだ業務の捉え方は行ったことがないので、そのような考え方も面白いと思われる。

 

またビジネスの場面でアカデミックな研究を取り入れていくという示唆も勉強になった。著者のいうとおり、多くの問題が既にアカデミックで証明されているのであれば、ビジネスの場面における考えるという行為の多くは無駄となる。既に解の書かれている研究書物を探し出すことのほうが有効な戦略となってしまうからだ。

このブログも書籍を読んで、その知識を体得することが主目的であるが、個人的な体験に基づく再現性のない手法が書かれている書籍を読みあさるよりは学術研究を読んだほうがよっぽど効果があるという結論になるだろう。

本書籍で取り上げられている論文サイトを閲覧し、ブログでとりあげるということも考えてみたいと思う。 

◆その他

『最強の学問』からは多くの学びを得ることができた。この書籍は稀に見る名著であると私は感じている。多くの書籍の場合、中盤以降は似たような記載が繰り替えされ、得られるものが段々と少なくなっているのだが、この書籍ではそのような傾向も見受けられなかった。定期的に読み返して内容を余ることなく吸収したいと思う。