４の１の巻～『統計学が最強の学問である（実践編）』

今回は前回のブログで紹介した「統計学が最強の学問である」の続編となる「統計学が最強の学問である（実践編）」著：西内啓　についての感想を記したいと思う。

統計学が最強の学問である[実践編]---データ分析のための思想と方法

作者: 西内啓
出版社/メーカー: ダイヤモンド社
発売日: 2014/10/24
メディア: 単行本（ソフトカバー）
この商品を含むブログ (5件) を見る

◆なぜこの本を選んだか

前回のブログで取り上げた『統計学が最強の学問である』は非常にクオリティが高く、私の持つ統計学への興味を大いに刺激するものであった。そうなれば続編にも手を出してしまうのが人の性というものである。

◆内容についてのざっくり感想

タイトルにふさわしく統計の実践に踏み込んだ内容で、非常に満足のいくものであった。

いつものように知識面でのまとめを最初に行いたいと思う。

まず最初に、筆者は「現状把握」の統計学と因果関係の「洞察」のための統計学を明確に区別し、統計学を「洞察」に使用するためには、以下の三つが必要であると説いている。

・平均値や割合など統計指標の本質的な意味の理解

・「データを点ではなく幅で捉える」という考え方

・「何の値を何事に集計すべきか」という考え方

僕は自分のキャリアのほとんどが管理畑であるため、分析という行為を行う機会が多いがそのほとんどが「現状把握」の分析（もどき）であり、ビジネスディシジョンに有用な「洞察」の分析を行ってきた記憶はほとんどない。恥ずかしい限りである。

次に少し細かい論点であるが、データを洞察するときになぜ「中央値」でなく「平均値」が最適なのかという説明が以下のようになされている。

左右非対称なバラつき方のデータの概略をつかむためには、平均値より中央値を使うほうがよいこともあるとすでに述べた通りである。だが、現状把握をしたいわけではなく、因果関係を洞察したい場合なら話は別だ。・・・・・それが（私注：平均値のこと）が集団の中心を正確に捉えていようがいまいが、一方のグループの売上が他方よりも高くなるのか低くなるのか、という判断に十分なものであれば良いのだ。

その他にも、平均値は中央値と異なり数学的に計算しやすいといった特徴を持つことや、中央値は集団の要素となる個々の数値の何個かに変化が生じた場合でも中央値そのものが変化しないことがあり扱いづらいといった特徴が挙げられていた。

そして統計学におけて忘れがちだが意識するべき重要な点として下記をあげている

「元のデータのバラつき方とその代表としての平均値」という考え方と、「元のデータのバラつき方とは関係ない、平均値自体のバラつき方」という考え方を区別すること

この記載は文字面だけを見ると非常にわかりづらい。要旨としては「洞察」の統計学においては、何かしらのビジネスの施策の効果の有無の判定が最も重要であり、その目的のためには、前者の「元のデータのバラつき」をケアする必要はほとんどなく、後者の「平均値自体のばらつき」＝「平均値の収束具合」だけに注意を払えば良いということである。

そして核となる検定の考え方について、第１種の誤りと第２種の誤りという基本的な概念を説明したうえで下記のように説明している。

現実には比較しなければいけないグループ間の平均値のほとんどは、標準偏差二つ分も離れることはない・・・。（中略）そのため、標準偏差２つ分よりは小さいが現実的な意味があり、そして統計学上有意な差を、最小限のデータからいかに見つけることができるか、すなわち検出力を大きくできるか、というのが統計学が大事にしているポイントである。

「検出力」の正しい定義を忘れてしまったので、もう一度専門書で確認したが、「１－（第２種の誤り犯す確率）」、つまり対立仮説が正しいときにそれが採択される確率のことである。

また、標準偏差と標準誤差の意味は混同しやすいので備忘のために本書籍から記載を抜粋する。

複数のデータから求められた平均値のバラつき（標準誤差）は、必ず元のデータのバラつき（標準偏差）よりも小さいものになる。また求めるのに用いたデータの件数、すなわちサンプルサイズが増えれば増えるほど標準誤差は小さくなる。

その後は検定の考え方が続く。通常の正規分布を前提とする検定は、僕の中で既知であったので、ここでは記載しない。一方で平均値の差の検定であるZ検定は、詳細を忘れていたので、念のために記載しておこうと思う。

※Z検定は分散の加算性を利用し、比較対象とする２集団の平均値の分散を足し、２集団の平均値の差がその分散の和で変動するとみなす。仮定する分布は正規分布である。

その後はｔ検定の解説となる。Z検定よりｔ検定を優先的に使用すべき理由についてこの書籍は下記のように述べる。

理論上、分散の「真の値」とはデータの「真の平均値からのズレの２乗の平均値」である。ただし実際には「真の平均値」はわからないから、そのかわりに「データの平均値」との差の二乗を用いて計算される。（中略）このためデータが少なければ少ないほど、サンプルの分散は「真の分散」より小さめの値になってしまう

気になるのは、Z検定とｔ検定の境目となるサンプル数であるが、以下のように解説されている。

割合の形に集約する「ある状態を取るか否か」という二数変数は、・・・（中略）・・・ある程度少ないデータ数でも正規分布へ収束しやすい。そのため10件や20件しかデータがない、という状況でもなければｚ検定を使うことの妥当性をそれほど気にしなくてもよい。

クロス集計表を書いた場合に、そのセルにも10、最低でも5以上の数字が入る場合はz検定を行って問題ない、というのが慣例的な目安である。

これ以下のサンプル数の場合は、フィッシャーの正確検定を行うべきだとしている。フィッシャーの正確検定は分布による近似を用いず正確に確率を計算する手法のことである。二項分布であれば二項分布の確率関数を使用して、具体的に計算することになる。

まとめると以下のことを把握しておけば良いらしい。

・t検定とは数十件程度のデータでも正確にz検定を行なえるようにしたものであり、数百～数千件といったデータに対してはt検定とz検定の結果はよく一致する

・t検定はz検定と同様に「平均値の差」が「平均値の差の標準偏差」の何倍かを考えてそれがどれほど有り得ないかをp値を求めるものである。

・フィッシャーの正確検定は「組み合わせの数」を使って数十件程度のデータでも正確に割合の差に意味があるのかp値を求めるものである。

続いては、統計的な技法の話ではなく、現実的に発生しやすい３つ以上のグループの比較の話題となる。

これらの分析手法の一つとして、考えうる任意の２グループをひたすら抽出し、そのすべてでp値をとるという手法があるが、これについては筆者は推奨していない。

それは検定の多重性により、第１種の誤りを増大させることにつながるからである。よって、処方作としては以下の３つが提示されている。

・ボンフェローニ補正

→任意の２グループ間で使用するp値を「最終的な判断として使用したいp値÷検定を行う回数」とする。

・基準カテゴリーを１つ決めて、そこからの比較を行なう

→総当りの検定を避けるために、基準カテゴリーを決めてそことの比較のみを行なう。基準となるグループにはなるべく「ふつうのグループ」選ぶのがコツである。

・探索的なp値と検証的なp値を使いわける

→検定の多重性を無視し、とりあえずp値が特定の値以下のものを捜索し、その後のランダム化比較実験で有意かどうかを検証する。

そして次は回帰分析の解説である。本当に内容が濃いですね。この書籍は。

回帰分析は単純な手法でありながら仕事でもプライベートでも使う機会がなかったため、今後は積極的に活用したいと考えている手法である。

まず前提としてこれは説明変数が量的なときに使われる解析手法である。そしてその妥当性の判断として、標準誤差を考えるのはこれまでの手法と同様である。

回帰係数の標準誤差は「アウトカムの予測値と実際の値のズレの二乗の合計値をデータの件数で割ったもの（私注：「データの件数で割ったもの」ではなく、データの件数分足したものの間違いであると思われる）」である残差平方和を用いる。なお残差平方和をデータの数で割ったものは専門用語で残差平均平方または平均平方残差と呼ばれる。

　回帰係数の標準誤差＝√(残差平方和/(説明変数の偏差平方和×データの件数))

上記の式でわかるとおり説明変数の偏差平方和（つまり説明変数のばらつき）も考慮しなくてはならない。また式から直感的に読み取れるように説明変数がばらついている方が同じ残差平方和でも標準誤差が小さくなる。イメージとしては、棒の中心に近い２点で支えるよりも、端に近い２点を持つ方が安定感がある、つまり誤差が小さくなるということだろうと思う。

説明変数が質的な場合でも「ダミー変数」を用いることで、回帰分析を適用することが可能である。

ダミー変数は慣例的に「１に該当するほうのカテゴリー名」で呼ぶので、男性が１で女性が０としたダミー変数なら「男性ダミー」、逆に女性が１で男性が０としたダミー変数なら「女性ダミー」と表現する。

（この後に、重回帰分析やロジスティック回帰などの説明が続くが、長くなったので次回のブログでとりあげる）

◆どう実生活に反映させていくか

前回のブログの導入部分で記載をしたが、近々に僕が講師となって初学者向けに統計学の講義を行う予定があり、本書の記載は十分にそれの参考になるものだったといえる。それだけでこの書籍は十分僕の実生活の役にたっているだろう。

一方で長期的な視点で、僕が統計学を適用したいと考えているのは、WEBのマーケティングに対してである。そしてこれは僕が社会人になってから統計学を学びはじめた理由の一つでもある。

対面営業のようなトークで落とすといったスタイルの営業を除いた、DM営業やWEBマーケティングは、統計学と著しく相性が良い。

前回のブログで学習したランダム化比較実験と今回の分析手法を使えば、かなり効率の良いマーケティング手法を確立することができるだろう。

例えば僕が過去営業部門の人から聞いた話で良くあったのが、以下のような報告だ。

「〇〇県の人はうちの商品に対する関心が高そうなので、○○県にラジオCMを流したところ、××件の契約が取れました。契約が十分取れたので今後も続けようと思います。」

これは報告としては良いと思うが、今後のアクションの洞察としては弱い。

なぜなら△△県にラジオCMを流しても同じ件数がとれるかもしれないからである。なので本当は△△県にラジオCMを流した結果と比較し、しかも件数でなくCV率で比較しないとコストパフォーマンスの評価はできない。

しかし一方で全都道府県にラジオCMを流して比較するのはコスト的に非常に難しい。

なので、僕であれば下記の手順で事を遂行したと思う。

ア、WEBもしくはDMを使用し、件ごとのＣＶ率を比較する。

イ、アのＣＶ率の差が統計学的に有意な意味を持つものなのか分析する。

ウ、イのＣＶ率が高い県を有望顧客が多い県とみなす

エ、ラジオＣＭのコストとＣＶ率の比をもって、もっともコストパフォーマンスが良い都道府県を算出する。ウでピックアップした県は特にコストパフォーマンスが高い可能性があるので、注目する。

県ごとのＣＶ率に統計学的有意な差がなければ、年齢でもよいし、グループ会社を利用しているかどうかといった切り口でもよい。それらを複数使って重回帰分析をしてみても良い。

そういう切り口で統計学を使いこなせれば非常に効率良く事業を展開できると思う。

◆その他

最近は仕事が忙しく、今回は久しぶりの更新となってしまった。週に１回の更新を目標としているので、今後はうまくキャッチアップしていきたいと思う。

一方で更新が遅れたことを「仕事の忙しさ」といった外的要因や「忍耐の無さ」といった精神的要因にのみ帰着するのは、あまり能がないので、まじめに一人反省会をして、対策を立ててみたいと思う。

更新が遅れた最大の理由は、ブログ更新の負担が重過ぎるせいである。これをさらに分解すると以下のようになるだろう。

１－①、ブログの記載量が多い。

これは対象書籍そのもののボリュームが多いという問題と、書籍の内容が濃いため得られる知見が多すぎてブログに書くのが大変という問題があるだろう。

この問題については、今後は3,000～4,000字を一回のブログの文字数の目安にしようと思う。

慣れてきたら時間を見ながら増やしていく予定ではあるが、楽に継続することを第一に少し抑え目にしていきたいと考えている。

１－②、文章を書く時間が遅い。

タイピングの速さの問題と、文章をまとめる思考の速さの二つの問題があると思う。

まず、素のタイピングの速さであるが、おそらくこれはほとんど障害になっていない。

久しぶりにタイピングソフトをこなしてみたが、一番上のスコアをコンスタントに出すことができる。

◆インターネットでタイピング練習e-typing

http://www.e-typing.ne.jp/

一方で、このブログでは書籍の内容を引用することが多いのでコピー＆ペーストができれば、時間はかなり短縮できるはずである。Kindleの性質上、これは不可能ではないのかと私は頭から決めつけていたのだが実は可能らしい。

調べたところAmazon kindleのマイページに、私が書籍にハイライトした箇所がすべて同期される仕様となっていることが判明した。これはなんて便利なんだ！！！しかもkindle for PCというアプリを使用することで、PCでも書籍の閲覧が可能らしい。知らなかった・・・

何事も調べてみるものだと再認識した次第である。

文章をまとめる思考の速さは、まだ改善の余地はあるだろう。まとまった量の文章を書く機会から遠ざかっているため、最近は衰えてしまっている（元から大したものではないが）が、このブログを書く中で少しずつ早くなるのではないかと期待している。しばらくは自然体で伸ばしてみたいと思う。

その他にも

２、ブログのネタを集める段階での読書スピードが遅いという問題もあるだろう。

解決策としては、速読術を身に着けるといった方法も考えられるが、とりあえずは簡単にできるガジェットの改良に取り組みたい。現在はiPadを使用して読書を行っているのだが、CPUのせいなのかメモリのせいなのか書籍のロードに時間がかかることが多々ある。とりあえずはガジェットを最新化して時間ロスを最小限にしたい。

幸いにも仕事がそろそろ落ち着きそうなので、時間的な余裕は増えていくと思うが、少しでも効率化してうまくことを運んでいけたら良いと思う。

あと、最近アクセスがぼちぼちあるので、そろそろこのブログのアイコンやら著者の説明書きも整えないといけないような気がするが、調べると結構手間のようなので、気の向いたときにやるとしよう。