データサイエンティスト上がりのDX参謀・起業家

データサイエンティスト上がりのDX参謀・起業家のブログ。データ分析や事業について。自身はアーティスト、経営者、事業家。

統計学を勉強するときに知っておきたい10ポイント

googleさんやマイクロソフトさんは「次の10年で熱い職業は統計学」と言っているようです。またIBMは分析ができる人材を4,000人増やすと言っています(同記事)。しかし分析をするときの基礎的な学問は統計学ですが、いざ統計学を勉強しようとしてもどこから取りかかればいいか分からなかくて困るという話をよく聞きます。それに機械学習系の本は最近増えてきましたが、統計学自体が基礎から学べる本はまだあまり見かけないです。

そこで今回は、統計学を初めて勉強するときに知っておいた方が良い10ポイントを紹介したいと思います。



1. 同じ手法なのに違う呼び名が付いている

別の人が違う分野で提案した手法が、実は全く同じだったということがあります。良く聞くのは、数量化理論や分散分析についてです。

  • 数量化理論
    • 数量化I類 = ダミー変数による線形回帰
    • 数量化II類 = ダミー変数による判別分析
    • 数量化III類 = カテゴリ変数の主成分分析(=コレスポンデンス分析)
    • 数量化IV類 = 多次元尺度法

数量化理論についてはwikiにまとまってます。分散分析は実験計画法で良く出てきますが、平方和の分解をして要因の効果を検定するものです。平方和の分解は線形回帰モデルの最小二乗法と全く同じ数式になるため、実はカテゴリ変数での線形モデルと分散分析は全く同じなのです。

あとただ単に違うネーミングをしている同じ手法もあります。

  • 変数増減法 = ステップワイズ法

2. 似た名前なのに全く違う概念を示す

今度は似たような名前なのに全く違う意味を表しているものです。

  • コホート研究とコウホート分析
  • ランダムサンプリングとランダム化

コホート研究は疫学の分野などで利用されている、いわゆる追跡調査です。コウホート分析は断面データから経時の効果を推定する方法のようです。ランダムサンプリングは母集団からサンプルをランダムに抽出する方法で、ランダム化はある集団をランダムに割り付けを行う方法です。ランダムサンプリングは調査、サーベイ目的で行われるのに対して、ランダム化は介入効果を検証するために行われます。



3. 日本語訳が微妙に違う

これは日本語に訳す際にどうしても起こってしまう事ですが、微妙に表現が違うと「あれ、自分が知っているものと違うのかな?」と思ってしまいます。

  • cross validation → 交差検証、交差検定
  • logistic regression → ロジスティック回帰、ロジスチック回帰
  • survival analysis → 生存時間解析、生存分析
  • training data → 学習データ、訓練データ、教師データ
  • dimension reduction → 次元縮小、次元縮約
  • approximation → 近似計算、近似推定、接近法
  • probability → 確率、可能性、蓋然性

もとの英語を知っていれば、混乱する事も少ないかなと思います。



4. ○○尺度という呼び方を使わなくても解析上は対応できる

尺度水準は主に社会学系で使われますが、理解に悩まれる方も多いようです。これらの尺度は、解析上は次のように分類できます。

  • 名義尺度 → 質的変数(カテゴリ変数)
  • 順序尺度 → 離散変数
  • 間隔尺度 → 離散変数 or 連続変数
  • 比率尺度 → 連続変数

多分、尺度水準は解析の目的で付けられた名前じゃないんだと思います。ですので最初のうちは、解析目的で分類している↓の呼び方から覚えると良いと思います。

  • 質的変数(カテゴリ変数)
  • 量的変数
    • 離散変数
    • 連続変数

5. 「分布」「検定」から学ぶより、実際にデータを解析した方が学習効果が高い。ベイズの概念も後回し。

統計学は理論から発展してきたのではなく、実際にデータを扱いながら発展してきました。ですので学ぶときも理論から入るよりも解析から入った方が学習効果が高いです。分布や検定を勉強するのは後回しにして、いろんなデータを解析しながら勉強していきましょう。解析しながら学ぶという意味では次の本がとても良いのです(以前は『Rによる統計解析ハンドブック』を紹介していましたが、こちらの本の方が初心者向けで詳しく書いてありました)。

統計学:Rを用いた入門書

統計学:Rを用いた入門書


また統計学で良く聞く「ベイズ統計」ですが、確率の考え方がかなり違いますので最初は概念をあまり考えない方が得策かもしれません。ただベイズ統計は実用上はとても有用ですので、計算方法として学ぶのが良いと思います。例えばGmailの迷惑メールフィルタに使われていると言われている、「新しいデータが観測されたらパラメータを逐次的に更新できる」などのように、実際に使われている部分から学習すると良いですね。ベイズの実用書はこの本が良かったです。

ベイズな予測―ヒット率高める主観的確率論の話

ベイズな予測―ヒット率高める主観的確率論の話


基礎が出来ていれば、どんな計算手法もベイズに応用することができますので、まずは頻度論とか線形モデルから勉強されるのが良いと思います。



6. 回帰モデルの「説明される側」と「説明する側」の呼び名を統一する

回帰モデルを作るときは、どの変数を説明するためにどの変数を使うかを決めるわけですが、その変数の呼び名はたくさんあります。例えば、「独立変数」「予測変数」「説明変数」「応答変数」「従属変数」「結果変数」などです。どれが説明する側(X)で、どれが説明される側(Y)か分かりますでしょうか?答えは前半3つがXで後半3つがYです。ですので、それぞれの人がイメージしやすい呼び名に統一すると良いと思います。さらに他の人が違う呼び名を使っているときに、瞬時に脳内変換できるようになればなお良いですね。私は、説明する変数は「説明変数」、説明される変数は「結果変数」で統一しています。



7. 初学者にお勧めできる日本語の書籍

冒頭にも書いたように日本語の書籍は少ないですが、いくつかお勧めを紹介しておきます。

統計学入門 (基礎統計学?)

統計学入門 (基礎統計学?)

この本はかなりの良本です!解析方法の深いところまでは勉強できませんが、統計学の基礎は分かるかと思います。またこのシリーズで「自然科学の統計学」や「人文・社会科学の統計学」という本も出ています。


宇宙怪人しまりす医療統計を学ぶ (岩波科学ライブラリー (114))

宇宙怪人しまりす医療統計を学ぶ (岩波科学ライブラリー (114))

この「しまりす」本はエッセイ的に書かれているので文系の方も読めると思います。「比・率・割合」の学問的な違いから「ランダム化試験とは?」という統計学の本質まで分かりやすく書いてあるので、かなりお勧め致します。


カラーイメージで学ぶ統計学の基礎

カラーイメージで学ぶ統計学の基礎

本のタイトルになっているように、絵をふんだんに使って説明されています。初めて学ばれる方が「分布」などのイメージを付けるにはかなり良い本だと思います。

洋書ではお勧めしたい本はいっぱいあるのですが、、、日本語の書籍はまだ数が少ない印象です。「統計に騙されるな」といった内容の本は良くみかけますが、正しい知識を持っていれば騙されることも少ないですよね。不用意に不信感を煽るのは良くないと思います。。



8. 分散分析で出てくる「一元配置」とか「乱塊法」の意味

分散分析は古くから使われている手法ですので、言い方が馴染みにくいものもあります。ですが意味が分かればそんなに難しい手法ではありません。「一元配置」とかの「元」は変数の意味です。「要因」も変数と同じ意味です。一元配置分散分析は、カテゴリ変数が1つでカテゴリの水準が多数ある場合に、結果との関連を調べる手法です。「1変数分散分析」という表現に脳内変換すると分かりやすいかもしれません。「二元配置」だったらカテゴリ変数が2つあるわけですね。

また「乱塊法」は「ブロックランダム化」の事です。これは字が難しいだけで、実は読んで字の如くなのですが。。特にサンプル数が少ないときは、単純ランダム化で割り付けをすると偏ってしまう可能性もあるので、ブロックを使って割り付けが均等になるようにする方法です。デモグラフィック変数(背景変数)の層ごとに均等な割り付けを行うときは「層別ランダム化」をしますが、その際にも使われるようです。



9. 「多変量解析」は色んな意味を指す

多変量解析という言葉はいろんなところで使われますが、全く違う方法を指すこともあります。例えば、

  • 多くの変数を使った重回帰
  • 説明変数の変数選択
  • 次元縮小を行う主成分分析
  • 集団のグルーピングを行うクラスター解析

などの意味で使われます。「多くの変数を持つデータ」に対する分析という意味で多変量解析と呼ばれるのだと思いますが、「多変量解析をして欲しい」と言われて引き受けると、結局どんな解析をしたら良いのか分からなくなることもあります。そんな時は解析の依頼者と密に打ち合わせをする必要がありますね。



10. 統計学を学べるコミュニティ

日本には大学に「統計学部」が無いので統計学を学ぶ機会が極端に少ないです。海外では「department of statistics」が数多くあるので、そこで学んだりそこから派生して学ぶ場もあると聞きます。しかし日本では統計学を学ぶコミュニティは次のようなものがありますので、是非ご活用下さい。分からない事は分かっている人に聞くのが一番!

Rのコミュニティは各地で開催されているようですので、近くで開かれたときに参加されると良いかと思います。おしゃれStatistics(略称:おしゃスタ)は私が主催している勉強会です。おしゃスタは月に1回くらい、平日の夜に開催しています。ツイッターGoogleグループを通してATNDで告知を行っていますので、ご都合の付かれる方は是非ご参加下さい。TokyoWebmining統計学部の方は、@hamadakoichiさんが主催されているTokyoWebminingという勉強会で、連載の形で統計学について話をさせて頂けることになりました!以前記事にしました「ぼくのかんがえたとうけいがくぶ」に沿って講義しようと思っています。


海外の企業に負けないようにどんどんデータ分析できるようなスキルを身につけれるよう、統計学の基礎知識も磨きたいものですね!


【追記】

11. 「母集団」や「母数」って?

母集団の英語は「population」ですので、本当は単なる「集団」です。ランダムサンプリングしてデータを得たのであれば、そのデータの元となった集団の事。そういう意味を込めて、母という言葉を付けたんだと思います。統計学はサンプル集団から全体の特徴を推定する学問なので、母集団という言葉が良く出てきます。英語では「source population」という言葉があるので、本来は「源集団」などが適切な言い方なのかもしれません。また「母数」という言葉も出てきますが、これは推定したい「パラメータ」の事ですので全く違う概念ですね。。こっちはどうして母を付けているのか不明です。初心者のうちに「母集団の母数を推定する」とか言われるともうパニックですよね。



12. 英語のお勧め本

英語のお勧め本も書いておきます。

Statistics

Statistics

海外の授業でも使われている教科書のようです。平易な英語で、初学者でも分かりやすく書いてあります。統計学で最も重要な問題の1つである「交絡」についても、実際に起きた例に沿って説明してあるので良いですね。おしゃれStatisticsでもこの本を使っています。


Applied Regression Analysis (Wiley Series in Probability and Statistics)

Applied Regression Analysis (Wiley Series in Probability and Statistics)

回帰に関する内容がとても詳しく説明されています。最小二乗法の幾何学的な解釈などを、図を使って分かりやすく説明されてたりします。多重共線性についても触れてあります。


Statistical Methods in Medical Research (Armitage, Statistical Methods in Medical Research)

Statistical Methods in Medical Research (Armitage, Statistical Methods in Medical Research)

「Statistics」よりも理論的な事が書いてあります。医療分野での統計学と書いてありますが、様々な分野で使われる基本的な方法が多いですので、医療分野の方でなくても勉強になるかと思います。一応、訳書も出ています。あと確か第5版が出たという話ですが、探しても見つからないですね。。



13. 尤度と最尤法の実用的な意味

尤度についても最初は概念はあまり深く考えず「最尤法」というツールとして利用できるようになれば十分だと思います。確率関数と尤度関数は数式上は全く同じ形をしていますが、重要なのは数式の中でどの変数が固定されてて、どの変数が自由に動けるのか?ということです。確率関数ではパラメータが固定されていて、変数Xが動きます。尤度関数では変数Xが固定されていてパラメータが変動します。最尤法は変数Xが固定されている状態で、尤度が最大になるパラメータを求める方法なのです。尤度が最大になる点というのは、尤度の微分が0になるところなので、そこが求めるパラメータとなるのです。



14. 数式にはスカラー、ベクトル、行列が混在している

統計学の教科書や論文に出てくる数式は、スカラー・ベクトル・行列が混在しています。どの変数がどうなっているのかを常に意識しておかないと、すぐに数式が追えなくなってしまいます。例えば線形回帰の例では、

  • Y = Xβ + e

のように書けますが、それぞれどうなっているか分かりますでしょうか?Y、β、eはベクトルでXは行列です(切片の無い単回帰の場合はXもベクトルになりますが)。さらにベクトルや行列は次元がありますので、次元をメモしながら数式を追うと分かりやすいですね。行列計算に関する教科書は英語ではこれがお勧めです。

Matrix Algebra for Applied Economics (Wiley Series in Probability and Statistics)

Matrix Algebra for Applied Economics (Wiley Series in Probability and Statistics)

日本語の本は、、、また探しておきます。



Statistics-Based Consulting ~ iAnalysis~