Column連載コラム
2022.10.13
なぜデータ分析で統計学が必要なのか
■はじめに
データサイエンスアカデミー兼任講師の元村です。
私は普段データサイエンティストとして働いておりますが、リクルーティング活動の一環で学生の方とお話する機会もあります。その中で、「データ分析で統計学は必要か」という話題になる事が割と多かった印象があります。それを踏まえて今回は、「データ分析における統計学の必要性」をテーマに、私の考えを述べていきます。
■統計学の必要性
統計学が必要な理由については色々な意見があるかと思いますが、私の考えを一言で表すとすれば「分析結果の解釈や説明のために必要」という考えです。この考えについて、いくつか例を挙げながら補足いたします。
・分析モデルの精度検証や効果測定の観点から
モデルを構築した場合、そのモデルが妥当であるか評価するために、精度検証が必要です。回帰モデルであれば「決定係数」や「平均二乗誤差」など、分類モデルであれば「適合率」や「再現率」などを算出し、そういった情報を基にモデルを採用するのか議論を行います。これらの指標を算出するための数式自体は単純ですし、関数として実装されている場合もありますので、実装に苦労する事は無いと思います。
しかし、数式が何を意味しているのか理解していないと、正しい議論をすることが出来ません。特に「AIモデルを初めて導入します!」といった状況の場合、いきなり「適合率」「再現率」といった専門用語で議論を始めても伝わらないので、専門的な知識については丁寧に補足が必要です。
ステークホルダーの理解を得るためにも、「どのように実装するか」だけでなく「どのような理論に基づくのか」を知る事、すなわち「技術を理解して使える事」が、データ分析を仕事にする上で大事になってきます。
また、モデルの運用を始めた事で効果が出ているのか、測定を実施して検証する必要があります。
効果測定の代表的な例として「ABテスト」が挙げられますが、統計学の授業で学ぶ「t検定」や「p値」などといった、統計的仮説検定の知識がここで役立ってきます。仮説検定の考え方というのは初学者にとって間違えやすい内容であるため、何も考えずに実装してしまうと「p値を都合の良いように操作している(p-hacking をしている)」「正しく効果を測定できていない」等といった事態になってしまいます。
このような正しくないテストで得られた結果を信じて施策を続けていく事が、会社にとってプラスの行動でない事は、容易に想像がつくかと思います(もちろん、正しくないテスト結果がたまたま実態を反映していた、という場合はありますが)。そうならないためにも、しっかりと統計学の理論背景を理解した上で、テストの設計や結果の解釈を行っていく必要があります。
・分析の基となるロジックの観点から
分析モデルの根底には、統計学の考え方があります。
例えば、最も基本となる分析モデルとして「線形回帰モデル」が挙げられますが、このモデルの適切なパラメータを推定する際に「最小二乗法」が用いられます。この線形回帰モデルを Python で実装するとなった場合、scikit-learn というライブラリを利用すれば、最小二乗法の知識が無くとも実装は可能です。
しかし先ほど述べた通り、データ分析を仕事にするのであれば、技術を理解して使える事が大事になってきます。特に最小二乗法のロジックは、実測値と予測値の誤差を最小化するという基本的な考え方に基づくものなので、一回は手計算で導出してみると良いでしょう。
また、線形回帰モデルから良い示唆を得るためには、得られたパラメータを基にどの変数が重要であるのか判断したり、分散拡大係数などを基に多重共線性が存在しないか判断したり、といった事が必要です。そういった判断をするためにも、どのようなロジックが背景にあるのか理解しておく必要があります。
分析モデル以外にも目を向けますと、分析の際にデータが欠損している、といった事があります。欠損しているとその後の処理が上手く回らない事が多いので、何とかして対処する必要があります。カラムの平均値を代入したり、欠損があるレコードを削除したりと、欠損の対処法は色々考えられますが、欠損が発生するメカニズム(ランダムに発生するのか、データに依存するのか、等)によって適切な対処法は異なります。
このような「欠損があるデータの解析」に関する統計学の理論もあり、そういった知識があれば欠損に対して適切に対処できます。
■おわりに
ただデータ分析をするだけであれば、Python や R のライブラリを使えば簡単に実装できますし、DataRobot や Amazon SageMaker 等といったAIプラットフォームも世の中にあります。
とはいえ、得られた分析結果を解釈したり説明したりするのは、データサイエンティストの役目です。そのため、その手法がどういう仕組みで動いているかに目を向ける事も大事ですので、日々扱っている手法の理解を深めるためにも、統計学を勉強してみてはいかがでしょうか。