Column連載コラム

2023.04.01

ビックデータ分析における統計学の重要性

講師の南です。

データ分析という単語は社会の様々な場面で重要なキーワードとなりつつあります。実際に多くの企業などでデータ分析を実際に行い、ビジネスとして活用するために、多くの努力を行っております。そのような中で企業が求めるデータ分析人材として必要不可欠なことは、プログラミングのスキルと統計学への知識だと考えております。

それ自体はご存じの方も多いと思いますが、それらが必要な理由としては

・扱うデータ量が非常に大きくなっている

・数的処理の直観力があると前提知識を補完できる

という点が特に大きな要因だと私は考えています。

まず扱うデータの量が非常に大きいということですが、企業が保有するデータの量はもはやGB単位を超えてTB単位でもあり得ます。何十億行のデータなんてもうそんなにおかしくもないですね。それほどのサイズを持つデータをEXCELで分析することはまず不可能で、そもそも大きすぎて読み込めませんので、ほかの方法を使うしかありません。そこでプログラミングを学び、実際データを扱う方法を学ぶのです。

次に2つ目の理由である、数的処理ができると前提知識を補完できる、ということの説明の前に以下の例題を考えてみてください。

あなたはある男子校の学生と身長のデータをもらいました。しかし、よく見たら、そこに入っている値が65,69,81,72のような二桁の数字でした。このような問題に対してあなたはどう処理しますか?

この段階で選択肢は2つあります。
①この数字を正しい身長だと認識し、仕事を進める。
②もしくは身長が正しいか確認をする。
おそらくほとんどの方々は後者を選ぶと思います。なぜなら、あり得ない話だからです。

このような判断ができる能力を私の周りでは「データに関する知見を持っている」といいます。

60㎝の男子高校生は非常にレアなケースで、このデータでの実際の男子高校生の身長は恐らく160cmから180cmの間でしょう。こういった判断は非常に一般的なものかと思いますが、これは「60㎝の男子高校生は非常にレアなケースである」という知識を持っていたためにデータが異常であることを早い段階で気づくことができたのです。

身長のような一般的知識的なものであればいいのですが、プロジェクトごとの知識はそのデータに合わせて学んでいくしかありません。例えば、衣服の1年間の販売データの情報を持っているからといっても、食料品の1年間の販売量のデータでの誤りや予測を判断することはむずかしいのです。

ここで役に立ってくるのが統計学の知識です。統計学の知識は上記のような業界やプロジェクトごとに有効な知識とはちょっと違いますが、データを見ていく中での直感的な感覚などを育ててくれます。

例えば、データを見ていく判断基準として統計検定2級のテスト範囲には母比率の差の検定というのがあります。2つの母集団における割合に差があるといえるかどうか、という部分を検証するものです。

簡単に例を出してみましょう。

Aグループでは100人のうち90人が赤い服を着ています。Bグループでは、100人のうち、10人だけ赤い服を着ています。この2つのグループの服の比率に差はあるといえるでしょうか、それともないといえるでしょうか。

おそらくこれぐらい割合に差があれば、ほとんどの人は2つのグループにおいて、赤い服を着ている割合に差があるというでしょう。

次にCグループでは100人のうち50人が赤い服を着ていて、Dグループでは54人が赤い服を着ていた場合はどうでしょうか。

確かに数字の上では差はありますが、実際に50%と54%のたった4%を「差がある」と判断をしていいかは難しいところですね。何となくで決めてもいいのですが、折角なので明確な基準が欲しいところです。

そういったときに統計学の知識を用いれば、「どの場合に」「何%の比率の差になったら」「2つのグループに差があるといえるのか」を数字に基づいてはっきり提示することができます。そのため、明確かつ客観的な基準を設けることで、直感的に判断していた部分を明確に決定することができます。

このように統計学の知識を持つということは、様々な問題に対して、数学的に接近し、ちゃんとした根拠に基づいた考え方ができるようになり、それを用いて知見を補完する役割となることです。

まとめると、プログラミングスキルはデータ分析という目的を果たすための道具であり、統計学の知識はデータ分析という目標を果たすための知識、というふうに考えてほしいのです。もちろん、両方とも簡単に備えられる能力ではないですが、これらの勉強をやり続けることこそ、立派なデータサイエンティストへ至る道だと信じます。

データサイエンスアカデミーでは、
無料個別相談・セミナーを実施中!
お申し込みはこちら

Archiveアーカイブ