Column連載コラム
2021.11.09
【講師自己紹介】文系出身の私がデータサイエンティストになるまで
データサイエンスアカデミー講師の中澤です。
データサイエンスアカデミーで教える以外に、現場でもデータサイエンティストとして勤務しています。私のバックボーンを踏まえつつ、データサイエンティストになる経緯など、以下のようなことを紹介します。
・これまでどのような分析業務を行ってきたか
・学生時代の専攻は何であったか
・なぜデータサイエンティストを目指したか
・データサイエンティストにはどのようなスキルが求められるか
業界ではまだまだマイノリティの文系からデータサイエンティストになった一例としてお役に立てば、と思います。
■これまでどのような分析業務を行ってきたか
データサイエンティストとして新卒で就職し、これまで携わったプロジェクト等を列挙してみると、
・ファッショントレンド予測
・EC商品の分析
・アパレル商品の需要予測
・実店舗の購買傾向分析
・Instagramの分析
・在庫最適化処理、Webアプリによる実装
など分析、開発と多岐にわたりますが、一貫してアパレル業界での経験です。
PoCといわれるプロジェクト開始前段階の検証もありますし、プロジェクト化したものを多くの人で日常的に活用するためにWebアプリ化したり、ちょっとしたダッシュボードツールを作成したりのエンジニアリング寄りなタスクも経験したことあるのが、データサイエンティストとしては少し珍しいかもしれません。
■データサイエンティストになる前について
私は新卒で採用されてデータサイエンティストとしてのキャリアを開始しました。ですので学生時代について少し紹介せてみようと思います。
小説やマンガが好きで本に関わる仕事がしたい。あわよくば自分が物書きになりたいと思い文学部を志していました。「おもしろい話を作るための教養が深まるはず!」と大学では世界中の古典を勉強したいと思っていたくらいです。その後、第一志望の学校に合格できなかったり、別に文学部じゃなくても良いのでは?と思ったり、家族の意見等ありプロフィールにある通り同志社大学の経済学部に進んでいます。文系ですし、入学試験で数学を使わなくても合格できる学科です。高校のクラスも三年生の時は文系だけのクラスに在籍していたため、ネイピア数や対数の微積分は知らないまま大学生になっています。また、指導要領の変更によりデータサイエンスでも頻出する行列、線形代数も教わらなかった年代です。経済学部の必修科目の中で微積分や線形代数は簡単には履修します。
要するに統計学、エンジニアリング、コンピュータデータサイエンスにまつわるどれをとってもほぼ無縁でした。
■データサイエンティストになっていく過程
上記の通り、データサイエンスの「デ」の字もない環境からデータサイエンティストになりました。門外漢がデータサイエンティストになる方も増えてきたので一例としてそのプロセスを紹介します。
大学3年生(関西の大学なので自分たちは3回生と言っていました)の春学期に計量経済学や統計学を履修し、期末試験で大変な思いをします。大学に入ってから学んだ微積分、行列の計算はほぼ忘れてしまった頃です。仲の良かった工学部の先輩に相談しました。(プラントのデータ解析を研究していた人でした)
軽い気持ちで「教えてくださいよ~」と言ったことをきっかけに数学、統計学から叩き込まれました。かなり厳しく笑
その途中で統計学っておもしろいなと思うようになりました。
また、統計学や数学を教えてもらう過程で、「この知識/手法は僕の研究ではこんな風に使ってる」などの実用面も合わせて話してもらっていたので、データ解析は守備範囲が広いし、その応用もおもしろそうだなと興味を持ち始めました。
その後、データ解析をやるにしても基礎や理論じゃなくて現実の問題に応用がしたいと思ったので修士課程に進むことはせず、ビジネスの世界を目指し、新卒として採用され今に至ります。(今でこそデータサイエンティストが増えてきたのでそんなこともありませんが、当時のデータサイエンティストの募集は理系(特にコンピュータサイエンス)の修士以上という条件が意外に多かったです。文系かつ学部卒の私はそもそも応募資格がない、応募できても1次とかであっさり”お祈り”されました笑)
■データサイエンティストに必要なスキルについて
よく数学、エンジニアリング、ビジネスの3つと言われ、3つの円の領域を使った図で表現されます。↓こんなやつです。
http://www.datascientist.or.jp/files/news/2014-12-10.pdf
ある程度の水準まではすべて必要だと私も思います。が、そのうえでさらにデータサイエンティストとして勝負していく、という話になると私個人の主観では、ビジネス力がいちばん効くんじゃないかな?と考えています。(アカデミックの方々を含めない前提ですが)会社に所属していても個人でもいいですが、仕事としてデータサイエンスを扱う場合、最終的に行き着くのは「で、いくら儲かるんですか?」という点です。
どんなに素晴らしい手法を使っても、結局利益につながらなければ仕事になりません。データサイエンスというのはあくまでも利益追求する際のいち手段にすぎません。もっと手軽で安く、早い手段があるならデータサイエンス的アプローチを使う必要はないのです。ですので、データサイエンス的なアプローチが他のどの手法よりも、刺さる領域を察知する嗅覚、それを通す提案力あたりがかなり大事になってきます。
データサイエンス的アプローチに限った話ではないですが、目標設定がまずければどんなにスキルを持っていても良いパフォーマンスにはつながりません。笹森先生がよく「Garbage In, Garbage Out」と言っています。
データサイエンス業界は日進月歩で進化しているといいつつもある程度は王道、定石的なアプローチはあります。Kaggle(データサイエンスのコンペ)を見ていても、マシンスペック等に依存しない類のものなら、みんなだいたい似たような手法使って似たり寄ったりのスコアを出しています。データサイエンスプロジェクトの成功は起点の良さでほぼ決していて、前処理、分析…etcはある種の答え合わせなんじゃないか?と現場にいて感じるようになってきました。
ですのでデータサイエンティストとしてのバリューは与えられたルールのもとで点睛を追及することよりも、勝てるフィールドを用意できることの重要性が高くなってきます。
(ちなみに、キャリア自体は
・与えられた条件下で適切な手法を選定、実装できるようになる
・どんなデータがあればデータサイエンス的アプローチが効きそうかわかるようになる
といったあたりから地道に積み上げていきます。なので、スキルではないですが、この分野への興味や関心の強さも大事な要素になってきます)
■おわりに
と、ざっくり私のデータサイエンティストとしてのキャリアの始まりについて紹介しました。理系でデータサイエンスを扱ってきたような同期もおり、確かに彼らに比べるとスタートラインは後ろからになりました。が、地道に勉強をしていくことで追いつくことは十分可能です。
もしこの記事を読んでくださる方の中に、データサイエンティストになりたいが、大丈夫だろうか……?と考えている方がいらしたら、ぜひ挑戦してみてほしいです。
抜け道も近道もない代わりに愚直にやっていけば必ずゴールにたどりつけます。
もし、縁あってデータサイエンスアカデミーで一歩目を踏み出すことになれば全力でサポートします!