Column連載コラム
2022.01.03
【講師自己紹介】データサイエンス業界への転職のきっかけと転職後の業務
データサイエンスアカデミー兼任講師の塚田です。
グループ会社のデータフォーシーズでデータサイエンティストとして働く傍ら、データサイエンスアカデミーで講師も兼任しております。本記事では以下について述べていこうと思います。
・なぜデータサイエンティストを目指したか
・これまで携わった業務について
■なぜデータサイエンティストを目指したか
ここでは前職から今のデータサイエンス業界への転職に触れつつ、なぜデータサイエンティストを目指そうと思ったのかについても述べていきます。
私は大学学部卒業後、マーケティングリサーチ業界へ就職しました。その中でいくつかのプロジェクトにアサインしましたが、主として小売業の定量調査のプロジェクトに従事していました。定量調査ではデータ化されていない数値や事象を計測してデータ化し、それらを集計し重回帰分析などの基礎的な統計を駆使して知見を見出し、クライアントに対して付加価値を与えていく業務でした。その業務の中で統計的手法を駆使することで新しい知見を発見することに楽しさを見出していました。
しかし、マーケティングリサーチ業界ではメインはデータの取得、集計であり、時としては分析まで携われないこともありました。
分析について独学で学んでいるうちに出会ったのがデータサイエンスでした。そしてより興味がある業務と、楽しさを求めて転職活動を通してデータフォーシーズと出会い、現在の仕事をさせていただいています。
■これまで携わった業務について
ここでは私の携わった業務をいくつか紹介しつつ、データサイエンティストにとってこういう事も大事であると個人的に思っている点について述べていきます。
・各国のアパレル店の客数データの時系列分析
この案件では日単位や週単位で予測を行うモデルの精度を高めるために、各国の客数の増減に関わる祝日やイベントを特徴量として取り込むために分析を行いました。客数の分析の際にはRを用いて、季節性、トレンドに分解してデータを分析していたのですが、その中で単純なカレンダー上の祝日や季節性だけでなく、各国の宗教、慣習といった要素や特定のブランド商品の発売日などが影響を及ぼしていることが分かりました。
高度なデータサイエンスの知識だけでなく、現場、業界のドメイン知識といったことに精通することも重要であると思っています。
・機械学習モデルの運用/高度化
こちらの案件では店舗ごとの販売量の予測を行う機械学習モデルの運用と高度化を行いました。運用するにあたって良い精度の予測を行うことも重要なのですが、それ以上に説明可能性も重要となってきます。予測が現場の感覚と違う変動をする場合、なぜその予測値を出したのかという説明を求められることが多々ありました。機械学習モデルでは往々にしてなぜその結果を出したのかがブラックボックス化することがありますが、その出した予測値に対して現場で適切に運用していただくためには機械学習モデルで算出した予測結果を説明し、納得して運用してもらう必要があります。そのため、運用する現場の人にとっても納得のいく説明ができるかという要素もデータサイエンティストにとって重要な要素になってくるかと思います。
■おわりに
今回、自己紹介として以下の2点について述べました。
・なぜデータサイエンティストを目指したか
・これまで携わった業務について
今後もこちらの方に記事を投稿してまいります。兼任講師という立場ではありますが、私自身も発展途上の身であり、データサイエンスもここまで学べば完璧ということはないと思っています。この記事を読んでいただいた皆さんとともに学び成長できれば幸いです。