Column連載コラム
2022.01.25
マーケティング、DX領域におけるデータサイエンティストのしごと
講師の中澤です。
私はデータサイエンティストとしてのキャリアのなかで、分類、予測といったアナリスト的なもの、業務効率化ツール、アプリの作成といったエンジニアリング的なものまで多岐にわたって取り扱ってきました。その中からマーケティングと言われるあたりの領域で、分析的なプロジェクトを一件、紹介します。
「これからデータサイエンティストになる!」と思っている方に現場感を感じていただけたら嬉しいです。
■画像を用いた商品トレンド予測PoC
商品の「見た目」が大事な商材を取り扱っているクライアントに向けた分析プロジェクトでした。「見た目」が大事という特性をうまく使って、商品の画像を集めてきて、「特定の形、色、材料が急増/激減した」といった事実から次のシーズンの需要の推測に役立てられないだろうか?といった仮説を起点に始まったプロジェクトです。
①画像収拾
やったこと自体は以下です。
・他社商材も含めて取り扱っている商材の写真が取得でき、かつスクレイピングが禁止されていないサイトを調査
・サイトを決めたらそのサイトから目的のデータを取得して格納するプログラムを作成して画像を獲得
※対象のページが複雑で、かなりハイレベルなクローラーの作成が必要になり時間もかかりました。
②データ作成
・収拾してきた画像への正解ラベル付与(アノテーション)
1枚1枚人の目で見てラベルを付与する泥臭い作業です。(さすがに全部をデータサイエンティストがやるということにはなりませんでしたがかなり大変な作業でした)
③分類
時間短縮のため、今回の商材の分野に特化した分類モデルを提供しているサービスを活用し、4つほど比較しました。
もちろん、自前で学習させてモデル作って……ということでドンピシャのものを作成することも可能ですが、時間も予算もかかるのでPoC時点では既存のソリューションを使ってみるという判断になっています。
④精度比較
②で作った正解データと③でモデルが検出してきたラベルを突き合わせてみます。
precision, recall, F1-scoreといった精度指標を算出したり、モデルごとに色の検出が得意とか、形の検出が得意、粒度が細かい/粗いといった特徴も検討してみます。
⑤実際の販売実績との比較、予測
④で最適と判断したモデルを使って、社内の販売実績を比較しました。
そこそこ当てはまるものもあれば、全く当たらないものもあるものです。
あたっていそうなものは、簡単な予測モデルを作ってみて予実を比べてみることもします。
⑥結果報告
⑤の結果をまとめて報告していったんプロジェクト自体は終了します。
この結果をうけて、本格的に運用するという意思決定があれば実運用に向けた業務が追加的に発生します。(一般的な話をすると、承認のフローや予算の獲得等に時間が掛かる傾向があります)
■まとめ
ひとつのPoCについて簡単に書いてみました。
データサイエンティストの業務の一環でデータの取得や、正解データの作成のようなあたりまでイメージしていなかったのではないでしょうか?データクレンジング、前処理のような泥臭いところが業務の8割とか語られることもありますが、データがないというところから始まることもあります。そして、最後に予測も行いますが、学習やモデル作成の結果に寄与するのもデータの質です。今回紹介した業務でいうと①,②あたりは土台であり根幹です。○○モデルみたいな手法の選定や特徴量作成といったところは枝葉です。学習、予測、チューニングは半ば答え合わせでしかないことも多々あります。
正直言って「めんどうくさい」「おもしろくない」側面もありますが、最後に良いアウトプットが出ると報われます。仮説が「ハマって」いることが確認できた時なども脳汁が出そうになるような楽しみもあります。
泥臭い側面も含めて「楽しんでみよう」と思えたそこのあなた!データサイエンティストに向いていると思います。
現在は日本語でも学べる環境は増えてきて裾野が人がってきています。ぜひ知識や技術を習得してデータサイエンティストになってみることも考えてみてはいかがでしょう?