分析に集中できる環境と、高度な技術力を持つデータサイエンス組織

本日はよろしくお願いします。まずは、久保さんが所属している、ディップのデータサイエンスチームについて教えてください。
現在のチームのミッションは、経営の数字を良くすることです 。マクロ経済のように数理的なモデル組み立てから戦略を決めきる部分と、データによるプラン差配の最適化や異常検知などのデータドリブンな戦術的な部分の両方を担っています 。
メンバーのスキルや専門性についてはいかがでしょうか。
社会科学出身のメンバーが多く、時系列予測や、因果効果の分析などのデータ分析の柱とも言えるスキルはメンバー全員が持っていると思います 。また、手法の思想としてベイズ的なアプローチを取ることが多く、分析者が決めるハイパーパラメータ的な要素を減らし、データそのものに語らせるようなノンパラメトリックベイズ的なアプローチを好んで使うメンバーもいます 。Rユーザーが多いのも特徴ですね 。
データサイエンティストにとって、働く環境としての魅力はどこにありますか?
ディップでは役割分担が明確にされており、BigQueryを叩いてデータを抽出するようなデータエンジニアリング的な作業は専門の部署に依頼することができます 。そのため、私たちデータサイエンティストが純粋な「分析」に集中できる環境が整っているのは大きな魅力です 。
最先端の手法で顧客の課題を解決し、現場に伴走する

チームとして、最近取り組まれている具体的なプロジェクトについて教えてください。
現在は、応募予測モデルとプラン最適化を掛け合わせた案件に取り組んでいます 。背景として、応募提供単価が高くなってしまうと、『バイトル』への掲載をクライアントから打ち切られてしまう可能性があります 。これを防ぐために、営業部門がどの都市のどの店舗にどのように広告を打つべきかをデータから最適化し、ダッシュボードでの広告露出調整なども行っています 。
非常にインパクトの大きいプロジェクトですね。具体的にはどのようなロジックで動いているのでしょうか。
職種や時給、アクセスといった「掲載に関する情報」と、支払える上限額などの「広告プランに関する条件」を入力すると、最適なプランを決定する仕組みです 。時系列的な予測には、ガウス過程のような柔軟性を持たせつつ、計算負荷を下げる工夫をしています。
具体的には、週や年といった周期成分はフーリエ級数展開による滑らかな関数で表現し、長期的なトレンド成分は有限個の代表点を滑らかに繋ぐカーネル法を用いています。これらを棒折り過程によってデータから動的に重みづけすることで、時系列の変化を柔軟に表現しています。また、地理的な要素などには階層ベイズ的な表現を導入しており、ベイズモデリングの強みを活かした形になっています。
かなり高度な手法ですね。実装面での工夫はありますか?
実装はRとStanで行っています 。非常に大規模なデータを扱うモデルであるため、時系列の変動部分では、重みを計算する変化点を実行可能な数にしぼり、間の点についてはRBFカーネルを使って滑らかに補間して反映させるという高速化のアプローチを取りました。
予測モデルを使って、現在のプランから別のプランに変えた場合の「反実仮想」を全プランについて計算し、金額の投入に対して応募予測の伸びが良い、つまり「限界効果が高い」プランの上げ方を考慮して予算を最適に使い切るロジックを組んでいます 。
高度なロジックを組み上げながらも、最終的な目的は現場の課題解決にあるのですね。
この応募予測モデルの案件などはリリースして終わりではなく、その後も現場の方々と伴走しながら、継続的な改善を目指しています 。
修士課程までの学びが、ビジネスにおけるデータ分析の土台に

最後に、現在ビジネスの世界でデータ分析のお仕事をされている久保さんの学生時代の学びについて教えていただけますか?
私は学部時代、法学部の政治経済系の学科に所属していました 。2年生の時に計量経済学を学んだのですが、そこで「誤差項」という概念に惹かれたのがデータ分析に興味を持ったきっかけです 。観測できない部分をモデルに組み込むという考え方が非常に面白いと感じました 。
そこからさらに統計学やデータ分析の世界にのめり込んでいったのですね。修士課程に進まれた決め手は何だったのでしょうか?
学部2年の時に新型コロナウイルスの影響があり、そのタイミングで勉強に打ち込めたことと、周囲の雰囲気が大学院進学に向いていたことが大きかったです 。学部では労働経済学のゼミで計量経済学の本を読んだり、リサーチデザインの設計について学びました 。
修士論文ではどのようなテーマを扱ったのですか?
選挙における政党の候補者擁立戦略について研究しました 。具体的には、前回の選挙で女性候補が勝った小選挙区において、次回の選挙でも政党が女性を擁立する確率が上がるかどうかを分析しました 。
リベラルな有権者が多い地域特性や、政党ごとの女性候補者の割合などのアウトカム(女性候補の擁立)と処置(前回選挙の結果)の両方に影響を与える要素があり、それらのバイアスを取り除くことに非常に苦労しました 。識別戦略としては、前回選挙の投票率を閾値としたRDD(回帰不連続デザイン)を採用しました 。
非常に高度なアカデミアの経験ですが、経済学修士を取得するまでの学びは、現在の実務に生きていると感じますか?
はい、間違いなく生きています 。マーケティングや企画部署の意思決定者が「やりたいこと」を言語化していくと、結局のところ、計量経済学で体系的に議論されてきた概念に落ち着くことが多いのです 。
具体的にはどのような場面でそれを感じますか?
例えば、応募数に対して地域特有の影響や職種特有の影響の大きさを考慮するのは「固定効果」の考え方ですし、セグメントごとの影響と時間による影響を考えるのはTWFE (Two-Way Fixed Effects:双方向固定効果モデル) 的な概念です。また、KPIなどのアウトカム(Y)を回帰式的に考えたとき、私たちが関心を持つのは「ある条件(X)を動かした時の限界効果」です 。これらは全てビジネスにおける問いを計量経済学の言語で議論できることを示していると思います。
また、教科書などで統計分析について体系的に学んだ経験も現在に生かされています。学生時代にコアコースなどで基礎をしっかり鍛えられていたからこそ、実務で新しい手法を学ぶ必要が出た際にも、素早く理解できる土台になっています 。社会人になると毎日8時間は働くことになるため、まとまった勉強時間を確保するのは難しいので、この経験は非常に大きいです 。
アカデミアで培った高度な専門性を武器にしながら、常に現場想いでロジカルにビジネスを前進させる姿勢がとてもよく伝わりました。本日は貴重なお話をありがとうございました!







