国内最大級のデータとそれを
支える盤石なデータ分析環境
を使って、熱い仲間と働ける
。
国内最大級のデータとそれを支える
盤石なデータ分析環境を使って、熱い仲間と働ける。
國吉 翔平(くによし しょうへい)2021年入社
新卒でNTT東日本に入社し、データ分析に従事。2021年データアナリストとしてヤフー(現 LINEヤフー)に中途入社。広告事業における広告配信モデルの開発、検索広告における広告文最適化などに従事。
※本記事は2024年2月に取材したものです。サービス名称や所属は取材当時の内容です。
國吉翔平です。大学の情報学科でプログラミングを学び、2011年に新卒で入社したNTT東日本では研究部門でずっとデータ分析をしていました。具体的に担当していたのは、通信インフラ投資の効率化に向けたユーザー需要予測や電柱やマンホールといった物理的な通信インフラの劣化予測などです。
私は実際にコーディングなど手を動かしてものづくりをするのが好きで、スペシャリストとして働き続けたいと思っていました。ただ、前社ではジェネラリストとしてキャリアを歩むのが一般的。10年以上勤め、そろそろマネージャーになるキャリアも見えてきたところで転職を決意しました。せっかくなら違う分野に関わりたいと思っていたところ、広告業界へ転職した前職の同期に「広告やマーケティング領域は多種多様なデータ分析ができる」と聞いたのが、ヤフーに興味を持ったきっかけです。国内最大級のデータ量を誇るヤフーならおもしろい分析ができそうだし、スペシャリストとしてのキャリアが歩めそうだと感じました。
私が所属するデータソリューション本部は、データアナリストが中心の組織ですが、私はそのなかでもデータサイエンティストに近い領域で機械学習の開発に比重を置くサイエンスチームに所属しています。
現在取り組んでいるプロジェクトは大きく2つあります。まず入社直後から取り組んでいるのが、ヤフー広告事業における広告配信ソリューション「Yahoo! JAPAN 予測ファネル」(以下、予測ファネル)です。広告というものはランダムにユーザーをリストアップして配信しても思うような効果を得られません。予測ファネルは、ユーザーが該当広告の商材にどれくらい興味があるかをスコア化し、高スコアのユーザーに効果的に広告を配信できるようにする仕組みです。
すでにソリューションとしては成熟しつつありますが、まだ予測精度には改善の余地があります。たとえばLINEヤフーが保有しているユーザーの行動データのうち、まだ使っていないデータをモデルの開発に組み込んだり、すでに使っている行動ログデータを組み合わせて二次行動ログデータをつくったりすることもできます。この新しい広告配信モデルを開発するプロジェクトは3人の少数チームで動いていて、私自身は手を動かしつつ、プロジェクトをまとめる役割も担っています。
もう1つ、途中から関わっているのが、検索広告における広告文最適化・自動生成機能です。「Yahoo!検索」の検索結果の上位に広告が表示されるのを見かけることがあるかと思いますが、あの広告文は広告出稿主が考えています。それを機械学習を使ってよりパフォーマンスが出るフレーズに最適化したり、広告文自体を自動生成したりする、生成AIを活用した機能をまもなくリリースします。こちらもチームは3名ですが、機能を実装するシステム担当なども関わり、全体としては少し人数が多いプロジェクトだったので、週1回の定例のほかにもSlackで要件のチェックや結果の確認を密に実施していました。
私のチームでは人によってクライアントと直接やりとりすることもあるのですが、私自身も、セールスやコンサルティング部門経由でフィードバックをもらい、機能改善や機能追加をすることもあります。クライアントの多様なニーズに対応する難しさはあるものの、クライアントごとにまったく違う分析ができるのは前職にはなかったおもしろさですね。
検証・実装と会議の比率は半々くらいで、夕方に子どもの保育園の迎えで中抜けするため、勤務開始時間を少し早めています。
データ分析は日々新しい技術が登場します。生成AIもほんの2年前にはなかった技術です。日々アンテナを高くして、技術をキャッチアップすることは常に意識していますね。
私がよくやるキャッチアップ方法としては、Kaggleのようなデータ分析コンペティションに参加することです。コンペティションではさまざまな新しい技術が解法として使われることが多いため、効率的に最新情報を得られます。こうしてキャッチアップした技術は、情報として発信もしています。チーム内への展開はもちろん、社内のデータアナリストやデータサイエンティスト約300名が参加しているSlackのチャンネルで情報を共有するこ機会も多いです。また、社内にはKaggleに関する情報交換や勉強会を開催する「Kaggleコミュニティ」があるのですが、実際に私が勉強会の講師として登壇することもあります。
これらのやりとりをきっかけに「今度こういうプロジェクトがあるんですけどやりませんか」と声をかけられ、上長にそのプロジェクトに参加したい旨を相談すると快諾してもらえたこともあり、情報発信によって仕事に広がりも生まれています。みなさんあらゆるプロジェクトに関わっているため、ほかの社員から得る学びや知見も非常に多いです。
あとはコミュニケーションも大事にしています。LINEヤフーのデータは非常に膨大で、どこに何のデータがあるかを把握する必要があります。そのため、さまざまな部門の方に教えてもらったり、頼ったりした経験も多いため、ヒューマンネットワークの構築も非常に重要だと実感しています。
予測ファネルの出力結果が読み解きづらいという声に応えてダッシュボード化するプロジェクトに、大手広告代理店と一緒に取り組みました。これが非常に好評でプロジェクトとしても成功し、合同でインタビューを受けました。広告主や広告代理店のみなさまから「素晴らしい機能をありがとうございます」とポジティブなフィードバックをいただき、とても嬉しかったですね。こういう経験は前職では味わえなかったです。
予測ファネルの精度向上には入社以来取り組んでいますが、そもそも予測精度の向上は難しく、うまくいかないことの方が多いんです。実際に学習データを探して、入れてみて、精度の変化を測っていきますが、打率的には10の新しいデータを入れて、2つが当たれば上出来というくらいです。
最初はどんなデータを入れたらよいか見当がつかず、チームメンバーに聞いていましたが、あるとき自分の提案した学習データで驚くほど精度が上がったことがあって…。普通は予測対象とするような指標を、学習データとして使ってみたんです。でもやってみると3カ月分の仕事をしたくらいの成果がありました(笑)。まだ入社半年くらいでマーケティング領域は初心者でしたが、「ここでやっていけるかも」という自信につながったので、このときのことはよく覚えていますね。
国内最大級の検索プラットフォームである「Yahoo!検索」、そして日本ではほとんどの人が使っている国内最大のコミュニケーションアプリの「LINE」、その両方にデータ分析を通じて関われることは非常に価値があることだと思います。これほど多くユーザーの行動データを扱えるのは、国内ではLINEヤフー以外にないといっても過言ではありません。
膨大なデータを蓄積するデータ基盤も盤石です。オンプレミスだけでなく、クラウドもあり、モダンで高度なデータ分析環境が整っているのも魅力。貴重な経験を積めると思います。
スキルでいうと、データアナリストはどちらかというと統計学、データサイエンティストは機械学習に強い人が多いと思いますね。
共通する素養としては、大きく3つあると思っています。1つ目は根気強さ。私たちの仕事はデータを分析して施策やソリューションを考えることですが、そのまま採用されたり、すぐに効果が出たりするわけではなく、トライ&エラーの繰り返し。クライアントのフィードバックを取り込みながら改善してベストをめざすには根気強さが求められます。
2つ目はラーニングアジリティ(学習機敏性)。データ分析は新しい技術がどんどん出てくるし、分野によっても手法が大きく違います。これまでやっていなかった手法での分析を急に依頼されることも多いので、すべての手法を覚えるのは不可能。重要なのは、必要なときに必要なものをできるだけスピーディーに身につけて業務へ生かせるアジリティの高さです。
3つ目はコミュニケーションスキルです。パソコンに向かって黙々と作業をするだけではなく、開発方針の意識合わせ、検証内容の確認などの会議も多くあります。
ちなみに、ラーニングアジリティが高くても一朝一夕で学べない技術領域もあるので、そういうジャンルのスキルは重宝されると思います。現在の自分のチームでいうと、データ分析で原因と結果の因果関係を明らかにする「因果推論」の領域に長けている人がほしいですね。クライアントからセールス経由で「広告効果が上がった理由を知りたい」といわれることが多いので、このスキルがある人が増えれば、よりスピーディーな対応が可能になると感じます。
広告業界、特にマーケティング領域は非常に変化の激しい業界です。法改正やプラットフォーマーによる規制などプライバシー保護強化によってこれまで当たり前にできていたことができなくなることも往々にしてあります。たとえば、AppleのITPによりSafariなど一部ブラウザでの3rd Party Cookieの取得が難しくなり、外部の行動データを利用した分析も強い制限を受けることになりました。現在、1万件程度の学習データがあるとしたら、3年後には5000件程度に減ってしまうイメージです。もちろんこれはLINEヤフーに限らず、競合他社にとっても課題ですが、まずは自分の担当サービスにおける対応策を考えていかなくてはなりません。
また課題ではないですが、今後はヤフーだけでなくLINEが持っていたデータも活用していくにあたり、「既存のソリューションに組み込むとどんな変化が起きるか」は注意深く検証する必要があると思っています。
LINEとヤフーが合併し、使えるデータの幅が広くなることで、いままで以上に広告パフォーマンスを高められるソリューションを提案できるようになると思っています。一般的にヤフーのユーザーは30~40代が多く、LINEユーザーは20代が中心なので、不足しているデータを補い合うことでいままでにない広告配信モデルをつくれるはず。早く本格的なシナジーを出していきたいですね。
ここまで話してきたように、大規模なデータや高度なデータ分析環境がそろっているLINEヤフーは、データ分析をするには最高の環境だと思います。環境が整っているだけでなく、優秀なメンバーと日々分析技術について熱く語り合うことができます。私のチームでは朝会で最近知ったデータ分析関連のニュースをお互いシェアしていますが、毎日ネタがつきることがなく、みなさん本当にデータが好きなんだと実感します。こうした環境でのデータ分析に魅力を感じる方と、ぜひ一緒に働きたいですね。