LINEヤフーのデータ基盤の構築と管理を担当している、データエンジニアリング統括本部に関する参考情報一覧です。
※記事の内容は2023年9月までの旧LINE株式会社・旧ヤフー株式会社の情報を含みます。
旧LINEと旧ヤフーのデータプラットフォーム統合プロジェクトのひとつであるデータ分析用のノートブック環境「Notebook Integration Project」を主導したデータプラットフォームエンジニアのインタビューです。プロジェクトの概要や課題・成果、今後の目標などを聞きました。
全体最適を目指したデータの設計・収集・蓄積・分析・可視化・利用などに取り組むデータグループのグループ長 佐々木潔とグループCTO 梁ソクホに、組織の現状や今後の展望について話を聞きました。
ヤフーではデータ分析基盤として 10年以上 Apache Hadoop を利用しており、今ではあらゆるサービスがHadoopを使って多種多様なログを分析してサービスの改善に取り組んでいます。最も大きなHadoopクラスタでは120PB以上のデータを保存しています。HadoopのOSSコミュニティにも積極的に参加しており、コミッター(PMC)も在籍しています。ここではHadoopへの取り組みを紹介しています。
ヤフーにおける機械学習のためのプラットフォームであるAIPFについて紹介します。ここではどのような目的で立ち上げたのか、AIPFを構成する要素は何があるのか、どのように社内で活用されているかについてご紹介します。
大規模Hadoop運用に大切なこと
ヤフーでは、100以上のサービスそして月間約4千万IDものログインユーザー数により日々の利用から蓄積される「マルチビッグデータ」を分析し、ユーザーへの新たな価値提供に力を注いでいます。
本セッションでは、そのデータ利活用を支える基盤技術の紹介を中心に、基盤技術がどのような課題を解決しているかをお伝えしました。
大規模なHadoopクラスタの移行について、どのように実施したのか、そしてどのような問題が起こったのかについてご紹介します。
HDFSにはErasure Codingという機能があります。これはHDFS3.0で導入された比較的新しい機能であり、デフォルトのレプリケーション方式と比べて、はるかに少ないストレージスペースでデータを格納できるという利点がありますが、Erasure Codingには特定の条件下で発生する不具合がありその対応をどのように行ったのかの解説をご紹介します。
Spark3.2.1アップグレードプロジェクトにおけるリソース効率の改善事例について紹介します。
ヤフーにおける機械学習のためのプラットフォームであるAIPFが立ち上がってから約4年が経ちました。 もはやAIPFはヤフーのAI領域においてなくてはならないプラットフォームに成長しています。 プライベートクラウドを新規に立ち上げ社内で当たり前に使ってもらえるようになるまでのプラットフォームの成長についてお話しします。
IUにおいて、Data Pipelineが複雑になるにつれて、データに関する問題が発生した際のデータの関係性の把握が難しくなっていました。この問題を解決するために、IU Webでは、Data Lineage機能を導入しました。この記事では、導入したData Lineage機能と、機能開発時に発生した問題及びその解決方法についてご紹介します。
ヤフーのオンプレ ML 基盤の取り組み
2022/3/24に開催した「オンプレML基盤 on Kubernetes」の資料です。機械学習モデルの開発者が、よりモデルの開発にのみ集中できるようにすることを目指して開発している「LakeTahoe(レイクタホ)」について紹介します。
MLOpsの「壁」を乗り越える、LINEヤフーの Data Quality as Code
AIプラットフォームにおいてMLOpsの構造的課題にたいするアプローチとして提供した Data Quality as Code についてご紹介します。
Yahoo! JAPANのデータパイプラインで起きた障害とチューニング - Apache Kafka Meetup Japan #5
データ収集基盤として採用している Apache Kafka を運用してい発生した障害と、それにたいしてどのような対処をしたのかをご紹介します。
Flink@Data Platform - Ingestion Pipeline Redesign and Auto-scaling
データ収集基盤を Apache Flink を使って再構築した話を、どのような課題があってどのようなチャレンジをしたのかについてご紹介します。
Adopting Apache Iceberg on LINE Data Platform
取り扱うデータが大きくなるにつれて様々な問題が出てきたのに対して、テーブルフォーマットを Hive Table から Apache Iceberg を採用した話をご紹介します。
Introducing a Unified, Managed Workflow Service for LINE Data Platform
たくさんのETLワークロードをDataPlatformが提供する標準化された方法で、利用者はコードを書くことなく利用できるようにするために Apache Airflow をベースに開発した Managed Workflow Service についてご紹介します。