日立造船は、IoT基盤のデータ分析課題に対応するため、データブリックス・ジャパンのデータ分析基盤「レイクハウスプラットフォーム」を導入した。メソドロジックが導入を支援した。
日立造船は、同社のIoT基盤と連動するデータ分析/機械学習システムの運用を効率化するとともに、この分析基盤を用いたデータ活用を実施していく。
導入イメージ
データブリックスは、オープンソースの分散処理エンジン「Apache Spark」を活用するプラットフォームを提供する。ストリーミング処理とバッチ処理の両方に対応。また、Spark向けに特化したストレージソフト「Delta Lake」により、信頼性のある高速なデータパイプラインを構築可能という。
またデータサイエンティスト向けにはオープンソースの機械学習基盤「MLflow」を使用して、ノウハウの共有やデータの調査、モデルの構築を一元化できる環境になっている。
日立造船では、IoTと連動したデータ分析、機械学習システムの導入/運用を検討、実施していくに当たり、「大量データの分析に関する不安」「データ分析者の育成」「機械学習でのモデル管理・スムーズなデプロイ環境」などに課題を抱えていた。
大量データの分析については、これまでIoTで収集したデータによる特徴量抽出などを個人のローカル環境で実施してきた。しかし、データ分析者が処理するデータ量の増加に伴い、ローカル環境では対処が困難なケースが発生するようになっていた。
データ分析者については、それぞれの案件で得たナレッジを展開するインフラ整備が十分になされておらず、PythonやSQLを用いた分析内容についてナレッジを効率的に共有することが困難な状況だった。
機械学習でのモデル管理では、蓄積したデータを十分に活用することができる、機械学習のCI/CD(継続的なインテグレーション/デリバリー)環境が求められていた。
これに対して、メソドロジックは日立造船の要件詳細をヒアリングした上で、データブリックスのレイクハウスプラットフォームによる課題解決を提案した。