Clouderaは5月22日、「AI活用に情報流出はいらない ~企業の未来に差をつけるプライベートAIの力~」と題した報道機関向け説明会を開催した。ソリューションエンジニアマネージャーの吉田栄信氏が、プライベートAIの重要性と同社のソリューションについて解説した。
Clouderaは2008年にGoogle、Yahoo、Oracleの元社員らによって設立された。当初は「Apache Hadoop」ベースの主要なディストリビューターとして、Hortonworksと並び業界をけん引していた。2019年1月にはHortonworksと合併し、Clouderaとして事業を拡大。2021年には株式を非公開化し、プライベートカンパニーとなった。
「Clouderaはオンプレミスから事業を開始し、現在ではクラウドサービスも提供している。2019年秋にはパブリッククラウドサービスを開始し、昨今は『エンタープライズAIプラットフォーム』としてビジネスを展開している」(吉田氏)

Cloudera ソリューション・ エンジニアリング・マネジャーの吉田栄信氏
同社では、「データ、分析、AIのための唯一の真のハイブリッドプラットフォーム」の提供をビジョンに掲げる。世界中の企業がデータを用いて現在の課題を解決できるよう支援しており、あらゆる場所のデータを信頼できる価値ある洞察へと変換可能とし、スケーラブルでオープンかつ安全なデータ管理を、ポータブルでクラウドネイティブなデータ分析とAIによって実現するとしている。
一般的に、パブリッククラウドは自社ネットワーク外のインターネット上のリソースを利用して処理を行うことを指す。しかし、大企業やセキュリティを重視する企業では、機密データや機密情報の漏えいリスク、法令順守、規制対応といった理由から、自社ネットワーク内でプライベートクラウドとしてクラウドを活用するケースが多い。これは、機密データが企業の競争力の源泉となる情報資産であり、その保護が不可欠であるためだ。
吉田氏は「AIについても同様のことが言える」と話す。例えば、クラウドサービス事業者などが提供するパブリッククラウドAIは、インターネットを通じてAIを利用するため、データや情報がAIの存在する場所に渡されることになる。これに対し、プライベートAIは自社ネットワーク内でAIを活用するため、機密データや機密情報を漏えいさせることなく、企業固有の知識に基づいたAI活用が可能となる。

パブリッククラウドAIとプライベートAIについて
しかし、プライベートAIの導入には高いハードルがある、と吉田氏は指摘する。具体的には、「専門人材の不足」と「高額なコスト」の2つである。
「プライベートAIの活用にはファインチューニングが不可欠だが、これを行える人材が足りない、あるいは全くいない。また、プライベートAIをホストするためのインフラへの巨額の投資が必要になる」(同氏)
Clouderaは、2月にローンチした「Cloudera AI Studio」によって、人材不足の問題を解決するソリューションを提供している。また、投資額を抑制するためには「ハイブリッド環境」が有効であるとする。
「Clouderaはもともとオンプレミス上でデータレイクハウスを構築してきたが、現在は『Google Cloud』『Amazon Web Services(AWS)』『Microsoft Azure』といったパブリッククラウド上のPaaSとしてデータプラットフォームを展開している」(同氏)
それに加えて、統合データファブリックである「Cloudera Shared Data Experience(SDX)」は、パブリッククラウド、プライベートクラウド、およびハイブリッドクラウド環境において、一貫したセキュリティとガバナンスを維持しつつ、全てのユーザーにコンプライアンスに準拠したセルフサービスのデータアクセスを提供するものとなっている。
同社のオープンデータレイクハウスは、データの収集、加工、クエリー分析といった一連のプロセスを効率的に実行する。また、注目を集めている「Apache Iceberg」を製品としてサポートし、オープンソースコミュニティーへの貢献も行っているという。
2024年以降はAIアプリケーションも実装可能となった。Clouderaは以前からデータサイエンティストが機械学習などを構築するための環境として「Cloudera Data Science Workbench」を提供してきた。それが現在では「Cloudera AI」として、AI開発やテスト、オーケストレーションなどを実行できるように発展している。

Clouderaの技術スタック
Cloudera AIの中核をなすのが「AI Studio」である。AI Studioは、先述した「専門人材の不足」という課題に対する解決策になると吉田氏は語る。「RAG Studio」「Fine Tuning Studio」「Synthetic Data Studio」「Agent Studio」などの機能を備え、「ノーコードからハイコードまで幅広いユーザーに提供できるようになる。特に、これまで高度なプログラミング能力を持つ専門人材でなければ困難であったファインチューニングなどがノーコードで実行可能になる」
吉田氏は、既存の大規模言語モデル(LLM)はユーザーの質問に答えることはできるが、実際の作業を代行できるわけではないと指摘する。この問題を解決するのが、現在注目されているAIエージェントであり、その本質は「AIを活用した自動処理のワークフロー」であると話す。
Agent Studioでは、ドラッグ&ドロップでワークフローを簡単に作成でき、テンプレートも用意されているため、ゼロから構築する手間を省くことが可能だ。また吉田氏は、小規模から中規模のモデルであっても、ファインチューニングを行うことで精度を大幅に改善できるため、多数のエージェントをホスティングする際のインフラコストと運用負荷を抑える上でも今後は「小~中規模モデルを自社でホストすることがトレンドになるだろう」と述べている。

AI Studioのイメージ図
吉田氏によると、AIワークロードは大きく2つに分けられる。1つは開発・変動の大きいワークロードで、季節やイベントごとに利用が変動するケース。もう1つは定常的なワークロードで、一定期間同じように利用されるケースになる。
定常的なワークロードに関しては、リザーブドインスタンスなどを活用することでコストを抑えることができ、セキュリティ面を考慮するとオンプレミスでも十分に稼働可能である。一方、変動の大きいワークロードについては、利用状況に合わせてリソースを常に用意することは無駄が多いため、オンデマンドやスポットインスタンスなどのクラウドリソースを活用することが適切となる。
その上で、コスト削減のポイントとして、同氏は「AI活用初期はクラウドを活用し、初期投資を抑える。モデルの規模が増えた段階で、クラウドとオンプレミスを併用してハイブリッド環境を構築する。その後、定常的なワークロードをオンプレミスで稼働させることで、モデル数が増えてもハードウェア投資を抑制し、予測可能なものにする」と説明。ワークロードの性質に応じてクラウドとオンプレミスを適材適所で使い分けることが、同社のハイブリッド環境の考え方であると強調した。

Cloudera AIによるコスト削減のポイント
「AI分野で日本が世界に追いつき、そして世界を超えていくためには、プライベートAIが重要になる。現在、多くの企業がAIを検討しており、概念実証(PoC)から本格活用へと移行すると見られている。しかし、そこには人材不足や適切なプラットフォームの選定といった課題が存在する。Clouderaは、AI Studioを通じてプライベートAIを提供することで、これらの課題解決を目指している」(吉田氏)