米Pure StorageでAIインフラストラクチャーのバイスプレジデントを務めるPar Botes氏は、都内で開催された同社のプライベートイベント「Pure//Accelerate Tokyo 2024」の基調講演に登壇。日本のIT史の節目に携わってきた同氏に、現在Pure Storageで開発しているものや、現場のエンジニアが取り組んでいるテーマを聞いた。
Botes氏はPure Storageがスタートアップ企業だった頃に入社し、ブレード式のフラッシュストレージ「FlashBlade」の製品開発を担当するなど、初期の成長をけん引したメンバーの一人だ。Pure Storage以前にはEMC(現Dell EMC)やVeritasなどに在籍し、これらの企業では日本のエンジニアリングチーム立ち上げに携わるなど、日本との縁も深いという。
米Pure StorageでAIインフラストラクチャーのバイスプレジデントを務めるPar Botes氏
Oracleが買収したSun Microsystemsにも在籍していた時期もある。今では知る人ぞ知るというエピソードだろうが、スーパーコンピューターメーカーだったCrayの技術を獲得して実現したハイエンドサーバー「Sun Enterprise 10000」(通称:Starfire)は、UNIXサーバーの最上位機種としてさまざまな企業で活用され、日本ではNTTドコモのビリングシステムを支える基盤として採用された。当時Botes氏はエンジニアチームと共に来日し、Starfireの導入作業を担当したというエピソードを語ってくれた。
自身を「生粋のソフトウェアエンジニア」と評するBotes氏は、これまでのキャリアの中でOSカーネルやストレージソフトウェアなど、さまざまなソフトウェア開発に携わってきたが、現在同氏が夢中で取り組むテーマが「AI」だ。同氏は一度Pure Storageを退職し、自動運転システムの開発に取り組むAIベンチャーに移籍したが、4年ぶりにPure Storageに復帰した。
Botes氏はAIベンチャーに在籍した当時を振り返り、「われわれは極めて先進的なシステムを必要としていたため、コンピューティングハードウェアからネットワーク、OSカーネルやGPU対応まで、何から何まで全部自分でやった」という。自動運転車ではバッテリー消費を抑えることが重要な要件になると考えられたため、電力効率を高く保てるコンピューティングの実現に注力したそうだ。Pure Storageに復帰する際、同氏は最高経営責任者(CEO)のCharles Giancarlo氏に「AIのための新技術を開発したい」と申し出、現在に至っている。
Botes氏は「AIベンチャーでは、“AIのためのインフラ”を全て自分で作った。当時、どこのベンダーからも買えない新しいものだったからだ。私はインフラを3世代にわたって改良し続け、より良いものに仕上げていった。この経験を踏まえ、Pure StorageではAIのためのインフラの製品化に取り組んでいる」と語った。
同氏が考えるAIのためのインフラとは、どのようなものなのか。従来のインフラとは何が違うのか。この点については現在開発中の製品に関する話なので明かせない部分も多いだろうが、大まかなイメージを聞くことができた。
Botes氏が考える解決すべき課題は、「適切な学習データを適切に供給できるようにすること」と表現できる。機械学習(ML)では、学習データとして何を与えるかによって最終的に得られる結果が全く違ったものになる。
データに対するアクセス権を考慮すると、AIモデルはユーザーのアクセス権に応じてそれぞれ異なるデータを用いて結果を返すことが望ましいが、現状そうしたデータの使い分けを実現することは困難だ。同氏はソフトウェアエンジニアらしく、AIシステムをソフトウェア開発に例えて説明した。
「AIモデルがコンパイラーで、学習データがプログラムのソースコードだとしよう。AIモデルの出力は、コンパイル済のバイナリーコードの実行結果に相当する。最終的に望み通りの結果が得られるようにするにはソースコードを改良する必要があり、いつ/どのような変更が行われたかをトレースできるバージョン管理システムが必要だ」
ソフトウェア開発で使われるバージョン管理システムでは、ソースコードに加えられた改変の履歴を記録しており、任意のバージョンに戻ることが可能だ。同氏は、MLのために与えるデータについてもどのようなデータを使って学習させたのかを正確に把握し、コントロールできるようにする必要があると考えている。
現状では、AIのための学習データはあまり精密に管理されておらず、学習のためのデータセットとしてまとめる際に人手で調整する形が一般的だろう。しかし、新しいインフラではデータごとに詳細なメタデータなどを付与しておき、ユーザーの権限やシステムの用途などさまざまな観点から適切なデータを選び出して学習させるようなデータ管理を実現できると思われる。
Botes氏は「現在私が取り組んでいるテーマは、モデルを学習させるために使われたデータを完全に追跡可能にし、データが学習結果に与えた影響を検証できるようにする、そのためのインフラを作ることだ」とまとめた。
こうしたインフラの必要性も自動運転車の開発に携わった経験から得られたもので、同氏は自動運転車の安全性を担保する上で、テストや検証のためのインフラが必須となったことを踏まえ、自動運転以外のAIにおいてもテストや検証が可能なインフラが必要だと考えるようになったという。
このインフラがどのような形で実装されるのかについては、話を聞く限りでは同社のストレージOS「Purity」の上に実装されるAI向けのデータマネジメントレイヤーという形になるのではないかと思われる。
Botes氏自身は「データベースでもストレージデバイスでもない、根本的に新しい別の何かだ」と説明し、具体的な情報を明かせる段階ではないようだ。使用するハードウェアプラットフォームに関しても、既存のPure Storage製品のいずれかなのか、あるいは新しいハードウェアを設計/開発するのかを含め、現時点では何も決まっていないという。
同氏は、Sun Microsystemsに在籍していた1990年代を「素晴らしい人たちと過ごした、とても楽しい時間だった」と振り返ると同時に、現在のAIに関しては「ものすごくエキサイティングだ」と目を輝かせていた。
長年にわたって業界の発展を見てきたトップレベルのエンジニアが夢中になって取り組んでいるテーマが現在のAIだ。大規模言語モデル(LLM)の成熟などの分かりやすい成果が次々と得られたことから既に実用段階に入った技術というイメージもあるが、実はまだ解決すべき課題が山積みで、やりがいのある面白い分野となっているようだ。
一見するとAIとは直接関わらなさそうなストレージベンダーのPure Storageだが、同社から今後どのような成果が出てくるのか楽しみである。