トップインタビュー

AIのモデルとインフラの選択肢を広げるvLLM--レッドハットのAI CTOに聞く可能性

國谷武史 (編集部)

2025-06-19 06:00

 ここ数年における生成AIの急速な普及を背景に、多様な大規模言語モデル(LLM)やAIのインフラの利用ニーズが高まっている。他方で、環境の複雑化や推論処理の効率性、コスト、セキュリティ、コンプライアンスなどの課題も浮上している。これらに対応するためのテクノロジーとして、オープンソースの推論ライブラリー「vLLM」が注目されている。

 Red Hatは、2025年1月にvLLMのソリューションを手掛けるNeural Magicを買収し、5月の年次カンファレンス「Red Hat Summit 2025」において、vLLMを活用する新たな取り組みなどを発表した。Neural Magicで最高経営責任者(CEO)を務め、買収後にRed Hatのシニアバイスプレジデント AIの最高技術責任者(AI CTO)に就任したBrian Stevens氏に、vLLMの特徴やRed Hatでの展開などについて聞いた。

Red Hat シニアバイスプレジデント AI最高技術責任者のBrian Stevens氏
Red Hat シニアバイスプレジデント AI最高技術責任者のBrian Stevens氏

 Stevens氏は、Neural Magic以前にGoogle Cloudのバイスプレジデント CTOを務めた。さらにそれ以前は、約12年にわたりRed HatのCTOを務め、業界における同社の「OpenStack」やコンテナー技術の立場を強力にした実績を持つ。買収によって“古巣”に戻った形になる。Neural Magicは、米マサチューセッツ工科大学発の企業として2018年に創業し、生成AIの推論ワークロードを高速化する技術を手掛ける。

 「私自身、Red Hatへの復帰はとても興味深い出来事だと感じている。以前の立場では、『Linux』に代表されるオープンソースによるエンタープライズITの世界の変革に取り組んだが、それと同様にNeural Magicは、AIをより身近に誰もが容易かつ効率的で安価に利用できる世界の実現に取り組んできた。Red Hatは、エンタープライズインフラストラクチャーに注力してきたが、AIではまだになる。Red HatとNeural Magicが一緒になり、オープンなAIの世界へと変革していく」(Stevens氏)

 Stevens氏は、「vLLMはわずか2年前まで“存在しなかった”テクノロジーだが、初期から注目を集め、この2年はかつてないスピードで急速な進化を遂げてきた」と話す。

 OpenAIが「ChatGPT」を一般公開した2022年後半以降、世界的な生成AIブームを背景に多種多様なLLMが開発され、NVIDIAのGPUがインフラのデファクトスタンダードとなった。LLMの推論処理には大規模なリソースを必要とするが、生成AIユーザーの爆発的な増加により、多様なLLMをGPUのインフラで効率的に利用することが難しくなってしまった。

 vLLMは、米カリフォルニア大学バークレー校での研究開発を源流として、「PagedAttention」と呼ばれる効率性に優れたメモリー管理技術を特徴としている。GPUなどにおけるLLMサービングのスループットやメモリーを大幅に改善させ、優れたコスト効率を実現する。

 現在のvLLMがサポートするのは、LLMではオープンソースの「Llama」や「Granite」「Gemma」「Qwen」「Mistral「DeepSeek」など多くの種類となり、インフラハードウェアではNVIDIAやAMD、Intel、Google、Amazon Web Services(AWS)などのGPUや推論チップに対応している。以前であれば、実質的にNVIDIAのGPUと推論エンジンもしくはベンダー固有の推論エンジンでLLMを利用する構成だったが、vLLMの登場によりユーザーはさまざまなインフラやLLMを柔軟に組み合わせて利用できるようになった。vLLMは、サポートする各種のインフラやLLMの多くの最適化を自動的に行う特徴も備える。

vLLMの概要(レッドハット資料より)
vLLMの概要(レッドハット資料より)

 「もちろんNVIDIAは非常に優れたテクノロジーを持ち、実質的にNVIDIAのハードウェアとソフトウェアを用いてLLMの推論処理を実行することが標準だったが、この1年ほどの間に、さまざまなLLMを使いたいとのニーズが高まり、vLLMの方がより簡単にできることが知られるようになった。さらに(ユーザー側が)独自に開発したいというニーズが生じており、(エンドユーザーに対応する)ITチームも柔軟な使いやすい環境の実現にvLLMを期待している。NVIDIAもニーズの変化を受け止めており、vLLMとNVIDIAは対立ではなく共存する関係になっている」(Stevens氏)

 企業のビジネスや業務での生成AI活用に絞っても、現在は非常に多くのユースケースが登場し、ユーザーはユースケースに応じて複数のLLMを使い分けることが一般化しつある。またインフラ側も、当初はパブリッククラウドが中心だったが、利用拡大に伴うコストの増大や効率性の低下、また、機密性の高いデータを用いるためのセキュリティやコンプライアンスの要件も高まり、プライベートクラウドやオンプレミスにも環境を構築する動きが広まりつつある。

 Stevens氏は、今後AIのための環境がハイブリッド構成になるだろうと予想し、vLLMが大きな鍵になると指摘する。同氏によれば、現在のところvLLMのメインユーザーはテクノロジー企業ばかりだが、テクノロジー以外のさまざまな業界にも広がるだろうという。

 オープンソースコミュニティーにおけるvLLMの開発でNeural Magicは、頻繁にアップデートや新バージョンがリリースされる各種LLMへの対応や、サポートハードウェアの拡張など多くの貢献をしているという。ハイペースなユーザーニーズの変化へ各ベンダーが独自に対応しているのでは間に合わず、そうした点からも多くのベンダーがvLLMに賛同、貢献する動きが広がりつつある。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]