企業のデータ活用を加速させる、Dell Technologiesのパートナーエコシステム 超高速を実現するデータパイプライン構成のための対応術

 デジタルトランスフォーメーション(DX)時代の企業にとって、データは重要な経営資源の一つ。データを活用する上では、その使い方に応じたシステム環境が欠かせない。Dell Technologiesでは、様々な先進ソリューションを持つパートナーと協業しエコシステムを構築。より高度なニーズに対応できる体制を整えている。

データ活用を高度化する3つのソフトウェア

 デジタルトランスフォーメーション(DX)時代の経営資源であるデータを生かすには、言うまでもなくデータを活用するための一連の環境を整備することが必須となる。

 「日本は、DXに着手できていない企業が、グローバル平均に比べて多いと言われています。その要因として挙げられるのは、『増大するデータ量に整備基盤が追いついていない』『データの所在が分散しており、統合的な運用ができない』『データ分析を行える人材が不足している』といったことです。データ活用レベルの高度化には、これらの課題を解消していく必要があり、そのためにはデータ活用基盤の大幅な拡張や刷新が求められます」と、Dell Technologies インフラストラクチャ・ソリューション事業統括 ソリューション本部 シニアビジネス開発マネージャの増月孝信氏は説明する。

Dell Technologies
インフラストラクチャ・ソリューション事業統括
ソリューション本部
シニアビジネス開発マネージャ
増月孝信氏
Dell Technologies
インフラストラクチャ・ソリューション事業統括
ソリューション本部
シニアビジネス開発マネージャ
増月孝信氏

 DX推進に不可欠なデータ活用基盤として、Dell Technologiesではビッグデータ関連の様々なソフトウェアに対応する検証済み構成、「Dell EMC Ready Solutions for Data Analytics」を用意している。また、部署を横断する形でビッグデータ日本選抜チームを結成。グループの総合力を投入しているだけでなく、様々なパートナーと協業し、エコシステムの拡大を図っている。

 「目指す方向性、ユースケース、データの内容や量などによっても最適解は異なりますが、Ready Solutionsはオープンなアーキテクチャで、様々なソフトウェアソリューションを組み込めるようになっています。ITとビジネスの関係がより深まっていく中で、我々はパートナーとユーザーとを結びつけていくハブとなろうという考えです」(増月氏)

 このエコシステムに最近、新たに3種類のソフトウェアが加わった。それらは、IoTなどのセンサーから得られる膨大なデータストリームのリアルタイム処理・可視化といった用途に適したものだ。

 「データを高度に活用しようとすると、『前日までのデータだけでなく最新のデータに基づく分析結果がほしい』といったケースが出てきます。リアルタイム性を求めると、バッチ処理を待っていられない場合があり、ストリーミングのデータ処理も欠かせません。大量のデータをリアルタイムに処理するには効率的なアーキテクチャが求められ、とりわけデータパイプラインの設計が重要となります。今回エコシステムに加わったのは、この効率的なデータパイプラインを構成する、3つのソフトウェアです」と増月氏は説明する。

イベントストリーミングプラットフォーム「Confluent」

 まず、データソースに最も近いところで役立つのが「Confluent」だ。

 データソースからのストリームデータ転送を受け付け、蓄積のための処理をリアルタイムに行うことができる。オープンソースの分散ストリーミングプラットフォーム「Apache Kafka」を拡張し、セキュリティや信頼性、管理機能などエンタープライズ用途に欠かせない機能も盛り込んだソフトウェアだ。

 「LinkedIn社で Apache Kafka を生んだ開発者チームによって創設された Confluent は、Confluent Platform という形で最も完成度の高い Apache Kafkaのディストリビューションを提供しています。」そう切り出したのは、ネットワールド SI技術本部 ソリューションアーキテクト課 課長代理の照川陽太郎氏。ネットワールドは、Confluentの日本で唯一のディストリビュータだ。

ネットワールド
SI技術本部
ソリューションアーキテクト課
課長代理
照川陽太郎氏
ネットワールド
SI技術本部
ソリューションアーキテクト課
課長代理
照川陽太郎氏

 「Confluent Platform の利用をすすめるには、大きく2つの理由があります。まず、一部を除いた多くの企業は、オープンソースを利用する際、エンタープライズサポートを必要とします。Kafka のコントリビュータはいくつか存在しますが、このConfluentの開発チームは、今もKafkaのメインコントリビュータで、彼らが作成したKafkaのコードは実に全体の80%以上にもなります。そのため、ビジネスクリティカルなシステムに対しても、レベルの高いサポートを提供することが可能です。」

 「もう1つは、Confluent Platform はイベントストリーミングプラットフォームのシステム全体を考えた際に、開発者と運用者にとって必要な機能を提供している部分にあります。例えば、開発者の機能では、様々な言語や製品に対応しているコネクタ(Connector)や、SQLライクな言語で処理を記述できるストリーミング処理エンジン(KSQL)などがあり、いずれも開発者にとっては便利な機能です。運用の機能では、Confluent Platform 環境全体をモニタリング/アナライズ可能な管理コンソール(Control Center)や、ハイブリッド/マルチ クラウド利用時のレプリケーション機能(Replicator)、セキュリティ機能などがあります。新バージョンでは、マイクロサービスアーキテクチャに合わせ、Kubernetes Operatorとの連携機能も追加されています。」

 「現状、Apache Kafkaを使ってPOC等を実施しているユーザーも、これから導入を考えるユーザーも、Apache Kafka をベースにConfluent Platform の商用版機能を追加することで、エンタープライズ企業のプロダクション環境においても、イベントストリーミングへの移行を促進させることが可能になると考えています。」

 「それと、インフラの話になりますが、Confluent Platform はオンプレミスでの構築とManagement型のクラウドサービスで「Confluent Cloud」を提供しています。オンプレミスとクラウドの選択についてここでは触れませんが、オンプレミスで構築する場合は、インフラの構成も複雑になるため、ハードウェア含めた形できちんと設計することはとても重要です。Dell Technologies が提供している「Ready Solutions for Big Data Real-Time Data Streaming Architecture Guide」はハードウェアスペックやConfluentコンポーネントの配置など、必要な構成部分について細かく記載があるため、参考にして欲しいと思います」(照川氏)

GPU活用の超高速インメモリデータベース「Kinetica」

 ストリーミングされるデータは、しばしば膨大な量になる。そのため、それを蓄積したり処理したりするにも高速な基盤が求められる。そこで役立つのが、GPUを活用した超高速インメモリデータベース「Kinetica」だ。これも同じく、ネットワールドが日本でのディストリビューションを行っている。

 「Kineticaは、もともと米軍の研究プロジェクトとして2009年にスタートしました。 ストリーミングされてくる様々なタイプのデータをリアルタイムに処理することを目指したもので、それまでのシステムでは92分かかっていたクエリを1秒未満で完了できるようにしたのです。その後、この技術が民生用に展開され、ちょうどGPUのグラフィックス以外での活用が広がっていく中で注目ソフトウェアになっていきました」と照川氏は説明する。

 「Kineticaは、集計や分析専用の列指向のRDBMSで、インメモリでデータ処理を行います。これだけでも高速ですが、さらにGPUの圧倒的なコア数、およびVRAMを活用することで、クエリの大幅なパフォーマンス向上を果たしています。超高速なデータベースとしてのコア機能をベースに、地理空間情報をリアルタイムで描画処理出来るダッシュボードや、機械学習パイプラインなど、GPUを活用出来るからこそ実現可能な機能も使うことが出来ます。米軍の例でも分かるように、地理空間情報データや画像データを扱うには高いパフォーマンスが要求されますが、このGPUを前提とした設計によってそれを可能にしています」

 「プラットフォームとしては、Nvidia社のGPU が利用出来るクラウドのGPUインスタンス、またはオンプレミスのGPU搭載サーバーのどちらを選択しても良いのですが、前述の通り、基本的にはインメモリデータベースであるため、大容量のシステムメモリも必要とします。そのため、パフォーマンスの観点だけで考えると現状のクラウド上のGPUインスタンスはGPUに対してメモリが少なく設定されている傾向にあるため、Dell EMC PowerEdgeサーバーを利用した方がバランス良く構成出来ることが多いです。USではDell TechnologiesがハードウェアとソフトウェアがセットになったOEMアプライアンスとしても提供しています。日本国内においては、ハードウェアの推奨構成は、Kineticaが「DELL EMC Partner Solution Brief」等を提供しているので参考にしてみてください。」(照川氏)

ビッグデータを高速に分析・可視化するエンジンを持ったBI「Zoomdata」

 データの分析・可視化の分野で新たにエコシステムに加わったのが、高速なクエリ処理やBIに役立つ「Zoomdata」だ。ジール SIサービス第二本部 第二事業部 事業部長の賀門秀人氏は、以下のように説明する。

ジール
SIサービス第二本部
第二事業部
事業部長
賀門秀人氏
ジール
SIサービス第二本部
第二事業部
事業部長
賀門秀人氏

 「当社は、BIを専門に手掛ける会社で、ユーザーの課題やニーズに応じてBI製品ツール選定やハードウエア提案も含め提案しています。昨今では、ビッグデータというキーワードに合った大量のデータを高速に処理できる製品の一つとして、「Zoomdata」を提供しています」

 「Zoomdata」は、テレコムや金融、製薬、公共分野など多くの導入実績があり、その大きな特徴はスピードを求めたアーキテクチャにある。

 「BIとは、言うなればデータを『人間が理解できる形』で表示・描画するものです。昔は最終段階である描画やレポートまでの処理に時間がかかっていましたが、最近の製品では大量のデータでも『思考の速度で』処理できるようになってきました。「Zoomdata」は、かつてのBIでは出来なかったHadoopにあるような大量のデータを驚くべきスピードで可視化するだけでなく、ストリーミング型のデータにも同様に対応しています。今までは、テレコムや金融といった大量のトランザクションは、バッチ処理により前日までのデータを見ることしかできませんでした。「Zoomdata」は、より鮮度の高いデータを見たいというニーズが高まっている中で、有力な製品と言えるでしょう」(賀門氏)

 「ジールとパートナー関係を結んだことは、我々にとって選択肢を広げる意味があります。「Zoomdata」は、既存のデータウェアハウス(DWH)やマイニングなどでは不十分なニーズに対応できる優れた製品です。例えば、データ量が増えてくる中で既存型DWHのコストが課題になったり、ストリーミングデータをリアルタイムに処理したりするといったニーズに適しています」(増月氏)

エコシステム拡充でユーザーのさらなるDX加速へ

 Dell Technologies のプラットフォーム上で、 Kinetica および Confluent は検証済み構成が提供されている。Zoomdataそのものの検証済み構成は現在のところ用意されていないが、ZoomdataはHadoopやSparkのコンポーネントと組み合わせることでより優れた効果を発揮するため、Hadoop/Sparkシステム環境用にソフトウェアとシステム稼働が事前検証済みのDell EMC Ready SolutionsにZoomdataを組み合わせて効果的なBIシステムを構築できる。

 今回、DX推進を支援するための新たなツールやパートナーが加わることで、エコシステムがさらに拡大したDell EMC Ready Solutions。DXを推進しようとしている企業にとっては、こうしたエコシステムを利用することが、大きな後押しになりそうだ。

関連ホワイトペーパー

提供:Dell Technologies
[PR]企画・制作 朝日インタラクティブ株式会社 営業部  掲載内容有効期限:2020年3月31日
このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]