日本テラデータは3月7日、構造化と非構造化の両方のデータを分析するための枠組みである「Teradata Unified Data Architechture(UDA)」を発表、その枠組みを具現化した製品となる「Teradata Aster Big Analytics Appliance」の販売と出荷を開始した。
データウェアハウス(DWH)専業ベンダーであるテラデータはこれまで長い間、DWH専用の「Teradataデータベース」を中核に展開してきた。Teradataデータベースは、技術的に桁数を定義した、いわゆる構造化データを取り扱うことが前提だ。
だが、この数年で、いわゆるビッグデータが注目され、非構造化データも含めて分析して、企業にとって有効な情報を取得することが期待されている。今回発表されたUDAは、構造化と非構造化の両方のデータを一元的に取り扱うための枠組みになる。
Hermann Wimmer氏
ビッグデータというと、その言葉から想像されるのは活用する対象となるデータが“大きい”ということに目が行きがちだ。だが、ビッグデータの説明でよく言われる“Volume(容量)、Variety(種類)、Velocity(速度)”という、いわゆる“3つのV”が示すように、データから企業にとって有益となる情報を引き出すためには、さまざまな種類のデータを掛け合わせて、これまでよりも複雑な分析することが求められている。
同日開催の会見で米Teradataで米州以外の地域を担当するプレジデントのHermann Wimmer氏も「ビッグデータは大きいだけではなく、種類もさまざまなものを対象にしている」と説明。UDAは、そうしたビッグデータを包括的に管理するための基盤とも表現できる。
※クリックすると拡大画像が見られます
UDAの柱は、構造化データのためのTeradata、非構造化データも対象に分析できる「Aster」(2011年3月にTeradataが買収)、オープンソースソフトウェア(OSS)の分散並列処理フレームワーク「Apache Hadoop」の3本で成り立っている。TeradataとAster、Hadoopが独立しているわけではなく、それぞれが独自に開発された技術で有機的に連携することで、分析対象となるデータを一元的に管理できるという。
UDAを構成するAsterは、リレーショナルデータベース(RDB)だが、大量のデータをクラスタ上で分散して並列処理するアプリケーションを作成するためのソフトウェアフレームワークである「MapReduce」と統合されており、SQLの関数としてMapReduceを利用できるのが特長だ。
Asterは「SQL-MapReduce」と「SQL-H」という機能を搭載している。SQL-MapReduceは、例えばウェブサイトのアクセスログやテキストデータ、マシンやセンサのログデータなどの非構造化データ(テラデータでは“多構造化データ”と呼んでいる)を分析する際に、高頻度で利用される70種以上のMapReduce処理を関数として「Aster MapReduce Analytics Portfolio」という形で事前にパッケージ化。分析するユーザーがSQLの関数として呼び出せるようになる。
SQL-Hは、Hadoop分散ファイルシステム(Hadoop Distributed File System:HDFS)に対して、SQLとSQL-MapReduceを利用してアクセスするための機能。これらの機能で、MapReduceにアクセスするのに必要なJavaなどの言語を使わずに、ビジネスユーザーにとって使いやすいSQL文でHadoopにアクセスできる。現在企業内で活用されているビジネスインテリジェンス(BI)ツールでユーザー部門が自ら分析することも可能だ。
UDAで活用されるHadoopは、Hortonworksのディストリビューション「Hortonworks Data Platform(HDP)」になる。UDA内のHadoopは、例えばテキストやウェブログ、SNS上のつぶやきといった非構造化データを収集し、蓄積し、加工するためのバッチ処理を担う。言ってみれば、UDAにおけるETLツールの役割とも表現できる。