理工系女子大生がIT技術を調査!ビッグデータ編


※写真左から林 玲さん(慶應義塾大学)、山口 俊朗氏(日立製作所)、加納 舞 さん(東京大学) 
[2011/06/20公開]

私たちの身近にある、ビッグデータ?

加納 舞 さん 加納 舞 さん(東京大学)
工学部システム創成学科4年。ミス東京大学。
座右の銘は「知識を知恵に」。
最近のマイブームは「ブラックサンダー(チョコレートのお菓子)」

加納: はじめまして日立の山口さん、今日はよろしくお願いします!今回のテーマは「ビッグデータ」ということなんですが、これが何なのか、まずは分かりやすく教えてください。

山口:はい、こんにちは。そうですね、例えば最近のPCのハードディスクは、「ギガバイト」単位のものが一般的になってきましたし、家電量販店などで買える外付けハードディスクの中には「テラバイト」単位のものが出てきていますよね。ギガバイトの約1000倍がテラバイト、さらにその約1000倍が「ペタバイト」で表されます。その上に、「エクサバイト」、「ゼタバイト」という単位があるのですが、ビッグデータはテラバイト、ペタバイト級以上のデータを指すことが多いですね。

林:ちょっと数字のイメージが想像つかないんですが……すごいですね。私たちの身近なところで大きなデータというと、TwitterやFacebookで世界中の人がつぶやいたり、書き込んだりしている中で生まれるデータなどが、そういうビッグデータになってくるのですか?

山口:いいですね。Twitterは約1億人、Facebookは約7億人が全世界で利用していると言われています。こうしたメディアに蓄積されたデータはもちろん大量でしょうし、一定時間内に入力されるデータとして考えても、実に巨大なデータを処理している例と言えますね。

林 玲さん 林 玲さん(慶應義塾大学)
理工学部管理工学科3年。ミス慶應理工。
座右の銘は「going my way」。
最近のマイブームは「豆乳」。

加納:そう考えていくと私たちの身近には、実はビッグデータがたくさん存在しているということですか?

山口:そうですね。例えばコンビニエンスストアなど多くの小売業が活用する「POSデータ」がありますよね。それから交通系のICカードなども日々膨大な利用情報を生みだし、巨大な量のデータを蓄積し続けています。こうしたビッグデータは、素早く短時間で処理することで、より新しい価値につながっていくというのが大切なポイントです。

林:データを処理する時間が短くなると新しい価値が生まれるとはどういう意味ですか?

山口:例えばPOSデータは販売時点のデータで、商品が売れた実績データを単品単位で集計しているわけですね。ただ、このデータはバッチ処理といって夜間などまとまった時間帯にまとめて処理をし、翌日か翌々日に結果が分かるのが一般的です。でも、POSデータというビッグデータの処理が飛躍的に短くなり、数十分とか数時間で処理できるようになればどうでしょう。

加納:いま何がどれくらい売れているか、すぐに分かりますね!

山口 俊朗氏 山口 俊朗氏(日立製作所)
ソフトウェア事業部 大量データ処理ビジネス推進室 担当部長。
座右の銘は「創造」。
最近のマイブームは「野菜ジュース」。

山口:ということなんですね。結果が翌日に分かっても価値がないということではありませんが、もっと早く結果が分かればその情報はとてつもない価値を生み出します。全国の店舗のPOSデータを集めて、素早く処理してその分析を行えば、商品をもっと効率的に店舗間で融通しあったり、いち早くセールを実施したりすることが可能となります。賞味期限のある商品に対してその日のうちにベストの策が出せるわけですね。

加納:なるほど。私、コーヒーショップでアルバイトしているんですよ。そこでも確かに、処分するしかない材料が出たりして、もったいないなと感じることがありました。でも、系列店でその材料が足りない場合は、問題のない形で融通したりしていましたよ。

山口:現場の機転で、うまく対応していたわけですね。ビッグデータの処理能力が向上すると、そうした機転を全国レベルできかせ、管理しているところから効率的に指示できてしまうんですよ。現場力と全体の状況を把握した的確な指示で経営の無駄を省き、サービスを向上させることができるわけです。このように情報の鮮度を大幅に向上できれば、今まで考えられなかったサービスが生まれ、消費者の利便性が上がります。ビッグデータから鮮度の高い情報を引き出すことは社会にも大きく役立つということですね。

林:なかなか、そこまで意識したことは今までなかったです。いまPOSの販売データを活用するお話を聞きましたけど、ほかにもビッグデータをうまく利用できる場面が、いろいろあるわけですね。

山口:はい、交通系のICカードもそうですね。現在は決済を行っているだけですが、今後、個人情報の安全を担保した上で、誰がいつどこでどんな買い物をしたのかといった情報を活用するようにすれば、より便利になるでしょう。例えば、加納さん、林さん世代の人たちが駅ナカのお店をどう利用しているのかということが分かれば、店先にある電子看板などに瞬時にお勧め商品を表示することなどもできるようになります。データを蓄積するだけではなく、すぐさま使えるデータに変えることを短時間でできるようにすることで、ビジネスチャンスは広がるし、消費者の利便性も幅が広がるわけですね。

ビッグデータの処理って、どのような方法が?

林:ビッグデータを、しかも素早く処理することが大事なポイント、というお話を聞きました。でも実際にどうやって処理しているのか、まだそのあたりは、うまくイメージできないですね……。

山口:ビッグデータの処理は、大きくは2通りに分かれるんですよ。1つは蓄積されているビッグデータを処理する「バッチ処理」、もう1つは流れているビッグデータをつかまえて処理する「ストリームデータ処理」です。後者の例だと、株式取引の例がいいですね。株の取引では膨大な量のデータが絶え間なく発生するわけですが、このデータを発生後、瞬時に処理することで、投資家にとって必要な情報を、遅れることなく提供できるわけです。 東京証券取引所では株式売買システムの処理量増加に対応するため、株価指数をミリ秒レベルという高速度で算出、配信する指数高速配信サービスを開始したのですが、このサービスを日立の「ストリームデータ処理」が支えています。

加納:株式取引ではまさに、情報のスピードが命、つまり鮮度が重要といわれますものね。

山口 俊朗氏

山口: そのとおり、リアルタイムのデータ処理が新しい価値を生むわけです。他にも例えば、製造業の工場のラインで複数のセンサーを設置して、流れている部品の品質をチェックするということをしています。ここでも大量のデータが発生しますが、これもリアルタイムで処理できないと、せっかくデータ分析で不良を検知できても、すでに出荷できない製品をいくつも作ってしまった後になってしまいます。逆にこうしたデータをストリームデータ処理で瞬時に分析できれば、結果として不良品の発生を極力抑えることができるのです。

林: 「ストリームデータ処理」がリアルタイム、ということですね。もう一つのバッチ処理についても詳しく教えてください。

山口:はい、バッチ処理は大量のデータを一括して処理するので、一般的に夜間実行されます。翌朝始業時間になったころには、前日のデータ処理が終わって分析ができるようになっているということですね。ところが、扱うデータの量が日々増加しているので、翌朝になっても終わらないケースが出てきているのです。

加納 舞 さん

加納:処理をするコンピュータの能力を、あげないと!

山口: その通りです。しかし、通常バッチ処理を行うハードウェアは高価な大型コンピュータですから、より能力を高めようとするとコスト負担が跳ね上がります。それに大型コンピュータはもともと高価ですので1台でバッチ処理をしていることがほとんどです。単一のハードウェアの能力には、自ずと限界は出てきます。

林:それを、どうやって解決しているんですか?

山口: 並列分散処理という方法があります。安価なサーバを複数つないで分散して処理するのです。この方法ならデータ量が増えてもその都度サーバを増やしていけばいいので、コスト負担も軽くなります。並列分散処理の手法を使ったフレームワークにHadoopというものがあります。Hadoopは並列分散処理を使ってビッグデータを効率的に運用するオープンソースのソフトウェアということで注目を集めており、世界中で企業システムへの適用が模索されはじめています。
並列分散処理によって、夜間に何時間もかけて行っていた処理が短くなれば、翌日にしか分析できなかったデータを数時間おきに出せるようになります。そうすると……。

林 玲さん

林:仕事に必要な売上データなどを早く見られるようになりますね。そういうデータって、できるだけ鮮度のいいうちに手に入れれば、より有利なわけですよね。

ストリームデータ処理とは?

格納してあるデータに対して処理を行うストック型のアーキテクチャではなく、データが発生した時点でリアルタイムに処理するフロー型のアーキテクチャを持ったデータ処理技術。ストック型のデータ処理では、クエリ発行時に全てのデータを参照するが、ストリームデータ処理では、データ発生時にデータの関係する処理のみを瞬時に実行するため、より高速な処理が実現できる。ストリームデータ処理はデータに発生時刻を持たせるため、ログやセンサーといった時系列データの処理に適している。

>> 詳しい内容はホワイトペーパーで

次ページ:日立の技術はビッグデータの処理にどう役立っているのですか? >>
インフォメーション
提供:株式会社 日立製作所 ソフトウェア事業部
[PR]企画・制作 朝日インタラクティブ株式会社 営業部