Talend:AWS上にデータレイクを高速で構築するポイント
Talend
プリセールスマネージャー
三浦大洋氏
Talendのセッションでは、プリセールスマネージャーの三浦大洋氏が登壇。「AWSデータレイク構築を高速化するデータ統合ソリューションTalend」と題する講演を行った。Talendは、トラディショナルなETLだけでなく、Hadoop、Sparkなどとのシステム連携が可能なデータ統合プラットフォーム。OSSベースで開発が進められており、250万超のダウンロード実績がある。企業向けでも多くの実績があり、世界で1500社以上に利用されている。
「企業のあらゆるデータ統合ニーズに対応できます。実際には、新システムへのデータマイグレーション、複数システムを一元化するデータ統合、複数システム間をつなぐデータ連携、DWHなどのユースケースがあります」(三浦氏)
AWS環境についても、オンプレミスとクラウド間でのデータ統合や、AWSの各サービスをまたがったデータ統合などが可能だ。DWHサービスのAmazon EMRに対して最適なMap Reduceコードを自動生成したり、さまざまなデータソースを統合処理してEMRでの大規模処理を実行したりといった用途で使われている。モニタリングやロギングの機能も備えているので、開発だけではなく、システム運用までトータルにサポートすることができる。
ビジネス部門の意思決定を強固に支援
そのうえで三浦氏は、Talendを使ってAWSにどのようにデータレイク基盤を構築していくかを解説。使い所としては、大きく、ビッグデータの統合、アプリケーションの統合、データプレパレーションの3つがあるという。
ビッグデータの統合は、企業に存在する複数のデータソースを統合する取り組みだ。DWH向けのデータ集約だけでなく、Hadoopへのデータのオフロード、syslog収集などのファイル監視、KafkaやSparkのストリーミング処理なども可能。
また、アプリケーションの統合は、企業内にESBを構築する取り組みだ。システム資産をSOAPやRESTでサービス化して、アプリケーションをリアルタイムに統合、連携させることができる。
最後のデータプレパレーションは、ユーザーがデータ分析を行いやすくするための取り組みだ。データの準備は分析業務の80%を占めると言われている。セルフサービス型にすることで準備作業を効率化し、AIエンジンを使って異常値や欠損データの自動検出を行う。「手順の見える化と再利用、脱Excel、データ加工処理の自動化といった3ステップで、システム化を進める」のがポイントだ。
そのうえで、三浦氏は「企業データ統合プラットフォームとしてビジネス部門の意思決定を強固に支援することができます」とアピールした。