はじめに
今回からは、2023年に公開された論文「Profiling Hyperscale Big Data Processing」に基づいて、Googleの大規模データ処理システムのプロファイリングデータを紹介します。Spanner、BigTable、BigQueryと言った大規模データ処理システムは、さまざまな機能が連携する分散処理システムになっており、システムを構成するどの部分、もしくは、どのような処理に実行時間が割かれているのかを分析したデータになります。今回は、まず、分析対象システムの概要を説明します。
プロファイリングデータの役割
第76回の記事では、今からおよそ20年前となる、2003年ごろのGoogleの検索システムのアーキテクチャーを紹介しました。そこでは、コモディティPCでクラスターを構築して、ソフトウェアで信頼性を確保するという設計方針を説明しました。この考え方は現在でも基本的には変わっておらず、現在のGoogleのシステムの多くは、多数のサーバーが並列に処理を行う大規模分散システムとして設計されています。しかしながら、近年は、すべての処理を汎用的なサーバーで行うのではなく、特定の処理に特化した専用のハードウェアをアクセラレーターとして併用する考え方も取り入れられています。ニューラルネットワークの計算処理に特化したTPUなどは、その代表例と言えるでしょう。
この続きは以下をご覧ください
(リンク »)
お問い合わせにつきましては発表元企業までお願いいたします。