はじめに
前回に続いて、2024年に公開された論文「Vortex: A Stream-oriented Storage Engine For Big Data Analytics」に基づいて、BigQueryのStorage APIを支えるストレージエンジンであるVortexのアーキテクチャーを解説します。今回は、Storage Optimization Serviceの処理内容と実環境での性能データを紹介します。
Storage Optimization Serviceの処理
前回の記事の図1で説明したように、Write APIを用いて、Streamを経由して書き込まれたデータは、Streamごとに分かれたStreamletとして保存されます。Streamletの実体は、データの書き込み順で追記されたログファイル(Fragment)の集まりです。一方、BigQuery標準のデータ保存形式は、カラム型データストアを用いた「BigQuery Managed Storage Tables」です。そこで、バックグラウンドで動作するStorage Optimization Serviceは、定期的にFragmentのデータを集めて標準のデータ保存形式に変換します(図1)。図1の右にあるROSが、標準形式のテーブルデータを表します。
この続きは以下をご覧ください
(リンク »)
お問い合わせにつきましては発表元企業までお願いいたします。