June 7, 2023 時点の、主に以下資料に基づくメモです
全般
- 最大4つまでのカラムを指定してクラスタ化列を作り、クラスタ化列内のデータは適切なサイズのストレージブロックに振り分けられ内部でソートされる。フィルタ時などで特定のブロックだけ読めば良くなるので高速化を期待できる
- 実際にクエリするまでスキャン量は正確にわからない
- パーティション分割している場合は、各パーティション内をソートする
パーティション分割テーブルは、日毎に分割するなら約11年、時毎なら約5.5ヶ月のデータしか保持できない
クエリ
JSON 関連の関数は EXTRACT* 系を使うべきではない
- JSON_{QUERY, VALUE}* 系を使うべし