HeatWave Lakehouseの機能

オブジェクト・ストレージ内のデータと、オプションでMySQLデータベース内のデータをクエリする問合せエンジン

CSV、Parquet、Avro、他のデータベースからのエクスポート・ファイルなど、オブジェクト・ストレージ内のさまざまなファイル形式のデータを、標準のSQL構文を使用してオブジェクト・ストレージでクエリできます。また、オプションでMySQLデータベースのトランザクション・データと組み合せることができます。クエリ処理はすべてHeatWaveエンジン内で実行されるため、MySQL以外のワークロードとMySQL互換のワークロードの両方にHeatWaveを使用できます。HeatWaveクラスタにロードされると、すべてのソースのデータが自動的に単一の最適化された内部形式に変換されます。その結果、オブジェクト・ストレージ内のデータに対するクエリを、データベースに対するクエリと同じ速さで行えます(業界初)。

クエリ結果はオブジェクト・ストレージに書き込み可能なため、簡単に共有したり、オブジェクト・ストレージに低価格で保存したりできます。また、これにより、開発者はMapReduceアプリケーションにHeatWaveを使用できるようになります。

JSONおよびJavaScriptのサポート

HeatWaveを使用して、オブジェクト・ストレージ内のJSON形式の準構造化データをクエリできます。例えば、オブジェクト・ストレージ内のJSONデータを使用して、コンテンツ管理アプリケーションやリアルタイムダッシュボードを開発できます。HeatWave LakehouseのネイティブなJavaScriptサポートにより、JavaScriptを使用してオブジェクト・ストレージ内のデータを処理およびクエリできます。例えば、JavaScriptの豊富な機能を使用して、動的なコンテンツ読み込みアプリケーションを構築できます。

HeatWave Vector Storeによる非構造化ドキュメントのサポート

HeatWave Vector Storeを使用すると、非構造化ドキュメントをアップロードしてクエリできます。

スケールアウト・アーキテクチャ

HeatWaveの比類ないパフォーマンスは、スケールアウト・アーキテクチャによるもので、最大512ノードでクラスタのプロビジョニング、データのロード、クエリの処理を大規模に並列処理します。クラスタ内の各HeatWaveノードとノード内の各コアでは、並列スキャン、結合、グループ化、集計、top-k処理など、パーティション化されたデータを並列処理できます。このアルゴリズムは、演算時間がノード間のデータ通信と重複するように設計されているため、高いスケーラビリティを実現できます。

HeatWave Autopilotを使用した機械学習ベースの自動化

HeatWave Autopilotは、機械学習(ML)を搭載したHeatWaveに、ワークロードを認識する自動化機能を提供します。HeatWave Autopilotの機能である自動プロビジョニング、自動クエリ計画改善(過去のクエリ実行からさまざまな実行時統計を学習し、今後のクエリの実行計画を改善)、自動パラレル・ロードなどは、HeatWave Lakehouse向けに強化されています。HeatWave Lakehouseの追加機能は次のとおりです。

  • 自動スキーマ推論は、CSVを含むサポートされているすべてのファイルタイプについて、対応するスキーマ定義へのファイルデータのマッピングを自動的に推論します。その結果、お客様はファイルのスキーマ・マッピングを手動で定義および更新する必要がなくなり、時間と労力を節約できます。
  • アダプティブ・データ・サンプリングは、オブジェクト・ストレージ内のファイルをインテリジェントにサンプリングし、HeatWave Autopilotが自動化を予測するための情報を抽出します。アダプティブ・データ・サンプリングを使用することで、HeatWave Autopilotは400 TBのファイルを1分以内にスキャンし、スキーマ・マッピングなどの予測を行うことができます。
  • アダプティブ・データ・フローにより、HeatWave Lakehouseは、どのリージョンにおいても、元となるオブジェクト・ストアのパフォーマンスに動的に適応し、全体的なパフォーマンスと可用性を向上させます。
  • 適応問合せ最適化は、クエリ実行開始後にさまざまな統計情報を使用してデータ構造とシステム・リソースを調整し、実行時の実際のデータ分布に基づいて各ノードのクエリ実行を独立して最適化します。これにより、アドホック・クエリのパフォーマンスが最大25%向上します。
  • 自動圧縮は、お客様が列ごとに最適な圧縮アルゴリズムを決定するのに役立ち、より高速なデータ圧縮と回答により、ロードとクエリのパフォーマンスが向上します。メモリ使用量を削減することで、お客様は最大20%のコスト削減を実現できます。

組み込みの機械学習

HeatWave AutoMLを使用すると、オブジェクト・ストレージ、データベース、またはその両方にあるデータを使用して、MLモデルの構築、トレーニング、デプロイ、説明を行うことができます。データを別の機械学習クラウド・サービスに移行したり、機械学習の専門家である必要はありません。HeatWave AutoMLは、アルゴリズムの選択、モデル・トレーニングのためのインテリジェントなデータ・サンプリング、機能の選択、ハイパーパラメータの最適化など、機械学習パイプラインを自動化するため、データ・アナリストの時間と労力を大幅に削減します。HeatWave AutoMLは、異常検知、予測、分類、回帰、推奨システムなどのタスクをサポートしており、これらをテキスト列に対しても実行できます。HeatWave AutoMLは追加コストなしで使用できます。

高可用性のフルマネージド・データベース・サービス

高可用性管理、パッチ適用、アップグレード、バックアップなどの作業は、フルマネージド・サービスで自動化されています。HeatWaveクラスタにロードされたデータは、予期しないコンピュート・ノードの障害が発生した場合に、外部データ形式による再変換を行うことなく、自動的にリカバリされます。

セキュアなアクセス制御

Oracle Cloud Infrastructure(OCI)リソース・プリンシパル認証や事前認証済リクエストなどのアクセス制御メカニズムにより、データレイク・ソースへのアクセスを完全に制御できます。