データウェアハウスとは

2023年6月8日

この記事の内容

データウェアハウスの定義
データウェアハウスの利点
データウェアハウスのアーキテクチャ
データウェアハウスの進化
クラウド・データウェアハウスとは
最新のデータウェアハウスとは
データウェアハウスの設計
データレイクの必要性
OLTP環境に対して分析を実行しない理由
複雑性のない導入: Autonomous Data Warehouse

データウェアハウスの定義

データウェアハウスは、ビジネス・インテリジェンス（BI）アクティビティを実現し、サポートするように設計されたデータ管理システムの一種であり、特に分析を重視しています。データウェアハウスは、クエリと分析の実行のみを目的としており、大量の履歴データを格納していることが普通です。データウェアハウスにあるデータは、通常、アプリケーションのログ・ファイルやトランザクション・アプリケーションなどの多彩なソースから取得されています。

データウェアハウスでは、さまざまなソースから得られた大量のデータを一元化して統合します。その分析機能により、データからビジネス上の価値あるインサイトを導き出し、意思決定の向上を図ることができます。長期間の運用により、データ・サイエンティストやビジネス・アナリストにとって貴重な履歴レコードが蓄積されます。データウェアハウスは、このような機能を備えていることから、企業の信頼できる唯一の情報源と考えることができます。

分析およびデータウェアハウス向けのAutonomous Databaseについて

一般的なデータウェアハウスは、次の各要素で構成されていることが普通です。

データを保存および管理するリレーショナル・データベース
分析できるデータを準備するための、抽出、読み込み、変換（ELT）のソリューション
統計分析、レポート、およびデータ・マイニングの機能
データを視覚化してビジネス・ユーザーに提示するクライアント分析ツール
その他、データ・サイエンスおよび人工知能（AI）アルゴリズムを適用して、実用的な情報を生成する高度な分析アプリケーション、または多くの種類のデータ分析を大規模に実行するグラフおよび空間機能

組織は、トランザクション処理、データウェアハウスやデータレイク全体にわたるリアルタイム分析、機械学習を1つの MySQL Database サービスに統合したソリューションを選択することもでき、抽出、変換、ロード（ETL）の重複による複雑さ、レイテンシ、コスト、リスクを回避することができます。

OLTP、OLAP、MLを1つのMySQLデータベース・サービスに統合

データウェアハウスの利点

データウェアハウスは、大量の異種データを分析して重要な価値を引き出すと同時に、履歴記録を保持できるという点で、包括性がある固有の利点を提供します。

データウェアハウスの生みの親とされているコンピューター・サイエンティスト、William Inmonが指摘した4つの独特な特性により、データウェアハウスはこの包括的な利点を提供できます。この定義によれば、データウェアハウスには次の特性があります。

主題指向性： 特定の主題または機能分野（営業など）に関するデータを分析できます。
統合性： 異種のソースから得られたさまざまなデータ型の間に一貫性を創出します。
不揮発性： データウェアハウスに格納したデータは安定していて変化しません。
時系列性： データウェアハウスでの分析は、時間の経過に伴う変化に着目します。

適切に設計されたデータウェアハウスは、きわめて高速でクエリを実行し、高いデータ・スループットを実現します。また、概要レベルでも詳細レベルでも、さまざまな要望に対応するための詳細な調査を目的としてエンド・ユーザーが実行するデータのslice and dice（多角的な分析）やデータ量の削減に十分な柔軟性を提供します。データウェアハウスには、レポートやダッシュボードなどの各種インターフェースをエンド・ユーザーに提供するミドルウェアBI環境の機能的基盤としての役割があります。

データウェアハウスのアーキテクチャ

データウェアハウスのアーキテクチャは、組織の固有なニーズによって決まります。一般的なアーキテクチャとして以下があります。

シンプルなアーキテクチャ。 メタデータ、サマリー・データ、および生データをデータウェアハウスの中央リポジトリに格納する基本設計を、すべてのデータウェアハウスが共有します。このリポジトリは、一方の接続端でデータ・ソースからデータの供給を受け、もう一方の接続端で分析、レポート、マイニングを目的とするエンド・ユーザーからのアクセスを受けます。
ステージング領域を備えた簡潔なアーキテクチャ： 運用データは、クリーニングと処理を経たうえで、データウェアハウスに格納する必要があります。この手順はプログラムでも実行できますが、多くのデータウェアハウスでは、データの準備を簡素化するために、データウェアハウスへの入力段階の前にデータのステージング領域を追加しています。
ハブ・アンド・スポーク型アーキテクチャ： 中央リポジトリとエンド・ユーザーの間にデータマートを追加すると、さまざまな業務に対応できるようにデータ・ウェアハウスをカスタマイズできます。利用できるようになったデータは、適切なデータマートに移動します。
サンドボックス型アーキテクチャ： サンドボックスはセキュリティで保護された安全なプライベート領域であり、そこではデータウェアハウスの正式なルールやプロトコルへの準拠を必要とせずに、新しいデータセットやデータ分析方法を迅速に非公式で調査できます。

データウェアハウスの進化 - データ分析からAIと機械学習へ

1980年代後半にデータウェアハウスが最初に登場したとき、その目的は、運用システムから意思決定支援システム（DSS）へのデータ・フローを支援することでした。このような初期のデータウェアハウスには、膨大な量の冗長性が必要でした。ほとんどの組織には、さまざまなユーザーにサービスを提供する複数のDSS環境がありました。これらのDSS環境では、それぞれがほとんど同じデータを使用していましたが、そのためには収集、クリーニング、および統合を経たデータを各環境に複製することが普通でした。

その効率の向上に伴い、データウェアハウスは、従来のBIプラットフォームをサポートするインフォメーション・ストアから、運用分析やパフォーマンス管理などのさまざまなアプリケーションをサポートする広範な分析インフラストラクチャに進化しました。

エンタープライズ・データウェアハウス（EDW）によって、データウェアハウスのイテレーションは時代を追って進歩し、そのたびに企業に新たな付加価値を提供しています

ステップ	能力	ビジネス上の価値
1	トランザクション・レポート	ビジネス・パフォーマンスのスナップショットを作成するリレーショナル情報を提供します。
2	slice and dice、アドホック・クエリ、BIツール	より深いインサイトとより堅牢な分析に対応できるように機能を拡張します。
3	将来のパフォーマンスの予測（データ・マイニング）	視覚化と将来を見据えたビジネス・インテリジェンスを開拓します。
4	戦術分析（空間的分析、統計的分析）	包括的な分析に基づいて実務的な意思決定に情報を提供するwhat-ifシナリオを実現
5	月単位または年単位で大量のデータを格納	週単位または月単位でのみデータを格納

これらの5つのステップのそれぞれをサポートするために、必要となるデータセットが増え続けています。特に最後の3つのステップは、これまで以上に広範なデータと分析機能を必要とします。

今日、AIと機械学習は、ほぼすべての業界、サービス、およびエンタープライズの資産を変革していますが、データウェアハウスも例外ではありません。ビッグデータの拡大と新しいデジタルテクノロジーの適用により、データウェアハウスの要件と機能が変化しています。

自律型データウェアハウスは、この進化の最新のステップです。このデータウェアハウスは、コストの削減およびデータウェアハウスの信頼性とパフォーマンスの向上を進めながら、これまで以上の価値をデータから導き出す能力を企業に提供します。

自律型データウェアハウスについて詳しく知り、自律型データウェアハウスの運用に着手します。

データ・ウェアハウス、データマート、および運用データ・ストア

データ・ウェアハウスは、データマートや運用データ・ストア（ODS）と役割は似ていますが、これらとは異なります。データマートの機能はデータ・ウェアハウスと同じですが、その機能範囲は1つの部門または1つの事業部門に限定されていることが普通です。この特性があることで、データマートはデータ・ウェアハウスよりも容易に構築できます。しかし、多数のデータマートにわたる統一性を維持してデータを管理および制御することが困難なことがあり、データの一貫性が得られない傾向があります。

ODSは日次単位の操作のみに対応しているので、履歴データの範囲はきわめて限定されています。最新データのソースとしてはきわめて良好に機能し、データウェアハウスでそのように使用されることも少なくありませんが、履歴に深く関わるクエリはサポートしていません。

クラウド・データウェアハウスとは

クラウド・データウェアハウスは、クラウドを使用して、膨大な数のデータソースからデータを取り込んで保存します。

データウェアハウスはもともと、オンプレミスサーバーで構築されていました。これらのオンプレミス・データウェアハウスには、今日でも多くの利点があります。多くの場合、ガバナンス、セキュリティ、データ主権、およびレイテンシの向上を実現できます。ただし、オンプレミス・データウェアハウスはそれほど弾力性がなく、将来のニーズに合わせてデータウェアハウスを拡張する方法を決定するために複雑な予測が必要です。これらのデータウェアハウスの管理も非常に複雑になる可能性があります。

一方、クラウド・データウェアハウスには、次のような利点があります。

大規模または変動するコンピューティングまたはストレージ要件向けの弾力的なスケールアウト・サポート
使いやすさ
管理しやすさ
コスト削減

最高のクラウド・データウェアハウスはフルマネージド、自律運転型であり、初心者でも数回クリックするだけでデータウェアハウスを作成して使用できます。クラウド・データウェアハウスへの移行を簡単に始めるには、データ主権とセキュリティ要件に準拠したデータセンターのファイアウォールの内側でクラウド・データウェアハウスをオンプレミスで実行することです。

また、ほとんどのクラウド・データウェアハウスは従量制モデルに従っているため、顧客はコストをさらに節約できます。

データウェアハウスの設計

組織がデータウェアハウスの設計を開始するには、具体的なビジネス要件の定義、対象範囲についての合意、概念設計の作成から着手する必要があります。それを受けて、データウェアハウスの論理設計と物理設計の両方を作成できます。論理設計ではオブジェクト間の関係を特定し、物理設計ではオブジェクトを格納および取得するうえで最良の手段を特定します。物理設計では、移動、バックアップ、およびリカバリの各プロセスも扱います。

どのようなデータウェアハウスの設計であっても、次の点に対処する必要があります。

データの具体的な内容
データ・グループ内部での関係とデータ・グループ間の関係
データウェアハウスをサポートするシステム環境
必要なデータ変換のタイプ
データの更新頻度

設計の主な要素は、エンド・ユーザーのニーズです。ほとんどのエンド・ユーザーは、個別のトランザクションとしてのデータではなく、有機的な集合体としてのデータを分析して精査することを望んでいます。ただし、具体的なニーズが発生するまで、エンド・ユーザーは自身が何を望んでいるのかを十分に認識していないことが普通です。したがって、計画プロセスで十分な調査を実施してニーズを予測する必要があります。最後に、データウェアハウスの設計では、エンド・ユーザーのニーズの進展に対応するために、拡張と進化の余地を確保しておく必要があります。

クラウドとデータウェアハウス

クラウドに置いたデータウェアハウスは、オンプレミスのデータウェアハウス同様の特性と利点を提供するほか、クラウド・コンピューティングの利点も備えています。このような利点として、柔軟性、スケーラビリティ、敏捷性、セキュリティ、コスト削減などがあります。クラウド・データウェアハウスでは、データウェアハウスをサポートするハードウェアとソフトウェアのインフラストラクチャを構築して管理する必要がなく、データから価値を導き出すことに専念できます。

データレイクの必要性

さまざまなソースから得られた大量のデータの取り扱いには、データレイクとデータ・ウェアハウスの両方が使用されています。特定の時点でどちらを使用するかは、そのデータをどのように使用するかによって異なります。それぞれの最適な使用方法について以下で説明します。

データレイク：フィルタ処理していない異種データを大量に保存し、後で特定の目的に使用できるようにします。基幹業務アプリケーション、モバイル・アプリ、ソーシャル・メディア、IoTデバイスなどから得られたデータは、データレイクに生データとしてキャプチャされます。さまざまなデータセットの構造、整合性、選択、および形式は、分析担当者が分析時に取得します。複数のソースから取得した、形式が設定されていない非構造化データを、今後何らかの目的で使用できるように保存しておく低コストなストレージを必要とする場合は、データレイクが適切な選択となることがあります。
データウェアハウス：データの分析に特化しています。データウェアハウスでの分析処理は、分析に基づくインサイトの生成を目的として、収集、前後関係の整理、変換を経て分析の準備が整ったデータを対象としています。データウェアハウスは、さまざまなソースから得られる大量のデータの処理にも優れています。複数のソースから全社にわたって得られた履歴データを基にして、高度なデータ分析を必要とする場合は、データウェアハウスが適切であることが多くなります。

OLTP環境に対して分析を実行しない理由

データウェアハウスは、主に履歴データを中心とした各種データの分析に使用するリレーショナル環境です。組織は、データウェアハウスを使用して、時間の経過とともに発生したデータにパターンと関係を見出します。

この環境とは対照的に、トランザクション環境はトランザクションの継続的な処理が目的であり、一般的には注文の入力や金融と小売りのトランザクションに使用します。トランザクションは、履歴データに基づいて作成されるものではありません。実際、OLTP環境では、パフォーマンスの向上を図るために、履歴データはアーカイブされるか、削除されることが普通です。

データウェアハウスとOLTPシステムは大幅に異なります。

	データウェアハウス	OLTPシステム
ワークロード	アドホック・クエリとデータ分析に対応	事前定義された操作のみをサポート
データの変更	定期的に自動更新	個々のステートメントを発行するエンド・ユーザーによる更新
スキーマの設計	部分的に非正規化したスキーマを使用してパフォーマンスを最適化	全面的に正規化したスキーマを使用してデータの一貫性を保証
データのスキャン	数千行から数百万行が対象	一度に少数のレコードにのみアクセス
履歴データ	月単位または年単位で大量のデータを格納	週単位または月単位でのみデータを格納

複雑性のない導入: Autonomous Data Warehouse

データウェアハウスの最新のイテレーションは自律型データウェアハウスです。このデータウェアハウスは、AIと機械学習を利用して手動タスクを排除し、セットアップ、導入、データ管理を簡素化します。クラウドでのサービスとしての自律型データウェアハウスでは、人手によるデータベース管理、ハードウェアの構成や管理、ソフトウェアのインストールを必要としません。

データウェアハウスの作成、データベースのバックアップ、データベースのパッチ適用とアップグレード、データベースの規模調整は、クラウド・プラットフォームと同等の柔軟性、スケーラビリティ、敏捷性、コスト削減で、すべて自動的に実行されます。自律型データウェアハウスでは、複雑さの排除、導入の迅速化、リソースの解放を実現できるので、ビジネスに価値を創出する活動に集中できます。

Oracle Autonomous Data Warehouse

Oracle Autonomous Data Warehouseは、使いやすい全面的に自律型のデータウェアハウスであり、弾力的なスケーリングと高速なクエリ実行を実現し、データベース管理を必要としません。Oracle Autonomous Data Warehouseの設定はきわめて簡潔で、短時間で完了します。

Oracle Autonomous Data Warehouseを選択する理由

自動化 データベース管理を完全に自動化した唯一のデータウェアハウスです。
使いやすさ。 Autonomous Data Warehouseソリューションは、組み込みの機能により、追加のスタンドアロン・サービスの必要性を排除し、導入と管理をよりシンプルにします。
ソリューションのコスト オラクルの最新のデータウェアハウスと拡張機能は、同様のコストで同様のワークロードの要件を満たすことができます。
データ・セキュリティ サイバー脅威からデータを保護する、より強力な組み込みのセキュリティ・プロトコルを提供します。
データ・ガバナンス オラクルのデータウェアハウス・プラットフォームは、企業がデータ主権ニーズに対応するためのシームレスな管理を可能にします。