データ・ウェアハウスとは
データ・ウェアハウスは、ビジネス・インテリジェンス(BI)アクティビティを実現し、サポートするように設計されたデータ管理システムの一種であり、特に分析を重視しています。データ・ウェアハウスは、クエリと分析の実行のみを目的としており、大量の履歴データを格納していることが普通です。データ・ウェアハウスにあるデータは、通常、アプリケーションのログ・ファイルやトランザクション・アプリケーションなどの多彩なソースから取得されています。
データ・ウェアハウスでは、さまざまなソースから得られた大量のデータを一元化して統合します。その分析機能により、データからビジネス上の価値あるインサイトを導き出し、意思決定の向上を図ることができます。 長期間の運用により、データ・サイエンティストやビジネス・アナリストにとって貴重な履歴レコードが蓄積されます。データ・ウェアハウスは、このような機能を備えていることから、組織にとって“真実を収めた唯一の情報源”と考えることができます。
一般的なデータ・ウェアハウスは、次の各要素で構成されていることが普通です。
- データを保存および管理するリレーショナル・データベース
- 分析できるデータを準備するための、抽出、読み込み、変換(ELT)のソリューション
- 統計分析、レポート、およびデータ・マイニングの機能
- データを視覚化してビジネス・ユーザーに提示するクライアント分析ツール
- 機械学習と人工知能(AI)のアルゴリズムを適用することによって 実用的な情報を生成する、その他のより高度な分析アプリケーション
OLTP環境に対して分析を実行しない理由
データ・ウェアハウスは、主に履歴データを中心とした各種データの分析に使用するリレーショナル環境です。組織は、データ・ウェアハウスを使用して、時間の経過とともに発生したデータにパターンと関係を見出します。
この環境とは対照的に、トランザクション環境はトランザクションの継続的な処理が目的であり、一般的には注文の入力や金融と小売りのトランザクションに使用します。トランザクションは、履歴データに基づいて作成されるものではありません。実際、OLTP環境では、パフォーマンスの向上を図るために、履歴データはアーカイブされるか、削除されることが普通です。
データ・ウェアハウスとOLTPシステムは大幅に異なります。
データ・ウェアハウス | OLTPシステム | |
---|---|---|
ワークロード | アドホック・クエリとデータ分析に対応 | 事前定義された操作のみをサポート |
データの変更 | 定期的に自動更新 | 個々のステートメントを発行するエンド・ユーザーによる更新 |
スキーマの設計 | 部分的に非正規化したスキーマを使用してパフォーマンスを最適化 | 全面的に正規化したスキーマを使用してデータの一貫性を保証 |
データのスキャン | 数千行から数百万行が対象 | 一度に少数のレコードにのみアクセス |
履歴データ | 月単位または年単位で大量のデータを格納 | 週単位または月単位でのみデータを格納 |
データ・ウェアハウス、データ・マート、および運用データ・ストア
データ・ウェアハウスは、データ・マートや運用データ・ストア(ODS)と役割は似ていますが、これらとは異なります。データ・マートの機能はデータ・ウェアハウスと同じですが、その機能範囲は1つの部門または1つの事業部門に限定されていることが普通です。—この特性があることで、データ・マートはデータ・ウェアハウスよりも容易に構築できます。しかし、多数のデータ・マートにわたる統一性を維持してデータを管理および制御することが困難なことがあり、データの一貫性が得られない傾向があります。
ODSは日次単位の操作のみに対応しているので、履歴データの範囲はきわめて限定されています。最新データのソースとしてはきわめて良好に機能し、データ・ウェアハウスでそのように使用されることも少なくありませんが、履歴に深く関わるクエリはサポートしていません。
データ・レイクの必要性
さまざまなソースから得られた大量のデータの取り扱いには、データ・レイクとデータ・ウェアハウスの両方が使用されています。特定の時点でどちらを使用するかは、そのデータをどのように使用するかによって異なります。それぞれの最適な使用方法について以下で説明します。
- データ・レイク:フィルタ処理していない異種データを大量に保存し、後で特定の目的に使用できるようにします。基幹業務アプリケーション、モバイル・アプリ、ソーシャル・メディア、IoTデバイスなどから得られたデータは、データ・レイクに生データとしてキャプチャされます。さまざまなデータセットの構造、整合性、選択、および形式は、分析担当者が分析時に取得します。複数のソースから取得した、形式が設定されていない非構造化データを、今後何らかの目的で使用できるように保存しておく低コストなストレージを必要とする場合は、データ・レイクが適切な選択となることがあります。
- データ・ウェアハウス:データの分析に特化しています。データ・ウェアハウスでの分析処理は、分析に基づくインサイトの生成を目的として、収集、前後関係の整理、変換を経て分析の準備が整ったデータを対象としています。——データ・ウェアハウスは、さまざまなソースから得られる大量のデータの処理にも優れています。複数のソースから全社にわたって得られた履歴データを基にして、高度なデータ分析を必要とする場合は、データ・ウェアハウスが適切であることが多くなります。
データ・ウェアハウスの利点
データ・ウェアハウスは、大量の異種データを分析して重要な価値を引き出すと同時に、履歴記録を保持できるという点で、包括性がある固有の利点を提供します。
データ・ウェアハウスの生みの親とされているコンピューター・サイエンティスト、William Inmonが指摘した4つの独特な特性により、データ・ウェアハウスはこの包括的な利点を提供できます。この定義によれば、データ・ウェアハウスには次の特性があります。
- 主題指向性:特定の主題または機能分野(営業など)に関するデータを分析できます。
- 統合性:異種のソースから得られたさまざまな種類のデータ間に一貫性を創出します。
- 不揮発性:データ・ウェアハウスに格納したデータは安定していて変化しません。
- 時系列性:データ・ウェアハウスでの分析は、時間の経過に伴う変化に着目します。
適切に設計されたデータ・ウェアハウスは、きわめて高速でクエリを実行し、高いデータ・スループットを実現します。また、概要レベルでも詳細レベルでも、さまざまな要望に対応するための詳細な調査を目的としてエンド・ユーザーが実行するデータの“slice and dice”(多角的な分析)やデータ量の削減に十分な柔軟性を提供します。—データ・ウェアハウスには、レポートやダッシュボードなどの各種インターフェースをエンド・ユーザーに提供するミドルウェアBI環境の機能的基盤としての役割があります。
データ・ウェアハウスのアーキテクチャ
データ・ウェアハウスのアーキテクチャは、組織の固有なニーズによって決まります。一般的なアーキテクチャとして以下があります。
- 簡潔なアーキテクチャ:メタデータ、サマリー・データ、および生データをデータ・ウェアハウスの中央リポジトリに格納する基本設計を、すべてのデータ・ウェアハウスが共有します。このリポジトリは、一方の接続端でデータ・ソースからデータの供給を受け、もう一方の接続端で分析、レポート、マイニングを目的とするエンド・ユーザーからのアクセスを受けます。
- ステージング領域を備えた簡潔なアーキテクチャ:運用データは、クリーニングと処理を経たうえで、データ・ウェアハウスに格納する必要があります。この手順はプログラムでも実行できますが、多くのデータ・ウェアハウスでは、データの準備を簡素化するために、データ・ウェアハウスへの入力段階の前にデータのステージング領域を追加しています。
- ハブ・アンド・スポーク型アーキテクチャ:中央リポジトリとエンド・ユーザーの間にデータ・マートを追加すると、さまざまな業務に対応できるようにデータ・ウェアハウスをカスタマイズできます。利用できるようになったデータは、適切なデータ・マートに移動します。
- サンドボックス型アーキテクチャ:サンドボックスはセキュリティで保護された安全なプライベート領域であり、そこではデータ・ウェアハウスの正式なルールやプロトコルへの準拠を必要とせずに、新しいデータセットやデータ分析方法を迅速に非公式で調査できます。
データ・ウェアハウスの進化—データの分析からAIと機械学習へ
1980年代後半にデータ・ウェアハウスが最初に登場したとき、その目的は、運用システムから意思決定支援システム(DSS)へのデータ・フローを支援することでした。このような初期のデータ・ウェアハウスには、膨大な量の冗長性が必要でした。ほとんどの組織には、さまざまなユーザーにサービスを提供する複数のDSS環境がありました。これらのDSS環境では、それぞれがほとんど同じデータを使用していましたが、そのためには収集、クリーニング、および統合を経たデータを各環境に複製することが普通でした。
その効率の向上に伴い、データ・ウェアハウスは、従来のBIプラットフォームをサポートするインフォメーション・ストアから、運用分析やパフォーマンス管理などのさまざまなアプリケーションをサポートする広範な分析インフラストラクチャに進化しました。
データ・ウェアハウスのイテレーションは時代を追って進歩し、そのたびに企業に新たな付加価値を提供しています。
ステップ | 能力 | ビジネス上の価値 |
---|---|---|
1 | トランザクション・レポート | ビジネス・パフォーマンスのスナップショットを作成するリレーショナル情報を提供します。 |
2 | slice and dice、アドホック・クエリ、BIツール | より深いインサイトとより堅牢な分析に対応できるように機能を拡張します。 |
3 | 将来のパフォーマンスの予測(データ・マイニング) | 視覚化と将来を見据えたビジネス・インテリジェンスを開拓します。 |
4 | 戦術分析(空間的分析、統計的分析) | 包括的な分析に基づいて実務的な意思決定に情報を提供する“what-if”シナリオを実現します。 |
5 | 月単位または年単位で大量のデータを格納 | 週単位または月単位でのみデータを格納 |
これらの5つのステップのそれぞれをサポートするために、必要となるデータセットが増え続けています。特に最後の3つのステップは、これまで以上に広範なデータと分析機能を必要とします。
今日、AIと機械学習は、ほぼすべての業界、サービス、およびエンタープライズの資産を変革していますが、データ・ウェアハウスも例外ではありません。—ビッグ・データの拡大と新しいデジタル・テクノロジーの適用が、データ・ウェアハウスの要件と機能の変化を促進しています。
自律型データ・ウェアハウスは、この進化の最新のステップです。このデータ・ウェアハウスは、コストの削減およびデータ・ウェアハウスの信頼性とパフォーマンスの向上を進めながら、これまで以上の価値をデータから導き出す能力を企業に提供します。
自律型データ・ウェアハウスについて詳しく知り、自律型データ・ウェアハウスの運用に着手します。
データ・ウェアハウスの設計
組織がデータ・ウェアハウスの設計を開始するには、具体的なビジネス要件の定義、対象範囲についての合意、概念設計の作成から着手する必要があります。それを受けて、データ・ウェアハウスの論理設計と物理設計の両方を作成できます。論理設計ではオブジェクト間の関係を特定し、物理設計ではオブジェクトを格納および取得するうえで最良の手段を特定します。物理設計では、移動、バックアップ、およびリカバリの各プロセスも扱います。
どのようなデータ・ウェアハウスの設計であっても、次の点に対処する必要があります。
- データの具体的な内容
- データ・グループ内部での関係とデータ・グループ間の関係
- データ・ウェアハウスをサポートするシステム環境
- 必要なデータ変換のタイプ
- データの更新頻度
設計の主な要素は、エンド・ユーザーのニーズです。ほとんどのエンド・ユーザーは、個別のトランザクションとしてのデータではなく、有機的な集合体としてのデータを分析して精査することを望んでいます。ただし、具体的なニーズが発生するまで、エンド・ユーザーは自身が何を望んでいるのかを十分に認識していないことが普通です。したがって、計画プロセスで十分な調査を実施してニーズを予測する必要があります。最後に、データ・ウェアハウスの設計では、エンド・ユーザーのニーズの進展に対応するために、拡張と進化の余地を確保しておく必要があります。
クラウドとデータ・ウェアハウス
クラウドに置いたデータ・ウェアハウスは、オンプレミスのデータ・ウェアハウス同様の特性と利点を提供するほか、クラウド・コンピューティングの利点も備えています。このような利点として、柔軟性、スケーラビリティ、俊敏性、セキュリティ、コスト削減などがあります。クラウド・データ・ウェアハウスでは、データ・ウェアハウスをサポートするハードウェアとソフトウェアのインフラストラクチャを構築して管理する必要がなく、データから価値を導き出すことに専念できます。
複雑さがない導入:自律型データ・ウェアハウス
データ・ウェアハウスの最新のイテレーションは自律型データ・ウェアハウスです。このデータ・ウェアハウスは、AIと機械学習を利用して手動タスクを排除し、セットアップ、導入、データ管理を簡素化します。クラウドでのサービスとしての自律型データウェアハウスでは、人手によるデータベース管理、ハードウェアの構成や管理、ソフトウェアのインストールを必要としません。
データウェアハウスの作成、データベースのバックアップ、データベースのパッチ適用とアップグレード、データベースの規模調整は、クラウド・プラットフォームと同等の柔軟性、スケーラビリティ、俊敏性、コスト削減で、すべて自動的に実行されます。自律型データ・ウェアハウスでは、複雑さの排除、導入の迅速化、リソースの解放を実現できるので、ビジネスに価値を創出する活動に集中できます。
Oracle Autonomous Data Warehouse
Oracle Autonomous Data Warehouseは、使いやすい全面的に自律型のデータ・ウェアハウスであり、弾力的なスケーリングと高速なクエリ実行を実現し、データベース管理を必要としません。Oracle Autonomous Data Warehouseの設定はきわめて簡潔で、短時間で完了します。