データウェアハウスは、ビジネス・インテリジェンス(BI)アクティビティを実現し、サポートするように設計されたデータ管理システムの一種であり、特に分析を重視しています。データウェアハウスは、クエリと分析の実行のみを目的としており、大量の履歴データを格納していることが普通です。データウェアハウスにあるデータは、通常、アプリケーションのログ・ファイルやトランザクション・アプリケーションなどの多彩なソースから取得されています。
データウェアハウスでは、さまざまなソースから得られた大量のデータを一元化して統合します。その分析機能により、データからビジネス上の価値あるインサイトを導き出し、意思決定の向上を図ることができます。長期間の運用により、データ・サイエンティストやビジネス・アナリストにとって貴重な履歴レコードが蓄積されます。データウェアハウスは、このような機能を備えていることから、企業の信頼できる唯一の情報源と考えることができます。
一般的なデータウェアハウスは、次の各要素で構成されていることが普通です。
組織は、トランザクション処理、データウェアハウスや データレイク全体にわたるリアルタイム分析、機械学習を1つの MySQL Database サービスに統合したソリューションを選択することもでき、抽出、変換、ロード(ETL)の重複による複雑さ、レイテンシ、コスト、リスクを回避することができます。
データウェアハウスは、大量の異種データを分析して重要な価値を引き出すと同時に、履歴記録を保持できるという点で、包括性がある固有の利点を提供します。
データウェアハウスの生みの親とされているコンピューター・サイエンティスト、William Inmonが指摘した4つの独特な特性により、データウェアハウスはこの包括的な利点を提供できます。この定義によれば、データウェアハウスには次の特性があります。
適切に設計されたデータウェアハウスは、きわめて高速でクエリを実行し、高いデータ・スループットを実現します。また、概要レベルでも詳細レベルでも、さまざまな要望に対応するための詳細な調査を目的としてエンド・ユーザーが実行するデータのslice and dice(多角的な分析)やデータ量の削減に十分な柔軟性を提供します。データウェアハウスには、レポートやダッシュボードなどの各種インターフェースをエンド・ユーザーに提供するミドルウェアBI環境の機能的基盤としての役割があります。
データウェアハウスのアーキテクチャは、組織の固有なニーズによって決まります。一般的なアーキテクチャとして以下があります。
1980年代後半にデータウェアハウスが最初に登場したとき、その目的は、運用システムから意思決定支援システム(DSS)へのデータ・フローを支援することでした。このような初期のデータウェアハウスには、膨大な量の冗長性が必要でした。ほとんどの組織には、さまざまなユーザーにサービスを提供する複数のDSS環境がありました。これらのDSS環境では、それぞれがほとんど同じデータを使用していましたが、そのためには収集、クリーニング、および統合を経たデータを各環境に複製することが普通でした。
その効率の向上に伴い、データウェアハウスは、従来のBIプラットフォームをサポートするインフォメーション・ストアから、運用分析やパフォーマンス管理などのさまざまなアプリケーションをサポートする広範な分析インフラストラクチャに進化しました。
エンタープライズ・データウェアハウス(EDW)によって、データウェアハウスのイテレーションは時代を追って進歩し、そのたびに企業に新たな付加価値を提供しています。
ステップ | 能力 | ビジネス上の価値 |
---|---|---|
1 | トランザクション・レポート | ビジネス・パフォーマンスのスナップショットを作成するリレーショナル情報を提供します。 |
2 | slice and dice、アドホック・クエリ、BIツール | より深いインサイトとより堅牢な分析に対応できるように機能を拡張します。 |
3 | 将来のパフォーマンスの予測(データ・マイニング) | 視覚化と将来を見据えたビジネス・インテリジェンスを開拓します。 |
4 | 戦術分析(空間的分析、統計的分析) | 包括的な分析に基づいて実務的な意思決定に情報を提供するwhat-ifシナリオを実現 |
5 | 月単位または年単位で大量のデータを格納 | 週単位または月単位でのみデータを格納 |
これらの5つのステップのそれぞれをサポートするために、必要となるデータセットが増え続けています。特に最後の3つのステップは、これまで以上に広範なデータと分析機能を必要とします。
今日、AIと機械学習は、ほぼすべての業界、サービス、およびエンタープライズの資産を変革していますが、データウェアハウスも例外ではありません。ビッグデータの拡大と新しいデジタルテクノロジーの適用により、データウェアハウスの要件と機能が変化しています。
自律型データウェアハウスは、この進化の最新のステップです。このデータウェアハウスは、コストの削減およびデータウェアハウスの信頼性とパフォーマンスの向上を進めながら、これまで以上の価値をデータから導き出す能力を企業に提供します。
自律型データウェアハウスについて詳しく知り、自律型データウェアハウスの運用に着手します。
データ・ウェアハウスは、データマートや運用データ・ストア(ODS)と役割は似ていますが、これらとは異なります。データマートの機能はデータ・ウェアハウスと同じですが、その機能範囲は1つの部門または1つの事業部門に限定されていることが普通です。この特性があることで、データマートはデータ・ウェアハウスよりも容易に構築できます。しかし、多数のデータマートにわたる統一性を維持してデータを管理および制御することが困難なことがあり、データの一貫性が得られない傾向があります。
ODSは日次単位の操作のみに対応しているので、履歴データの範囲はきわめて限定されています。最新データのソースとしてはきわめて良好に機能し、データウェアハウスでそのように使用されることも少なくありませんが、履歴に深く関わるクエリはサポートしていません。
クラウド・データウェアハウスは、クラウドを使用して、膨大な数のデータソースからデータを取り込んで保存します。
データウェアハウスはもともと、オンプレミスサーバーで構築されていました。これらのオンプレミス・データウェアハウスには、今日でも多くの利点があります。多くの場合、ガバナンス、セキュリティ、データ主権、およびレイテンシの向上を実現できます。ただし、オンプレミス・データウェアハウスはそれほど弾力性がなく、将来のニーズに合わせてデータウェアハウスを拡張する方法を決定するために複雑な予測が必要です。これらのデータウェアハウスの管理も非常に複雑になる可能性があります。
一方、クラウド・データウェアハウスには、次のような利点があります。
最高のクラウド・データウェアハウスはフルマネージド、自律運転型であり、初心者でも数回クリックするだけでデータウェアハウスを作成して使用できます。クラウド・データウェアハウスへの移行を簡単に始めるには、データ主権とセキュリティ要件に準拠したデータセンターのファイアウォールの内側でクラウド・データウェアハウスをオンプレミスで実行することです。
また、ほとんどのクラウド・データウェアハウスは従量制モデルに従っているため、顧客はコストをさらに節約できます。
IT、データ・エンジニアリング、ビジネス分析、データサイエンスのいずれのチームに所属しているかにかかわらず、組織全体のさまざまなユーザーがデータウェアハウスに対してさまざまなニーズを持っています。
最新のデータ・アーキテクチャは、すべてのデータ型、ワークロード、および分析を管理する方法を提供して、このようなさまざまなニーズに対応します。モダン・データウェアハウスのアーキテクチャ・パターンはさまざまで、パターン別に必要なコンポーネントが統合されて業界のベストプラクティスに沿って連携するようになっています。モダン・データウェアハウスには次のものが含まれます。
モダン・データウェアハウスは、他のウェアハウスでは不可能な方法でデータワークフローを効率的に合理化できます。これは、アナリストやデータエンジニアからデータサイエンティストやITチームまで誰もが、遅延や複雑さに何度も悩まされることなく、より効果的に作業を遂行し、組織を前進させる革新的な方法を追求できることを意味します。
組織がデータウェアハウスの設計を開始するには、具体的なビジネス要件の定義、対象範囲についての合意、概念設計の作成から着手する必要があります。それを受けて、データウェアハウスの論理設計と物理設計の両方を作成できます。論理設計ではオブジェクト間の関係を特定し、物理設計ではオブジェクトを格納および取得するうえで最良の手段を特定します。物理設計では、移動、バックアップ、およびリカバリの各プロセスも扱います。
どのようなデータウェアハウスの設計であっても、次の点に対処する必要があります。
設計の主な要素は、エンド・ユーザーのニーズです。ほとんどのエンド・ユーザーは、個別のトランザクションとしてのデータではなく、有機的な集合体としてのデータを分析して精査することを望んでいます。ただし、具体的なニーズが発生するまで、エンド・ユーザーは自身が何を望んでいるのかを十分に認識していないことが普通です。したがって、計画プロセスで十分な調査を実施してニーズを予測する必要があります。最後に、データウェアハウスの設計では、エンド・ユーザーのニーズの進展に対応するために、拡張と進化の余地を確保しておく必要があります。
クラウドに置いたデータウェアハウスは、オンプレミスのデータウェアハウス同様の特性と利点を提供するほか、クラウド・コンピューティングの利点も備えています。このような利点として、柔軟性、スケーラビリティ、敏捷性、セキュリティ、コスト削減などがあります。クラウド・データウェアハウスでは、データウェアハウスをサポートするハードウェアとソフトウェアのインフラストラクチャを構築して管理する必要がなく、データから価値を導き出すことに専念できます。
さまざまなソースから得られた大量のデータの取り扱いには、データレイクとデータ・ウェアハウスの両方が使用されています。特定の時点でどちらを使用するかは、そのデータをどのように使用するかによって異なります。それぞれの最適な使用方法について以下で説明します。
データウェアハウスは、主に履歴データを中心とした各種データの分析に使用するリレーショナル環境です。組織は、データウェアハウスを使用して、時間の経過とともに発生したデータにパターンと関係を見出します。
この環境とは対照的に、トランザクション環境はトランザクションの継続的な処理が目的であり、一般的には注文の入力や金融と小売りのトランザクションに使用します。トランザクションは、履歴データに基づいて作成されるものではありません。実際、OLTP環境では、パフォーマンスの向上を図るために、履歴データはアーカイブされるか、削除されることが普通です。
データウェアハウスとOLTPシステムは大幅に異なります。
データウェアハウス | OLTPシステム | |
---|---|---|
ワークロード | アドホック・クエリとデータ分析に対応 | 事前定義された操作のみをサポート |
データの変更 | 定期的に自動更新 | 個々のステートメントを発行するエンド・ユーザーによる更新 |
スキーマの設計 | 部分的に非正規化したスキーマを使用してパフォーマンスを最適化 | 全面的に正規化したスキーマを使用してデータの一貫性を保証 |
データのスキャン | 数千行から数百万行が対象 | 一度に少数のレコードにのみアクセス |
履歴データ | 月単位または年単位で大量のデータを格納 | 週単位または月単位でのみデータを格納 |
データウェアハウスの最新のイテレーションは自律型データウェアハウスです。このデータウェアハウスは、AIと機械学習を利用して手動タスクを排除し、セットアップ、導入、データ管理を簡素化します。クラウドでのサービスとしての自律型データウェアハウスでは、人手によるデータベース管理、ハードウェアの構成や管理、ソフトウェアのインストールを必要としません。
データウェアハウスの作成、データベースのバックアップ、データベースのパッチ適用とアップグレード、データベースの規模調整は、クラウド・プラットフォームと同等の柔軟性、スケーラビリティ、敏捷性、コスト削減で、すべて自動的に実行されます。自律型データウェアハウスでは、複雑さの排除、導入の迅速化、リソースの解放を実現できるので、ビジネスに価値を創出する活動に集中できます。
Oracle Autonomous Data Warehouseは、使いやすい全面的に自律型のデータウェアハウスであり、弾力的なスケーリングと高速なクエリ実行を実現し、データベース管理を必要としません。Oracle Autonomous Data Warehouseの設定はきわめて簡潔で、短時間で完了します。