主なデータウェアハウス用語の用語集

主なデータウェアハウス用語の用語集

このページでは、データウェアハウスとビッグデータに関連する主な用語やフレーズを大まかに説明しています。各トピックには詳細な情報へのリンクが用意されています。

詳細を見る

用語集

 

データベースとは

どの組織にも、組織の要件を満たすために保管および管理しなければならない情報があります。たとえば、企業は従業員の人事記録を収集し、維持管理する必要があります。これらの情報は、必要とする人が利用できなければなりません。

情報システムは、情報を保管して処理するための正規のシステムです。紙製の書類フォルダが収納された一群の段ボール箱であっても、フォルダの保管方法と検索方法が定められていれば、立派な情報システムとなります。ただし、今日のほとんどの企業はデータベースを使用して情報システムを自動化しています。データベースは、1つの単位として扱われる情報を集めて整理したものです。データベースの目的は、関連情報をデータベース・アプリケーションから使用できるように収集、保管して取り出すことにあります。

スプレッドマートとは

ビジネスユーザーは、放っておかれると自分でどうにかしてしまうものです。データと情報の間にはたいてい隔たりがあります。隔たりはブックで埋められ、ブックにはスプレッドシートがあふれています。スプレッドシートそのものが問題なのではありません。単に私たちが、スイスアーミーナイフのような便利な道具としてスプレッドシートに頼りすぎているのです。

このような方法は短期的にはうまくいくかもしれませんが、このアプローチを「プロセス」と呼ぶのは、どうひいき目に見ても無理があります。スプレッドシートは個人の生産性を向上する素晴らしいツールですが、残念ながら誰もが過剰に使用する傾向にあります。

端的に言えば、スプレッドシートはあまり適切に使用されていません。アナリストやビジネスユーザーは、大量の(数百とは言わないまでも、数十もの)シートを詰め込んだ膨大なワークブックを幾度となく作成しており、それらのワークブックを「レポート作成アプリケーション」に変えています。スプレッドマートとは、一連のスプレッドシート・ワークブックを使用して構築された、まさにデータマートです。

データマートとは

データマートは、データウェアハウスと同様の役割を果たしますが、その適用範囲は意図的に制限されています。たとえば、ある特定の部署や事業部門だけで使用するような場合があります。データマートには、適用範囲が限られていることから、データウェアハウスよりもはるかに短時間で作成できるという利点があります。ただし、データマートは一貫性の欠如という問題ももたらします。

すべてのデータマートにわたってデータと計算の定義を統一するには、厳密なルールが必要です。この問題は広く認識されているため、データマートには2つの方式があります。独立型データマートには、ソースからデータが直接供給されます。この方式のデータマートは、一貫性のない情報の孤島を生み出す可能性があります。従属型データマートには、既存のデータウェアハウスからデータが供給されます。従属型データマートでは一貫性欠如の問題は回避できますが、全社的なデータウェアハウスがすでに存在している必要があります。

データマートは、物理的にインスタンス化することも、ビューによって完全に論理的に実装することもできます。さらに、データマートはエンタープライズ・データウェアハウスと同居させることも、別のシステムとして構築することもできます。

運用データストアとは

運用データストア(ODS)は、日々の業務を支援することを目的としています。ODSのデータは、不要なものが取り除かれ、検証されていますが、長期間保持されることはありません。当日のデータのみの場合もあります。データウェアハウスが長期的に収集・保管されたデータへの問い合わせに使用されるのに対して、ODSは、データウェアハウスにまだロードされていない最新のデータにデータウェアハウスからアクセスできるようにします。

ODSは、データウェアハウスにデータをロードするソースとして使用されることもあります。データウェアハウスのロード技術の進歩に伴い、データをロードするソースとしてのODSの必要性は低下しています。代わりに、常時データを供給するトリクルフィード・システムによって、ほぼリアルタイムでデータウェアハウスにデータをロードできます。

データウェアハウスとは

データウェアハウスは、ビジネス・インテリジェンス活動を可能にするよう設計されたデータベースであり、ユーザーが組織の業績を把握して業績の向上を図ることができるよう支援します。データウェアハウスはトランザクション処理向けではなく、クエリと分析向けに設計されています。通常は、トランザクション・データから抽出された履歴データを保持しますが、それ以外のソースからのデータを保持することもできます。データウェアハウスは分析ワークロードとトランザクション・ワークロードを分離し、複数のソースからのデータの統合に使用できます。

これは、次の場合に役立ちます。

  • 履歴データの維持
  • データ分析によるビジネス状況の把握とその改善

エンタープライズ・データウェアハウスとは

データウェアハウス・アーキテクチャの中心となる生データの統合ストレージのことを一般に、エンタープライズ・データウェアハウス(EDW)と呼びます。EDWには、関連するあらゆるビジネス情報が極めて詳細な形式で保持されるため、組織のビジネスをあらゆる角度から見ることができます。

ステージング領域とは

ステージング領域は、複数のソースシステムから供給される運用データのクレンジングと統合を簡単にします。これは特に、企業のすべての関連情報が統合されているエンタープライズ・データウェアハウスに有効です。

Autonomous Data Warehouseとは

Oracle Autonomous Data Warehouseは、数十年の歳月をかけて培われたデータベースの自動化およびデータベース・インフラストラクチャの自動化と新しいテクノロジーをクラウドに集約することで、完全な自律型データベースを実現しています。このデータウェアハウスは、自己稼働、自己保護、自己修復を特徴とします。これは以下を意味します。

  • 自己稼働:自律型データベースは、データベースとインフラストラクチャのすべての管理、監視、チューニングを自動化します。これにより、何でもこなせる万能な管理者のコストが削減されます。ただし、管理者が不要というわけではなく、アプリケーションをデータウェアハウスに接続する方法や、開発者がコードを記述せずにデータベース内の機能や関数を使用する方法などを管理するために管理者は依然として必要です。
  • 自己保護:自律型データベースは、外部からの攻撃と悪意のある内部ユーザーの両方から企業を守ります。つまり、パッチを適用していないデータベースや暗号化されていないデータベースへのサイバー攻撃を懸念する必要がなくなります。
  • 自己修復:自律型データベースは、計画外メンテナンスを含むすべての停止時間を防ぎます。パッチの適用などによる1か月の停止時間は2分半未満です。

自律型データベースには以下の4つの重要な目標があります。

  1. データベースの稼働時間とパフォーマンスを最大限に高める
  2. パッチや修正プログラムなどを適用してデータベースのセキュリティを最大限に高める
  3. 自動化により、ミスの発生しやすい手作業の管理タスクを排除する
  4. DBAの専門知識をより高次元の業務に活かせるようにする

データウェアハウスとOLTPシステムの違い

データウェアハウスとオンライン・トランザクション処理(OLTP)システムは明確に異なります。データウェアハウスは、分析ワークロードとトランザクション・ワークロードを分離します。したがって、データウェアハウスは読み取りを極めて重視したシステムです。読み取られるデータ量の多さは、書き込みや更新の量とは比べ物になりません。

そのため、分析パフォーマンスを大幅に向上させ、トランザクション・システムへの影響を回避できます。多くのソースからのデータを統合するようデータウェアハウス・システムを最適化することで、データウェアハウスを組織の「信頼できる唯一の情報源」にするという重要な目標を達成できます。

すべてのユーザーが参照できる一貫性のあるデータソースを持つことには、大きな価値があります。そのようなデータソースがあれば、多くの論争が回避され、意思決定の効率が高まります。

データ・ディスカバリ・ラボとは

データ・ディスカバリ・ラボは、アナリストやデータ・サイエンティストがデータに潜む価値を見出すことができるよう構築された独立した環境です。データラボは、答えを出すべき適切な質問を見つけ出し、その回答を自社のビジネスに活かすために役立ちます。「サンドボックス」と呼ばれることもあります。

ラボは最終結果ではありません。むしろ、生産的な利用につながる新しいインサイトを生み出す手段です。そのインサイトをどうすれば価値あるものに変えられるかを事前に把握しておくことは重要です。データラボ・プロジェクトに初めて着手する際、その価値を速やかに可視化できれば、このプロジェクトに対する組織の支持が得られ、それがいつまでも持続します。

サンドボックスとは

「データ・ディスカバリ・ラボ」を参照してください。

ビッグデータとは

簡単に言うと、ビッグデータとは、大規模で複雑化した、特に新しいデータソースに由来するデータセットのことです。このデータセットはあまりにも量が多いため、従来のデータ処理ソフトウェアでは管理しきれません。しかし、このような膨大な量のデータを利用すれば、これまで歯が立たなかったビジネス上の問題にも対処できます。

データレイクとは

データレイクは、企業の構造化データと非構造化データを保管する場所であり、さまざまなソースに由来する極めて多様な大量のデータを整理する方法でもあります。詳細については、こちらのビデオをご覧ください。

特にビジネスやテクノロジーの領域で広範なデータの探索や発掘を望む声が高まる中、データレイクの重要性は増しています。このようなニーズに応えるには、データのすべてまたは大部分を1か所にまとめるのが得策です。

データレイクとデータウェアハウスの主な違いは、データレイクは一般にデータを非常に迅速に取り込み、ユーザーがアクセスしたときにその場でデータを準備する点にあります。それに対して、データウェアハウスでは、事前にデータを慎重に準備してからデータを取り込みます。

人工知能とは

学問分野としての人工知能は1956年に誕生しました。当時の目標は、人間だけができると見なされているタスク、つまり知能が必要なタスクをコンピュータで実行できるようにすることであり、この目標は今も変わりません。当初の研究者が取り組んだ問題は、チェッカーをする、論理的問題を解決するといったものでした。

その後、人工知能はコンピュータの出力を指すようになりました。コンピュータは何か知的なことをしており、それは人工の知性を見せていると言えます。

機械学習とは

機械学習とは、人工知能(AI)の一分野であり、データを消費しながら学習する(またはパフォーマンスを改善する)システムを構築することに主眼を置いています。

人工知能は、人間の知能を模倣したシステムや機械を指す、広い意味の言葉です。機械学習とAIは一緒に語られることが多く、両者が同じ意味で使われることもありますが、厳密にはその意味は異なります。重要な違いは、機械学習はすべてAIですが、AIは必ずしも機械学習ではないということです。

今日、機械学習は私たちの周りのあらゆる所で使用されています。銀行を利用する際にも、オンライン・ショッピングをする際にも、またソーシャル・メディアを使用する際にも、そのやりとりを効率化し、スムーズで安全なものにするために、機械学習のアルゴリズムが使用されています。機械学習とそれを取り巻くテクノロジーは急速に発達していますが、私たちはまだその機能の上っ面をなでているにすぎません。

ディープラーニングとは

簡単に言うと、ディープラーニングとは、より多くのニューロン、層、相互接続性を備えたニューラル・ネットワークを使用して学習することです。人間の脳の複雑性をすべて模倣するにはまだ長い時間がかかりますが、私たちは着実にその方向へと進んでいます。自律走行車から、囲碁をするスーパーコンピュータや音声認識に至るまで、コンピューティングの進化を目にするとき、その裏側にはディープラーニングがあります。

誰もが何らかの形の人工知能を体験しています。そしてそのAIは、背後で何らかの形のディープラーニングを使って学習しています。

サブジェクトエリアとは

サブジェクトエリアは、データウェアハウスのデータモデル全体を横切る、単一トピックを中心としたスライスです。データマート、すなわち部門のマートは、通常は財務、営業、人事などの単一のサブジェクトエリアを分析するために使用されます。データベース内では、特定の(論理的)概念、ビジネスプロセス、またはビジネス上の問題をカバーするすべてのテーブルが1つのサブジェクトエリアにまとめられます。データウェアハウスとエンタープライズ・データウェアハウスは、一般に複数のサブジェクトエリアを保持しており、ビジネスをあらゆる角度から把握できる360度のビューをもたらします。

スキーマとは

スキーマとは、テーブル、ビュー、索引、シノニムなどのデータベース・オブジェクトを集めたものです。スキーマオブジェクトは、さまざまな方法でデータウェアハウス向けに設計されたスキーマモデルに配置できます。

データウェアハウスのスキーマは、ソースデータのモデルとユーザーの要件を基に設計できます。場合によっては、企業のエンタープライズ・データモデルからソースモデルを取得し、そのモデルからデータウェアハウスの論理データモデルをリバース・エンジニアリングすることもできます。論理データウェアハウス・モデルを物理的に実装する際、そのモデルをコンピュータのサイズ、ユーザー数、ストレージ容量、ネットワークタイプ、ソフトウェアなどのシステムパラメータに適応させるために変更を加えなければならない場合があります。

スタースキーマとは

スタースキーマは、論理または物理データマートが組み込まれたデータウェアハウス・システムでよく見られます。スタースキーマという用語は、データモデルを定義する「ディメンション・モデリング」法の別名です。ほとんどのディメンション・モデリングの説明では、この分野の先駆的なコンサルタント兼ライターであるRalph Kimball氏の文献から引用した用語が使用されています。ディメンション・モデリングでは、売上追跡や出荷などの個々のビジネスプロセスに基づいて、複数のスタースキーマを作成します。

各スタースキーマは1つのデータマートと見なすことができ、20個程度のデータマートで企業全体のビジネス・インテリジェンスのニーズに応えることができます。

スノーフレーク・スキーマとは

スノーフレーク・スキーマは、スタースキーマよりも複雑なデータウェアハウス・モデルであり、スタースキーマの一種です。スキーマのダイアグラムがスノーフレーク(雪片)に似ていることから、スノーフレーク・スキーマと呼ばれます。スノーフレーク・スキーマでは、ディメンションを正規化して冗長性を排除します。つまり、ディメンションデータは大きな1つのテーブルに格納されておらず、複数のテーブルに分類されています。

ディメンション・テーブルとは

ディメンション・テーブルは、ファクトデータにコンテキストを与えるカテゴリデータを提供します。たとえば、売上データのスタースキーマは、製品、日付、販売場所、プロモーションなどのディメンション・テーブルを持ちます。ユーザーはディメンション・テーブルの情報を基にクエリの条件とする値を選択できるため、ディメンション・テーブルはルックアップテーブルまたは参照テーブルとして機能します。

多くのディメンション・テーブルでは、値の更新頻度は高くありません。一例として、都市を表す地理のディメンションはほとんど更新されません。ただし、ディメンションの値を変更するときは、早急かつ確実に変更することが不可欠です。もちろん、データウェアハウスのディメンションの値が頻繁に変更される場合もあります。企業の顧客ディメンションは、当然ながら更新と削除が頻繁に繰り返されます。

ファクトテーブルとは

ファクトテーブルは実測値を保持します。多数の行を保持しますが、列は通常それほど多くありません。大企業では、ファクトテーブルの行数が数十億行を超えるのも珍しくありません。多くのスタースキーマでは、ファクトテーブルが占める割合は全ストレージ領域の90%を優に超えます。ファクトテーブルは、スキーマのディメンション・テーブルの主キーで構成されるコンポジットキーを持ちます。

ファクトテーブルには、詳細レベルのファクトまたは集計されたファクトのどちらかが含まれます。集計ファクトを含むファクトテーブルは、一般に「サマリーテーブル」と呼ばれます。通常、1つのファクトテーブルには同じ集計レベルのファクトが含まれます。ほとんどのファクトは加算的ですが、準加算的なものや非加算的なものもあります。加算ファクトは単純な加算で集計できます。その一般的な例は売上です。非加算ファクトはまったく加算できません。

Test Drive New Data Warehouse Features In Database 19c