データレイクハウスは、データレイクとデータウェアハウスを組み合わせて構築された最新のデータプラットフォームとして定義できます。具体的には、データ・レイクハウスは、データ・レイクから非構造化データの柔軟なストレージと、データ・ウェアハウスの管理機能とツールを取得し、それらを戦略的に大規模システムとして実装します。この2つの独自のツールの統合により、両方の長所をユーザーに提供できます。データ・レイクハウスをさらに細分化するには、まず2つの元の用語の定義を完全に理解することが重要です。
データ・レイクハウスについては、現在のデータ・リポジトリ・プラットフォームの併用について言及しています。
では、データレイクハウスは、この2つのアイデアをどのように組み合わせているのでしょうか。一般に、データレイクハウスは、データレイクとデータウェアハウスの間のサイロな壁を取り除きます。つまり、データ・レイクの低コストで柔軟なストレージ間でデータをデータ・ウェアハウスに簡単に移行でき、データ・クレンジングのために機械学習と人工知能を利用したスキーマとガバナンスを実装するためのデータ・ウェアハウスの管理ツールに簡単にアクセスできます。その結果、データ・レイクの構造化されていない手頃なコレクションとデータ・ウェアハウスの堅牢な準備を統合するデータ・リポジトリが作成されます。データ・レイクハウスは、キュレーションされたデータ・ソースから収集する領域を提供し、ビジネス用にデータを準備するツールや機能を使用することで、プロセスを加速します。ある意味、データ・レイクハウスは、1980年代初頭に概念的に作成されたデータ・ウェアハウスであり、最新のデータドリブンな世界に向けてリブートされています。
データ・レイクハウスの一般的な概念を理解した上で、関連する特定の要素について少し詳しく説明します。データレイクハウスは、履歴データレイクとデータウェアハウスの概念に精通している多くの要素を提供していますが、これらを現在のデジタル世界に対してより新しく効果的なものにマージする方法があります。
データ・ウェアハウスは、通常、データ・クレンジング、ETL、スキーマの適用などのデータ管理機能を提供します。これらは、データを迅速に準備する手段としてデータレイクハウスに取り込まれ、キュレーションされたソースからのデータを自然に連携させ、さらなる分析とビジネス・インテリジェンス(BI)ツールに備えることができます。
オープンで標準化されたストレージ・フォーマットを使用することで、キュレートされたデータ・ソースからのデータが連携して機能し、分析やレポート作成の準備を整えることが、大きな始まりになります。
コンピュートとストレージ・リソースを分離する機能により、必要に応じてストレージを簡単にスケーリングできます。
多くのデータ・ソースは、デバイスから直接リアルタイム・ストリーミングを使用します。データ・レイクハウスは、標準のデータ・ウェアハウスと比較して、このタイプのリアルタイムの取込みをより適切にサポートするように構築されています。世界がInternet of Thingsデバイスと一体化すると、リアルタイムのサポートはますます重要になっています。
データ・レイクハウスはデータ・ウェアハウスとデータ・レイクの両方の機能を統合するため、多数の異なるワークロードに最適なソリューションです。ビジネス・レポートからデータ・サイエンス・チーム、分析ツールまで、データ・レイクハウスの固有の資質は、組織内の様々なワークロードをサポートできます。
データレイクハウスを構築することで、組織は統合データ・プラットフォームを使用してデータ管理プロセス全体を合理化できます。データ・レイクハウスは、複数のリポジトリ間のサイロ・ウォールを分解することで、個々のソリューションのかわりに使用できます。この統合によって、キュレーションされたデータ・ソースよりもはるかに効率的なエンドツーエンド・プロセスが作成されます。これにより、いくつかの利点が生じます。
データレイクハウスを構築する組織もあれば、データレイクハウス・クラウド・サービスを購入する組織もあります。
Experianは、重要なデータ・ワークロードを他のクラウドからOCI上のデータレイクハウスに移行して、パフォーマンスを40%向上し、コストを60%削減しました。この結果、データ処理と製品イノベーションを加速しただけでなく、信用機会を世界中に拡大できました。
Generali Groupは、世界最大の顧客基盤を持つイタリアの保険会社です。Generaliには、Oracle Cloud HCMやその他のローカル・ソースと地域ソースの両方から多数のデータ・ソースがありました。人事の意思決定プロセスと従業員のエンゲージメントが障害となっており、同社は効率を向上させるソリューションを求めていました。Oracle Autonomous Data WarehouseをGeneraliのデータ・ソースと統合し、サイロを排除して、すべてのHR分析のための単一のリソースを作成しました。これにより、HRスタッフの効率が向上し、生産性が向上し、レポート生成が減少するのではなく、付加価値のある活動に集中できるようになりました。
世界をリードするライドシェア・プロバイダの1つであるLyftは、30のサイロ化された財務システムに対処していました。この分離により、会社の成長が妨げられ、プロセスが減速しました。Lyftは、Oracle Cloud ERPとOracle Cloud EPMをOracle Autonomous Data Warehouseと統合することで、財務、運用、分析を1つのシステムに統合できました。これによって決算にかかる時間が50%短縮され、さらなるプロセスが合理化される可能性があります。また、アイドル時間を短縮することでコストを削減できます。
Agroscoutは、農業従事者が健康で安全な作物を最大限に活用できるようにするソフトウェア開発者です。アグロスカウトは、食料生産を増やすために、虫や病気の作物を調査するためにドローンネットワークを使った。組織には、データを統合して処理し、作物の危険の兆候を特定するための効率的な方法が必要でした。ドローンが作物を直接アップロードしたOracle Object Storage Data Lakeを使用します。機械学習モデルは、イメージを処理するためにOCI Data Scienceで構築されました。その結果、食品生産量を増加させるための迅速な対応を可能にする、大幅に改善されたプロセスでした。
1日に渡るたびに、ますます多くのデータ・ソースが世界中に大量のデータを送信しています。構造化データと非構造化データのこの組合せは、どの組織にとっても課題です。データ・レイクハウスは、さまざまな出力を管理可能な単一のシステムにリンク、関連付け、分析します。