What Is Data Integration?

Data integration, data blending, and data joining all start at the same step: combining multiple sources of data. These techniques differ in the level of standardization in definitions and nomenclature and where in the process transformations occur. Considerations include the alignment of the extracted data with internal standards, the need for transformation, and the regularity of duplicates or other issues requiring data cleaning.

What factors should I consider when selecting data sources for integration?

When planning for data integration, the two most important factors are: First, knowing what resources you have and will have at your disposal, and second, knowing what your business goals are. These guide the identification of beneficial data sources and assess the feasibility of accessing them.

What are some best practices for integrating data from multiple sources?

Some broad-stroke best practices for data integration include understanding the state of your data sources regarding quality, planning with your business goals in mind, knowing your IT resources and budgets, prioritizing departments that can benefit most from data integration, and considering long-term expansion and scalability.

What are some examples of use cases for multi-source data integration?

Real-world use cases include a smartphone application transmitting usage data to a cloud, cross-referenced with email marketing and sales data to uncover deeper insights. Another example is a medical IoT device transmitting records to a patient account accessible to a doctor along with patient records for monitoring.

Why do we need to integrate multiple sources of data?

As the volume and variety of data sources increase, consolidating data sets has evolved from a 'nice to have' to a necessity in business. Data integration is crucial for most operations today, with the execution of an appropriate strategy being key to success.

What is combining data from several sources known as?

The process of combining data sources with systemic data preparation steps is known as data integration. Without these transformation/cleaning steps, requiring them after the fact, it is known as data joining or data blending.

国/地域

マルチデータソースからデータを統合する方法

Mike Chen | コンテンツ・ストラテジスト | 2024年1月4日

この記事の内容

データ統合とは
複数のソースからのデータ統合について
複数データソースからのデータの統合の重要性
統合前のチェックリスト
複数のソースからデータを統合する5つのステップ
Oracle Analyticsで複数のソースからのデータ統合を簡易化
複数のソースのデータ統合に関するFAQ

データソースは、Internet of Things（IoT）デバイス、ERPシステム内のアプリのユーザー基盤、CRMソフトウェアでのカスタマーサービスのサービスリクエスト内など、デジタル・ビジネス界の至るところにあります。多量のデータが常に流れ込む中で、組織はどのようにして必要な情報を引き出すのでしょうか。分析プラットフォームなどのツールでインサイトを導くこともできますが、データセットが統合され、接続が可能な場合に限られます。そうでない場合は、ユーザーは手作業でスプレッドシートを取得することになり、時間と労力がかかる一方で、古い情報、データの破損や重複などデータ品質の課題により本来導かれる結果から外れる可能性があります。

技術的な進歩により、データを組み合わせて格納し、ビジネス・ユーザーがアクセスできるようにするプロセスが簡素化されました。第一段階は、複数のソースからデータを統合することです。これは、データドリブンの組織を実現する鍵であり、セルフサービスなデータ分析やBI（ビジネス・インテリジェンス）を含むさまざまな可能性を開くものです。ユーザーが自分自身で問合せを作成できるようにすることで、驚くべきインサイトにつながる可能性があります。

ただし、この段階に進むには、データ統合戦略と、複数のソース間のリンクを効果的にサポートできるインフラストラクチャ、そしてデータレイクまたはデータウェアハウスが必要です。

データ統合とは

データ統合、データ・ブレンド、データ結合はすべて、マルチデータソースを組み合わせるというステップから始まります。具体的な方法は、定義および命名体系の標準化レベルと、プロセスの変換が行われる場所に応じてそれぞれ決まります。どの方法を用いるかを決定する際は、抽出したデータセットが内部基準に近いか、どの程度多くの変換が必要か、そのソースでデータ・クリーニングを必要とする重複やその他の問題が定期的に生じるか、といった点を検討します。

データソースの品質を把握することで、組織はデータの目標に近づくことができます。

データ統合、データ結合、データ・ブレンドの違い

データ統合、データ結合、データ・ブレンドは、最新のIT専門用語でよく使用される3つの用語です。これらの用語は違いが微妙であるため、混同されがちです。共通する要素もあります。たとえば、データ変換は、リポジトリへの読み込み前に行われるか読み込み後に行われるかに関わらず、プロセスの中で最も煩雑で労力を要するステップであることが多いため、自動化できる部分は自動化するべきだということです。

ここで基本的な定義および相互の相違点を説明します。

データ統合: 多くの場合、確立されたプロセスを用いた複数のデータソースの体系的、包括的な統合により、データのクリーニングや絞込みを行い、標準化されたフォーマットにします。このクレンジングが完了すると、データはデータレイクやデータウェアハウスなどのリポジトリに読み込まれます。変換と統合は、多くの場合、データ・キュレーター、データ・サイエンティスト、またはその他のITスタッフによって処理されます。
データ・ブレンド: 分析のために複数のデータセットを1つのデータセットにまとめるプロセスです。ただし、データ統合とは異なり、データ・ブレンドでは、多くの場合、複数のソースからネイティブ・データ（変換やクレンジングが行われていないデータ）を組み合わせます。たとえば、人材採用傾向に関して、人事チームが今四半期の社内採用指標と、政府から提供されるオープンソース・データセットを組み合わせる場合は、データ・ブレンドを用います。データ統合とは異なり、この例では、ブレンド後にデータのクリーニングを行い、標準化する必要があります。
データ結合: データ結合では、データ・ブレンドと同様に、複数のデータセットを組み合わせます。データ・ブレンドとの最大の違いは、データ結合では、データセットのソースが同じであるか、少なくとも列と定義との間に重複が必要だという点です。ここで再び前述の人事の例を出すと、人事担当者が政府から提供される国内採用指標を今四半期から取得し、比較のために4年前からの四半期データもダウンロードする場合は、データ結合が行われます。これらのデータセットは同じシステムから取得され、同じフォーマットを使用しますが、特定のデータ範囲に基づいて結合する必要があります。その後、この結合データを社内の人事データセットにさらにブレンドすることができ、クリーニングと標準化が必要になります。

主な違い

以下の表は、データ統合、データ・ブレンド、データ結合の違いを示します。

	データ統合	データ・ブレンド	データ結合
複数のソースの組み合わせ	対応	対応	対応
通常の処理を行うのはIT部門かユーザーか	IT	ユーザー	ユーザー
出力前のデータ・クリーニング	対応	非対応	非対応
出力後のデータ・クレンジング	非対応	対応	対応
同一のソースの使用が推奨されるか	非対応	非対応	対応
ELT (抽出/ロード/変換)か、ETL(抽出/変換/ロード)か	ETL(抽出/変換/ロード)	ETL(抽出/変換/ロード)	ETL(抽出/変換/ロード)

主なポイント

自分自身の目標を念頭に置いてデータソースを確認しましょう。ビッグデータの世界では、常にソースの品質を管理できるとは限りませんが、統合を容易にするために実行できるステップがあります。
できるだけ多くのプロセスを自動化しましょう。高い頻度でソースからデータが取り出される場合、ツールやスクリプトが組織の統合の取り組みに大きなメリットをもたらします。
組織に最適なデータ統合方法を決定するには、関連するすべての変数（ソース、ハードウェア、ボリューム）をマッピングします。
ワークフローと基準を継続的に改善しましょう。データ統合を成功させるには、継続的なプロセス改善が必要です。

複数のソースからのデータ統合について

ツールが進化し、データソースが拡大され、機能が強化されます。これにより、データ統合ワークフローの改善、より堅牢かつ効率的なプロセスの導入につながる機会が一貫して生まれます。

どの組織にも固有のニーズがありますが、データ統合は通常、標準的なプロセスにのっとって行われます。

エンド・ユーザーのリクエストまたは組織による決定から、複合的なデータの必要性が特定されます。これには、多くの場合、日付範囲などのパラメータや、その他の制限要因が含まれます。
関連するソースと、そのソースから必要とされる特定のデータが識別されます。
データはネイティブ・フォーマットでソースから抽出され、データセットに組み合わされます。

この段階で、組み合わせたデータセットを依頼者が手作業でクレンジングや分析を行えるようにしたり、データ・サイエンティストまたはデータ・キュレーターがデータを正規化してからビジネスに提供したりすることができます。どのような方法をとるにしても、データセットには通常、列間で一貫性のある命名体系、重複データの削除、不正確または誤ったデータの修正、不完全なレコードの修正、その他のタスクを確実に行うための追加プロセスが必要です。

このようなタスクが完了すると、インサイトやビジュアライゼーションを得るために、データを分析アプリケーションやビジネス・インテリジェンス・システムに読み込んだり、単にエンド・ユーザーがExcelに読み込んで分析、操作したりする準備が整います。

IT部門の目標は、このプロセスの効率を最大化することです。効率化をはかるため、手作業を最小限に抑え、自動化された変換の構築を計画する必要があります。組織が変換作業の自動化を実現するには、多くの変数を確認する必要があります。たとえば、データソースの出所はどこか、そのソースは検証済か、どの分野が優先されるか、確立されたデータ・ルールがあるか、どのようなワークフローが実施されるかなどです。

複数のデータソースを使用することで、ユーザーがデータをより速く取り込むセルフサービス環境を実現できるため、データ・クレンジング・プロセスをできる限り自動化することが最も重要な部分にもなります。

複数のデータソースからのデータ統合の重要性

データ統合プロセスの構築に多大な労力がかかるように思えるなら、事実そのとおりです。ソースの確認から、データ・クリーニング・ワークフローの作成や改良まで、スムーズなデータ統合プロセスには注意と計画が必要です。しかし、その価値はすぐに明らかになります。

ビジネスでは、時間は常にお金と同じ価値があります。しかし、このシンプルな公式の重要性が、世界中のサプライヤーや顧客からリアルタイムの情報が流入するビッグデータの時代においては飛躍的に高まっています。状況は急速に変化するため、ビジネスの浮き沈みは予測できないことがよくあります。データがサイロ化されている場合、新しい情報の分析やイノベーションの機会の追求を目指す事業部門は、数歩遅れとっているように感じることがよくあります。そう感じるのは、事実そのとおりだからです。データ抽出や分析レポートで事業部門が他のチームに依存する必要がある場合、進捗は遅くなります。

結局のところ、情報は流れてはじめて価値があるのです。

複数のソースからデータを統合することで、多くの手作業によるハードルを取り除くことができます。さらに、幅広いデータソースへの機会が開かれ、隠れたインサイトを発見し、真にデータに基づく意思決定を行うことができるようになります。これにより、従業員の能力と効率性が向上し、組織のイノベーションと機会が促進されます。最終的に、複数のデータソースを統合することで、組織は新しいアイデアやソリューションを見つけ、迅速に方向転換を図り、競争に打ち勝つことができます。

データ統合の利点と課題

データ統合を成功させることで、データの可能性が広がり、組織は現在も将来においても競合他社に対して優位性をもつことができるでしょう。ただし、それを実現するには、組織的な観点からの技術的な構成と理解の両方が必要になります。これらの課題に対処することで、組織は業務、営業、財務、製造、その他ほぼすべての部門における意思決定の方法を変えらることができます。

ここでは、いくつかの利点と、データ統合を成功させるために克服すべき課題を取り上げます。

メリット

データの統一化 データを1つのリポジトリにまとめることで、データ取得プロセス全体が簡素化され、迅速化されます。異なるグループが異なるデータソースを扱う代わりに、単一の統合的なビューにより、データの調達と処理に必要なリソースが削減されると同時に、組織的な連携が強化されます。
コラボレーションの向上 従来のデータ管理方法では、さまざまなグループが時代遅れのバージョンや若干異なるバージョンのデータセットで作業している可能性があります。異なる定義や命名体系を使用すると、混乱を招いたり、誤った結論につながる可能性があります。データを統一することで、すべてのグループが同じ情報を扱うことができます。
運用の効率化 データ共有の要求および準備が手作業でのみ行われると、作業が遅くなります。業務チームは、プロセスの合理化、データの一元化、より少ないマニュアル手順というメリットを享受できます。
時間の短縮 複数のソースを統合することで、業務が合理化されるだけでなく、グループ間での手作業のデータ転送に伴う実務的なステップが減ります。営業やマーケティングなどの隣接するグループのデータのニーズが重複している場合や、ワークフローのダウンストリーム関係者がデータセットをリクエストする必要がある場合には、遅延が生じることがあります。
手作業によるエラーの削減 プロセスから手作業のステップが取り除かれると、効率が高まるだけでなく、全体的なリスクも軽減します。手作業のステップが少ないほど、間違ったデータセットの送信や、コピー・貼付け時のレコードの欠落といったエラーの可能性も低くなります。
予測分析の向上 分析プラットフォームで使用可能なデータソースが多いほど、結果が得られます。データソースの統合により、分析の可能性が広がり、創造性とイノベーションが促進されます。これにより、ビジネス・アナリティクスを管理できるユーザーが増えるという短期的なメリットと、データドリブンの文化を構築するという長期的なメリットが生まれます。

課題

データの互換性 データのソースが異なる場合は、ほぼ間違いなく、使用される定義と命名体系が異なります。それをきれいにするプロセスはデータ変換と呼ばれ、体系的なプロセスが導入されていなければ、元のソースの状態によっては複雑で扱いにくいものになる可能性があります。
データ・サイロ 営業、マーケティング、財務、人事などの部門は、チーム内のニーズに合わせてデータを追跡します。このようにデータがサイロ化されている場合、部門ごとに手作業でアクセスを要求する必要があり、アクセスが許可されたとしても、命名体系や定義が異なる可能性があるため、さらに互換性へのハードルが生じます。
データ品質 高品質なデータによって、正確でデータドリブンなインサイトを得る文化が生まれます。それを実現するには、組織はデータ品質を確保するための基準とプロセスを確立する必要があります。正確性、完全性、更新頻度（定期的なリフレッシュを用いる場合）をすべて検討する必要があります。部門間の意思決定を改善するには、ITインフラストラクチャ、グループ・ワークフロー、個々の同意を組み合わせて基準を満たす必要があります。
レガシー・システム。 データは、レガシー・ツールを含む幅広いシステムによって生成されます。それらのソースを統合リポジトリに正しく統合するには、レガシー・システムの出力状態を評価したうえで、互換性を確保する方法を理解する必要があります。この手順を省略してはなりません。このような古いシステムには、組織固有の情報が多く含まれているからです。
最適化されていないデータ データ最適化とは、分析操作の効率性とコスト効率をできる限り高めるプロセスを指します。最適化されていないデータはソースからそのままの状態で届くため、使用前に適切な値およびレコードに伝播する必要があります。OLAPツールは、このプロセスを自動化できます。

統合前のチェックリスト

データ統合を成功させるには、技術サポート、ビジネス・ゴール、企業文化など、多くの分野での基盤が必要です。以下は、データ統合の取り組みを始める前にチェックすべき最も重要な3つの点です。

1.関係者の同意を得る

データ統合戦略を成功させるには、それをサポートするテクノロジー、ソースデータとデータ取り込みを管理するチーム、統合データをダウンロードして効果的に使用するビジネス・ユーザー、その取り組みの予算を承認するエグゼクティブ・リーダーが必要です。それぞれの関係者が重要です。組織全体の同意がなければ、戦略は頓挫したり、時には自然に消滅したりすることになります。

2.プロジェクトとビジネス・ゴールを連携させる

組織は、データ統合プロジェクトの「目的」を確認する必要があります。その目的は、プロセスの迅速化、データ分析の強化、データドリブンのインサイトの獲得、データの正確性の向上、あるいはそれらの組合せでしょうか。また、1つの部門に固有のものでしょうか、それともより広範な取り組みでしょうか。

組織は、特定の目標とパラメータを指定することで、データ目標を達成するためのより集中的かつ効果的なアプローチを確立できます。

3.既存のデータ・プロセスを分析する

データ統合プロジェクトを開始する前に、既存のシステムや、現在扱っているデータについて理解することが重要です。ベストケース・シナリオでは、データを簡単にエクスポートでき、フォーマットや基準に関する部門間の合意や調整がすでに行われています。目標、プロセス、ネイティブのデータ・フォーマットが部門間で大きく異なる場合はどうなるでしょうか。ここで登場するのが、エグゼクティブ・スポンサーの存在です。

複数のソースからのデータを5つのステップで統合する方法

複数のソースからデータを統合する作業には、いくつかのステップが含まれます。ただし、プロセス全体を通して、データ・セキュリティやプライバシーに関する適切な規制とともに、データの品質と整合性を念頭に置くことが重要です。さらに、データの統合後は、時間が経ってもデータの品質と整合性が確保されるように、定期的なモニタリングとメンテナンスを実施します。

1.統合するデータソースを特定する

データソースは、さまざまなフォーマットで多くの場所に存在しています。すべての組織は、次のような一意のデータソースの組合せを得られます。

リレーショナル・データベース: データ統合プロセスは、標準的な表形式の行・列の設定を持つリレーショナル・データベースに直接接続できます。
フラット・ファイル: 大半のデータベースは、データセットをフラット・ファイルでエクスポートします。フラット・ファイルは、他の表への参照を必要とせず、単体コンテキストを提供する2次元表のフォーマットになります。一般的なエクスポート・フォーマットにはCSVや区切り記号付きが含まれ、通常は必要に応じて簡単に変換できます。
XMLおよびJSON: XMLおよびJSONは、特にWebやWebベースのアプリケーション向けの最新のデータ伝送の一般的な規格です。技術的に説明すると、JSONはデータ・フォーマットである一方、XMLは言語です。このような違いから、JSONでデータをより迅速に解析しながら、どのようにXMLを構造化するかなど、固有の検討事項が生じます。データ統合のために知っておくべき最も重要なことは、WebサイトまたはWebベースのアプリケーションからデータを取得している場合、両方に遭遇する可能性が高いということです。
API: アプリケーション・プログラミング・インタフェース（API）は、異なるシステムを接続し、複数のソースからデータを取得します。APIは、リアルタイムのデータ統合を可能にし、特殊な統合要件に合わせてカスタマイズできます。
クラウドベースのデータソース: 一部のデータセットは公開されており、クラウド経由で更新されます。そのようなメトリックは政府機関、教育機関、研究機関を出所とすることが多く、研究者がさらに下流で調査を行うためにデータが提供されます。
Internet of Things（IoT）デバイス: IoTデバイスは常に情報を収集しており、データポイントは1日に数千に達することもあります。IoTデバイスの例としては、患者データを継続的に送信する医療機器、自宅のスマート家電、工場やスマートシティを制御する産業用IoT（IioT）デバイスなどがあります。IoTデバイスからのデータは、他のシステムで使用するためにクラウドにアップロードされることがよくあります。

フォーマットやその他の変数に関係なく、最も重要なことは、ビジネス・ゴールに寄与するデータソースを特定して選択し、それらを統合する最善の方法を検討することです。

2.統合のためにデータを準備する

データソースを特定したら、そのデータセットのフォーマットと定義を確認します。主に2つの準備ステップがあります。

データ・クリーニング: データセットには、不完全なレコードや重複レコード、破損セクション、その他の問題が含まれる場合があります。データ・クリーニングは、データセットを修正して、作業可能なレコードの完全なセットを取得するプロセスです。
標準化: データ・クリーニングでは問題のあるレコードは削除されますが、標準化の問題は解決されません。データを統合する際は、標準ルール（日付書式設定、分類、メタデータ・フィールドなど）が定義され、適用されている場合に、プロセスが最もスムーズになり、最も良い結果が得られます。統合を進める前に、レコードをできる限り標準に準拠した状態にしておきます。これにより、ダウンストリーム作業を最小限に抑えながら、適時性と正確性を高めることができます。
変換手法: データ変換にはさまざまな手法およびプラクティスを利用できます。これには、アルゴリズムによりデータセット内のノイズを低減するデータ平滑化、作業可能な範囲内にデータをスケーリングするデータ正規化、フィールド間の階層を確立するデータ一般化、作業可能なフォーマットを作成するためのパターンを特定するデータ操作が含まれます。

最適な方法は、個々のデータセットの状態と組織の目標によって異なります。しかし、すべてに共通するのは、プロセスが自動化されている場合は、クリーニングと標準化が最もうまく行くということです。データ準備を支援するツールを使用することで、プロセス全体のハンズオフ処理が可能になります。ITスタッフは、供給されるすべてのデータセットに手作業で対応するのではなく、フラグが付いたイベントへの対応に集中できるようになります。ローコード・ツールとコード不要のツールにより変換が簡素化される一方、カスタム・スクリプトとコーディングによりプロセスの柔軟性が向上します。

3.データ統合方法を選択する

統合方法は、データのIT構造全体を定義するうえで大きな役割を果たします。このため、継続的な統合によりシステムを構築するか、一定間隔で定期的なリフレッシュを設定するかなど、選択した方法に合わせてリソースとビジネス・ゴールを調整することが重要です。最も一般的なデータ統合方法には、以下のような方法があります。

手作業: 手作業によるデータ統合は、すべてのデータ・フィールドを物理的にクリックすることを指すわけではありません。ただし、プロセスの各ステップを処理するためにコードを記述する必要があります。ソースの品質や組織のリソースの現実を踏まえると、煩雑で時間がかかっても、手作業による統合が最も実行可能な選択肢となる状況もあります。
抽出、変換、ロード（ETL）: ETLプロセスは、リポジトリへの読み込み前にデータ変換を処理します。ETLは、体系的な変換基準が導入されていて、データレイクまたはデータウェアハウスにデータセットを取り込む前に処理できる場合に最も効果的です。
抽出、ロード、変換（ELT）: ELTプロセスは、リポジトリへの読み込み後にデータ変換を処理します。そのため、ELTを使用するデータセットは、多くの場合、ネイティブ・フォーマットであり、標準化されていません。ELTは、ユーザーが新しいソースを見つけた場合など、システム変換が利用できないときに使用されます。
チェンジ・データ・キャプチャ（CDC）: CDCは、データセットを最新の状態に保ちながらリソースの使用を減らすプロセスです。CDCは、データセット全体を定期的にリフレッシュするのではなく、レコードの変更を取り込んで、ほぼリアルタイムで更新します。更新は個別に、かつ小規模で迅速に行われるため、CDCがデータベースの稼働時間に影響することや、リソース使用率の急増を招くことはありません。
データ・レプリケーション: データ・レプリケーションでは、元のバージョンのデータをそのソースに保持し、グループで使用するコピー（レプリカ）を作成します。このコピーは、操作に使用される一部の列や他のサブセットなど、レコードのごく一部にすぎません。長期的に保持する必要のあるバージョンが多すぎると、レプリケーションによってリソースが不足する可能性があります。
データ仮想化: データ仮想化では、すべてのデータセットは元のデータベースに残ります。変換および操作は、実際には新しいファイルに取り込まず、個々のレコードを参照するフェデレーションを利用して仮想レイヤーで実行されます。
ストリーム・データ統合（SDI）: SDIは、ELT処理のリアルタイム・バージョンとして機能します。データ・ストリームがソースから送信され、リアルタイムで変換された後、リポジトリに送信されます。これには2つの大きな利点があります。1つ目は、継続的にレコードを更新することで、データセットが常に最新の状態に保たれるということです。2つ目は、これにより、データセットを大規模にリフレッシュする必要がなくなり、リソース使用率が安定することです。一方、SDIでは、プロセスを機能的にサポートし、データの取得時に認定を行うためのインフラストラクチャの問題も生じます。

4.統合計画を実装する

適切に開発されたデータ統合計画を実行しても、ややこしい複雑なプロセスになる可能性がありますが、体系的なアプローチにより、その投資はスケーラブルな未来に向けて企業の基盤を築きながら、長期的には利益をもたらすことになります。

このプロセスは、まずデータ要素とデータソースを識別し、その間の関係をマッピングすることから始まります。完全に重複しているものは何か、列と定義はどのような点で違うか、それを連携させるにはどうしたらいいのかを検討し、

そこからデータ変換のモデルを構築します。ニーズや利用可能なリソースに応じて、カスタム・スクリプトや事前構築済の業界ツール、またはその組合せを使用できます。目標は、データを共通フォーマットに変換してマージし、データソース間の不一致を解決することです。できれば体系的な方法で、プロセスを反復可能にし、コンシューマが実行すべき作業データを制限することが推奨されます。

このプロセスでは、データ・キュレーターやデータ・エンジニアがさまざまな統合ツールやテクノロジーを利用できます。これには、主に3つの段階で機能するETLツールが含まれます。

スマートフォン・アプリ、データベース、Webアプリケーション、ソフトウェア・アプリケーションなどのデータソースからデータを抽出します。
定義、命名体系、分類の内部基準を満たすように、データソースからデータを変換します。
BIやセルフサービス分析などのツールでアクセス可能なデータウェアハウス、データレイク、その他のリポジトリに、変換済データをロードます。

さまざまなETLツールが、複数のフォーマットおよびプラットフォームで使用できます。従来のETLソフトウェア・アプリケーションに加えて、クラウドベースのETLツールを使用することで、異なるソースやリポジトリをより簡単に接続できるため、柔軟なアクセスが可能になります。適切なIT専門知識があると仮定すれば、オープン・ソースのETLツールは、低い初期コストで堅牢な機能を提供できます。ただし、商用製品と同レベルの機能開発、セキュリティ、品質保証が備わっていない可能性があり、後からさらにリソースの投資が必要になることもあります。カスタムETLツールも利用できますが、多額の先行投資が必要になることがよくあります。

では、どのETLツールが組織に適しているかを、どのようにして把握するのでしょうか。考慮すべき要因には、サポートされるコネクタのタイプ、利用可能なカスタマイズのレベル、パフォーマンスとリソース要件、専門知識やサポート・インフラストラクチャを含む総コストなどがあります。そしておそらく何よりも考慮しなくてはならないのは、自動化は最終的にセルフサービス・データ分析につながる体系的なデータ変換の重要部分であるため、ETLツールの自動化機能について評価する必要があるという点です。

5.データ品質を確保する

データセットの品質とは、その完全性、正確性、適時性、および基準への適合性を指します。統合データにおけるデータ品質の重要性は、どれほど強調しても強調しすぎることはありません。高品質のデータセットでは、統合の準備にかかる労力を大幅に削減できます。これはリソースの観点から重要なことですが、データ品質は出力にも大きく影響します。たとえば、組織が計算に有効桁数4桁を使用しているにもかかわらず、外部ソースが有効桁数2桁だけのデータを提供する場合、そのデータは期待される品質レベルに達しません。これを使用すると、生成される分析に、問題のあるインサイトが含まれる可能性があります。

そのため、統合データでは、変換やクリーニング作業を最小限に抑え、出力の正確性を保証するために、高品質なデータが絶対不可欠です。

データ品質の測定・維持方法: 高水準のデータ品質を確保するために役立つ多くの方法があります。

データ・プロファイリング: ソースデータに関する高レベルの分析により、品質、完全性、正確性、その他の要素を調べ、サマリーを作成します。
データの標準化: データが組織内の他のデータセットとの完全な互換性を確保できるように、フォーマット、定義、命名体系、その他の要素の標準を作成するプロセスです。データが標準に達しない場合は、データを変換する必要があります。
データ・クレンジング: データセットのクリーニングにより、重複したエントリ、空のエントリ、不正確なエントリ、または破損したエントリを修正して削除することで、データセットを処理する準備を整えます。
データ照合: 異なるデータセット間でレコードを照合して、同じサブジェクトを反映していることを検証すると同時に、削除する重複レコードにフラグを立てます。
データ検証: 一連のチェックおよびパラメータにより、特定のルール内で機能することを確認することで、データの正確性と品質を検証します。
データ・ガバナンス: ストレージ、セキュリティ、獲得などのタスクが、組織が定めた標準と原則や、適用される可能性のある規制を満たしていることを確認するために、データを監視するプロセスです。
継続的なモニタリング: さまざまなツールを使用して、内部標準とガバナンス基準に基づいてデータセットの健全性を継続的にチェックします。

Oracle Analyticsで複数のソースからのデータ統合を簡易化

データがリポジトリに統合されると、組織では、次のステップであるセルフサービス分析の準備が整います。Oracle Analyticsは、ビジネス・ユーザーからデータ・サイエンティストまで、すべてのユーザー向けに構築された直感的なユーザー・インタフェースで完全なセルフサービス分析を提供します。Oracle Analyticsは、クラウド、オンプレミス、またはハイブリッドの導入が可能であり、機械学習と人工知能を利用して隠れたインサイトを発見し、インスタント・ビジュアライゼーションを生成します。Oracle Cloud Free TierでOracle Analytics Cloudを無料でお試しいただけます。

顧客の人口統計、売上高、市場動向など、複数のソースからデータを統合する主な利点は、特定のビジネス上の問題や機会について従業員がより包括的に把握できることです。正しく実行すれば、各データソースを単独で分析する際には表面化することのない貴重なインサイトやパターンを発見できます。その結果、今日のデータドリブンのビジネス環境において、十分な情報に基づく意思決定、より効果的な戦略、データ品質管理の改善、業務効率の向上、競争上の優位性を実現できる可能性があります。

多様なデータは、企業が自社のビジネスに合わせてAIをトレーニングする方法です。ここでは、競合他社を飛躍させ、業務と意思決定を改善し、命を救うためにデータを深く掘り下げている10の組織を紹介します。

eBookを読む

複数のソースのデータ統合に関するFAQ

統合のためのデータソースを選択する際に考慮すべき要因は何ですか。

データ統合の計画に伴う最も重要な要因は2つあります。1つは、どのようなリソースがあり、自由に利用できるのはどれかを把握すること、もう1つは、ビジネス・ゴールが何かを知ることです。それを踏まえて、戦略を促進するデータソースを特定し、それにアクセスすることが現実的かどうかを判断できます。

複数のソースからのデータ統合に関するベストプラクティスは何ですか。

多くのデータ統合戦略は個々の組織のニーズに基づいていますが、次のような全面的に適用される幅広いベストプラクティスもあります。

データ品質に関するデータソースの状態を把握する
ビジネス・ゴールを念頭に置いて計画する
ITリソースと予算を把握する
データ統合によって最も恩恵を受ける部門を優先する
長期的な拡張とスケーラビリティを考慮する

複数のソースからのデータ統合のユースケースには、どのような事例がありますか。

複数のソースからのデータ統合に関する実際の2つのユースケースを紹介します。まず、使用状況データを常にクラウドに送信するスマートフォン・アプリケーションについて考えます。これは、メール・マーケティング・キャンペーンと営業データという2つの関連データセットと相互参照されます。統合ビューにより、使用状況、マーケティング、購入がどのように連動するかについて、より深いインサイトが得られます。２つ目の例として、患者アカウントにレコードを送信する医療用IoTデバイスについて考えてみます。これは、直ちに医師が確認可能になり、医師は患者の記録にアクセスして改善や調整を監視することもできます。

複数のデータソースを統合する必要があるのはなぜですか。

データソースの量と種類が次第に増加するのに伴い、データセットの統合は、ビジネスにおいて「あると便利なもの」から「必須のもの」へと変化してきました。最近では、データ統合の恩恵を受けない業務はほとんどありません。うまく統合を進めるコツは、組織に適した戦略を実行することです。

複数のソースからデータを組み合わせることは、何と呼ばれますか。

データソースを組み合わせるプロセスが体系的なデータ準備ステップで実行される場合は、データ統合と呼ばれます。この変換やクリーニングを行わずにデータソースを組み合わせ、その後にこのようなステップが必要になる場合は、データ結合またはデータ・ブレンドと呼ばれます。