Mike Chen | コンテンツ・ストラテジスト | 2024年1月4日
データソースは、Internet of Things(IoT)デバイス、ERPシステム内のアプリのユーザー基盤、CRMソフトウェアでのカスタマーサービスのサービスリクエスト内など、デジタル・ビジネス界の至るところにあります。多量のデータが常に流れ込む中で、組織はどのようにして必要な情報を引き出すのでしょうか。分析プラットフォームなどのツールでインサイトを導くこともできますが、データセットが統合され、接続が可能な場合に限られます。そうでない場合は、ユーザーは手作業でスプレッドシートを取得することになり、時間と労力がかかる一方で、古い情報、データの破損や重複などデータ品質の課題により本来導かれる結果から外れる可能性があります。
技術的な進歩により、データを組み合わせて格納し、ビジネス・ユーザーがアクセスできるようにするプロセスが簡素化されました。第一段階は、複数のソースからデータを統合することです。これは、データドリブンの組織を実現する鍵であり、セルフサービスなデータ分析やBI(ビジネス・インテリジェンス)を含むさまざまな可能性を開くものです。ユーザーが自分自身で問合せを作成できるようにすることで、驚くべきインサイトにつながる可能性があります。
ただし、この段階に進むには、データ統合戦略と、複数のソース間のリンクを効果的にサポートできるインフラストラクチャ、そしてデータレイクまたはデータウェアハウスが必要です。
データ統合、データ・ブレンド、データ結合はすべて、マルチデータソースを組み合わせるというステップから始まります。具体的な方法は、定義および命名体系の標準化レベルと、プロセスの変換が行われる場所に応じてそれぞれ決まります。どの方法を用いるかを決定する際は、抽出したデータセットが内部基準に近いか、どの程度多くの変換が必要か、そのソースでデータ・クリーニングを必要とする重複やその他の問題が定期的に生じるか、といった点を検討します。
データソースの品質を把握することで、組織はデータの目標に近づくことができます。
データ統合、データ結合、データ・ブレンドは、最新のIT専門用語でよく使用される3つの用語です。これらの用語は違いが微妙であるため、混同されがちです。共通する要素もあります。たとえば、データ変換は、リポジトリへの読み込み前に行われるか読み込み後に行われるかに関わらず、プロセスの中で最も煩雑で労力を要するステップであることが多いため、自動化できる部分は自動化するべきだということです。
ここで基本的な定義および相互の相違点を説明します。
以下の表は、データ統合、データ・ブレンド、データ結合の違いを示します。
データ統合 | データ・ブレンド | データ結合 | |
---|---|---|---|
複数のソースの組み合わせ | 対応 | 対応 | 対応 |
通常の処理を行うのはIT部門かユーザーか | IT | ユーザー | ユーザー |
出力前のデータ・クリーニング | 対応 | 非対応 | 非対応 |
出力後のデータ・クレンジング | 非対応 | 対応 | 対応 |
同一のソースの使用が推奨されるか | 非対応 | 非対応 | 対応 |
ELT (抽出/ロード/変換)か、ETL(抽出/変換/ロード)か | ETL(抽出/変換/ロード) | ETL(抽出/変換/ロード) | ETL(抽出/変換/ロード) |
主なポイント
ツールが進化し、データソースが拡大され、機能が強化されます。これにより、データ統合ワークフローの改善、より堅牢かつ効率的なプロセスの導入につながる機会が一貫して生まれます。
どの組織にも固有のニーズがありますが、データ統合は通常、標準的なプロセスにのっとって行われます。
この段階で、組み合わせたデータセットを依頼者が手作業でクレンジングや分析を行えるようにしたり、データ・サイエンティストまたはデータ・キュレーターがデータを正規化してからビジネスに提供したりすることができます。どのような方法をとるにしても、データセットには通常、列間で一貫性のある命名体系、重複データの削除、不正確または誤ったデータの修正、不完全なレコードの修正、その他のタスクを確実に行うための追加プロセスが必要です。
このようなタスクが完了すると、インサイトやビジュアライゼーションを得るために、データを分析アプリケーションやビジネス・インテリジェンス・システムに読み込んだり、単にエンド・ユーザーがExcelに読み込んで分析、操作したりする準備が整います。
IT部門の目標は、このプロセスの効率を最大化することです。効率化をはかるため、手作業を最小限に抑え、自動化された変換の構築を計画する必要があります。組織が変換作業の自動化を実現するには、多くの変数を確認する必要があります。たとえば、データソースの出所はどこか、そのソースは検証済か、どの分野が優先されるか、確立されたデータ・ルールがあるか、どのようなワークフローが実施されるかなどです。
複数のデータソースを使用することで、ユーザーがデータをより速く取り込むセルフサービス環境を実現できるため、データ・クレンジング・プロセスをできる限り自動化することが最も重要な部分にもなります。
データ統合プロセスの構築に多大な労力がかかるように思えるなら、事実そのとおりです。ソースの確認から、データ・クリーニング・ワークフローの作成や改良まで、スムーズなデータ統合プロセスには注意と計画が必要です。しかし、その価値はすぐに明らかになります。
ビジネスでは、時間は常にお金と同じ価値があります。しかし、このシンプルな公式の重要性が、世界中のサプライヤーや顧客からリアルタイムの情報が流入するビッグデータの時代においては飛躍的に高まっています。状況は急速に変化するため、ビジネスの浮き沈みは予測できないことがよくあります。データがサイロ化されている場合、新しい情報の分析やイノベーションの機会の追求を目指す事業部門は、数歩遅れとっているように感じることがよくあります。そう感じるのは、事実そのとおりだからです。データ抽出や分析レポートで事業部門が他のチームに依存する必要がある場合、進捗は遅くなります。
結局のところ、情報は流れてはじめて価値があるのです。
複数のソースからデータを統合することで、多くの手作業によるハードルを取り除くことができます。さらに、幅広いデータソースへの機会が開かれ、隠れたインサイトを発見し、真にデータに基づく意思決定を行うことができるようになります。これにより、従業員の能力と効率性が向上し、組織のイノベーションと機会が促進されます。最終的に、複数のデータソースを統合することで、組織は新しいアイデアやソリューションを見つけ、迅速に方向転換を図り、競争に打ち勝つことができます。
データ統合を成功させることで、データの可能性が広がり、組織は現在も将来においても競合他社に対して優位性をもつことができるでしょう。ただし、それを実現するには、組織的な観点からの技術的な構成と理解の両方が必要になります。これらの課題に対処することで、組織は業務、営業、財務、製造、その他ほぼすべての部門における意思決定の方法を変えらることができます。
ここでは、いくつかの利点と、データ統合を成功させるために克服すべき課題を取り上げます。
データ統合を成功させるには、技術サポート、ビジネス・ゴール、企業文化など、多くの分野での基盤が必要です。以下は、データ統合の取り組みを始める前にチェックすべき最も重要な3つの点です。
データ統合戦略を成功させるには、それをサポートするテクノロジー、ソースデータとデータ取り込みを管理するチーム、統合データをダウンロードして効果的に使用するビジネス・ユーザー、その取り組みの予算を承認するエグゼクティブ・リーダーが必要です。それぞれの関係者が重要です。組織全体の同意がなければ、戦略は頓挫したり、時には自然に消滅したりすることになります。
組織は、データ統合プロジェクトの「目的」を確認する必要があります。その目的は、プロセスの迅速化、データ分析の強化、データドリブンのインサイトの獲得、データの正確性の向上、あるいはそれらの組合せでしょうか。また、1つの部門に固有のものでしょうか、それともより広範な取り組みでしょうか。
組織は、特定の目標とパラメータを指定することで、データ目標を達成するためのより集中的かつ効果的なアプローチを確立できます。
データ統合プロジェクトを開始する前に、既存のシステムや、現在扱っているデータについて理解することが重要です。ベストケース・シナリオでは、データを簡単にエクスポートでき、フォーマットや基準に関する部門間の合意や調整がすでに行われています。目標、プロセス、ネイティブのデータ・フォーマットが部門間で大きく異なる場合はどうなるでしょうか。ここで登場するのが、エグゼクティブ・スポンサーの存在です。
複数のソースからデータを統合する作業には、いくつかのステップが含まれます。ただし、プロセス全体を通して、データ・セキュリティやプライバシーに関する適切な規制とともに、データの品質と整合性を念頭に置くことが重要です。さらに、データの統合後は、時間が経ってもデータの品質と整合性が確保されるように、定期的なモニタリングとメンテナンスを実施します。
データソースは、さまざまなフォーマットで多くの場所に存在しています。すべての組織は、次のような一意のデータソースの組合せを得られます。
フォーマットやその他の変数に関係なく、最も重要なことは、ビジネス・ゴールに寄与するデータソースを特定して選択し、それらを統合する最善の方法を検討することです。
データソースを特定したら、そのデータセットのフォーマットと定義を確認します。主に2つの準備ステップがあります。
最適な方法は、個々のデータセットの状態と組織の目標によって異なります。しかし、すべてに共通するのは、プロセスが自動化されている場合は、クリーニングと標準化が最もうまく行くということです。データ準備を支援するツールを使用することで、プロセス全体のハンズオフ処理が可能になります。ITスタッフは、供給されるすべてのデータセットに手作業で対応するのではなく、フラグが付いたイベントへの対応に集中できるようになります。ローコード・ツールとコード不要のツールにより変換が簡素化される一方、カスタム・スクリプトとコーディングによりプロセスの柔軟性が向上します。
統合方法は、データのIT構造全体を定義するうえで大きな役割を果たします。このため、継続的な統合によりシステムを構築するか、一定間隔で定期的なリフレッシュを設定するかなど、選択した方法に合わせてリソースとビジネス・ゴールを調整することが重要です。最も一般的なデータ統合方法には、以下のような方法があります。
適切に開発されたデータ統合計画を実行しても、ややこしい複雑なプロセスになる可能性がありますが、体系的なアプローチにより、その投資はスケーラブルな未来に向けて企業の基盤を築きながら、長期的には利益をもたらすことになります。
このプロセスは、まずデータ要素とデータソースを識別し、その間の関係をマッピングすることから始まります。完全に重複しているものは何か、列と定義はどのような点で違うか、それを連携させるにはどうしたらいいのかを検討し、
そこからデータ変換のモデルを構築します。ニーズや利用可能なリソースに応じて、カスタム・スクリプトや事前構築済の業界ツール、またはその組合せを使用できます。目標は、データを共通フォーマットに変換してマージし、データソース間の不一致を解決することです。できれば体系的な方法で、プロセスを反復可能にし、コンシューマが実行すべき作業データを制限することが推奨されます。
このプロセスでは、データ・キュレーターやデータ・エンジニアがさまざまな統合ツールやテクノロジーを利用できます。これには、主に3つの段階で機能するETLツールが含まれます。
さまざまなETLツールが、複数のフォーマットおよびプラットフォームで使用できます。従来のETLソフトウェア・アプリケーションに加えて、クラウドベースのETLツールを使用することで、異なるソースやリポジトリをより簡単に接続できるため、柔軟なアクセスが可能になります。適切なIT専門知識があると仮定すれば、オープン・ソースのETLツールは、低い初期コストで堅牢な機能を提供できます。ただし、商用製品と同レベルの機能開発、セキュリティ、品質保証が備わっていない可能性があり、後からさらにリソースの投資が必要になることもあります。カスタムETLツールも利用できますが、多額の先行投資が必要になることがよくあります。
では、どのETLツールが組織に適しているかを、どのようにして把握するのでしょうか。考慮すべき要因には、サポートされるコネクタのタイプ、利用可能なカスタマイズのレベル、パフォーマンスとリソース要件、専門知識やサポート・インフラストラクチャを含む総コストなどがあります。そしておそらく何よりも考慮しなくてはならないのは、自動化は最終的にセルフサービス・データ分析につながる体系的なデータ変換の重要部分であるため、ETLツールの自動化機能について評価する必要があるという点です。
データセットの品質とは、その完全性、正確性、適時性、および基準への適合性を指します。統合データにおけるデータ品質の重要性は、どれほど強調しても強調しすぎることはありません。高品質のデータセットでは、統合の準備にかかる労力を大幅に削減できます。これはリソースの観点から重要なことですが、データ品質は出力にも大きく影響します。たとえば、組織が計算に有効桁数4桁を使用しているにもかかわらず、外部ソースが有効桁数2桁だけのデータを提供する場合、そのデータは期待される品質レベルに達しません。これを使用すると、生成される分析に、問題のあるインサイトが含まれる可能性があります。
そのため、統合データでは、変換やクリーニング作業を最小限に抑え、出力の正確性を保証するために、高品質なデータが絶対不可欠です。
データ品質の測定・維持方法: 高水準のデータ品質を確保するために役立つ多くの方法があります。
データがリポジトリに統合されると、組織では、次のステップであるセルフサービス分析の準備が整います。Oracle Analyticsは、ビジネス・ユーザーからデータ・サイエンティストまで、すべてのユーザー向けに構築された直感的なユーザー・インタフェースで完全なセルフサービス分析を提供します。Oracle Analyticsは、クラウド、オンプレミス、またはハイブリッドの導入が可能であり、機械学習と人工知能を利用して隠れたインサイトを発見し、インスタント・ビジュアライゼーションを生成します。Oracle Cloud Free TierでOracle Analytics Cloudを無料でお試しいただけます。
顧客の人口統計、売上高、市場動向など、複数のソースからデータを統合する主な利点は、特定のビジネス上の問題や機会について従業員がより包括的に把握できることです。正しく実行すれば、各データソースを単独で分析する際には表面化することのない貴重なインサイトやパターンを発見できます。その結果、今日のデータドリブンのビジネス環境において、十分な情報に基づく意思決定、より効果的な戦略、データ品質管理の改善、業務効率の向上、競争上の優位性を実現できる可能性があります。
多様なデータは、企業が自社のビジネスに合わせてAIをトレーニングする方法です。CIOがデータ統合を実現したら、その取り組みを活用するAIプログラムをいよいよ立ち上げましょう。
統合のためのデータソースを選択する際に考慮すべき要因は何ですか。
データ統合の計画に伴う最も重要な要因は2つあります。1つは、どのようなリソースがあり、自由に利用できるのはどれかを把握すること、もう1つは、ビジネス・ゴールが何かを知ることです。それを踏まえて、戦略を促進するデータソースを特定し、それにアクセスすることが現実的かどうかを判断できます。
複数のソースからのデータ統合に関するベストプラクティスは何ですか。
多くのデータ統合戦略は個々の組織のニーズに基づいていますが、次のような全面的に適用される幅広いベストプラクティスもあります。
複数のソースからのデータ統合のユースケースには、どのような事例がありますか。
複数のソースからのデータ統合に関する実際の2つのユースケースを紹介します。まず、使用状況データを常にクラウドに送信するスマートフォン・アプリケーションについて考えます。これは、メール・マーケティング・キャンペーンと営業データという2つの関連データセットと相互参照されます。統合ビューにより、使用状況、マーケティング、購入がどのように連動するかについて、より深いインサイトが得られます。2つ目の例として、患者アカウントにレコードを送信する医療用IoTデバイスについて考えてみます。これは、直ちに医師が確認可能になり、医師は患者の記録にアクセスして改善や調整を監視することもできます。
複数のデータソースを統合する必要があるのはなぜですか。
データソースの量と種類が次第に増加するのに伴い、データセットの統合は、ビジネスにおいて「あると便利なもの」から「必須のもの」へと変化してきました。最近では、データ統合の恩恵を受けない業務はほとんどありません。うまく統合を進めるコツは、組織に適した戦略を実行することです。
複数のソースからデータを組み合わせることは、何と呼ばれますか。
データソースを組み合わせるプロセスが体系的なデータ準備ステップで実行される場合は、データ統合と呼ばれます。この変換やクリーニングを行わずにデータソースを組み合わせ、その後にこのようなステップが必要になる場合は、データ結合またはデータ・ブレンドと呼ばれます。