データ・マイニングとは

2022年5月2日

データ・マイニングの定義

データ・マイニングとは簡単に言えば、大量のデータを処理する際にインサイトを発見するプロセスです。このデータは、多くのソースから取得することも、単一のデータベースから取得することもでき、インサイトは手動検出または自動化によって生成されます。リソース、機械学習/AI機能、データの複雑さ、データの量、スタッフのトレーニングと経験などの変数に応じて、インサイトを導く方法はさまざまです。このプロセスでは、データを深く分析し、パターンや隠れた要因を発見することで、結論を導き出し、より的確な意思決定を可能にします。

ビッグデータのデータ・マイニング

データ・マイニングの利用は、より多くのデータソースがビッグデータ環境を提供するにつれて、過去20年間で大幅に増加しました。ビッグ・データとは、複数のソースから継続的に大量のデータが高速で生成されることを指します。ビジネス・インテリジェンスの黎明期には、デバイスからデータテーブルをエクスポートし、手作業でインサイトを抽出していました。しかし、世界がますますつながるにつれて、特に構造化データと非構造化データが混在している場合、手作業では対応しきれない膨大なデータ量が日々流れ込んできます。

データ・マイニングは、ビッグデータを機能させるプロセスです。データマイニングがなければ、企業は膨大なデータをただ保有するだけになってしまいます。たとえば、IoT(モノのインターネット)デバイス、データベース、企業のSNS、マーケティングメール、各種センサー、ウェブサイトの利用データなど、さまざまなソースから収集されたデータが、それぞれ独自のメタデータと共に蓄積されていきます。これらを人の手で精査することは事実上不可能です。データ・マイニング手法は、アルゴリズムを使用してこの膨大な記録からパターンを特定し、チームが行動に移すべき推奨事項のセットを出力します。

その分かりやすい例が、小売業におけるオンラインショッピングです。このような状況では、顧客履歴はすべて巨大なデータベースにまとめられます。アルゴリズムはそのデータを分析し、たとえば特定のドッグフードブランドだけを購入している顧客を見つけ出します。さらに、その顧客が同時に購入しているサプリメントやおやつのブランドなど、関連する商品の情報も抽出します。こうして見つかったパターンは、マーケティングチームに提供され、そのブランドに関連したキャンペーンの設計に活用されます。

データ・マイニングの仕組み

前のセクションではデータ・マイニングの概要について説明しましたが、ここでは実際のプロセスについて詳しく見ていきましょう。さらに、その顧客が同時に購入しているサプリメントやおやつのブランドなど、関連する商品の情報も抽出します。一般的には、次のワークフローを使用します。

  1. 目標: データ・マイニングの目的は何ですか。すべての利害関係者の間でこれを確立することは、プロセスの最も重要な部分です。目的が不明確または曖昧なままでは、プロジェクト全体をやり直すことになりかねません。
  2. データの準備: データ準備には、データソースの選別、フォーマットの確立、データセットの異常やノイズの除去など、さまざまなプロセスが含まれます。
  3. モデルの構築:データサイエンティストはモデルを構築し、反復によって開発とトレーニングを行います。多くの場合、目標への最も適切な手法を見つけるために、複数のモデルを構築およびテストします。この評価プロセスでは、相互検証や受信者動作特性(ROC)曲線分析などの手法を用いた、検証のための幅広いアプローチが必要です。

データ・マイニング・モデルが構築されたら、今度はそれをデータセット全体に導入します。この段階では、予期せぬ問題や修正が必要な箇所がないかを確認するために、アクティブなモニタリングが求められます。すべてが計画通りに進めば、出力されるデータは有効性と有用性の基準をクリアし、ビジネスユーザーが意思決定に活用できる状態となります。

データ・マイニングのユースケース

上記の小売業の例に加え、データ・マイニングは多くの業界にとって変革的なプロセスになる可能性があります。以下の例で、データ・マイニングが業界固有のニーズに適用できる方法をご紹介します。

医療向けデータ・マイニング

データ・マイニングは、医療提供者と患者双方にとってのエクスペリエンスを改善し、加速することで、ヘルスケア業界を変革することができます。医療提供者は、データ・マイニングを利用することで、研究を加速および取り組み、運用データを理解して人材配置のニーズを最適にサポートし、保険や記録の不正の危険信号を特定することができます。患者にとって、データ・マイニングは予防医療の選択肢を導くパターンを特定し、治療が必要になる前に会話を開始できるようにします。また、副作用などの物事の隠れたパターンを特定し、患者それぞれの特異な状況によって治療がどのように影響を受けるのかをよりよく理解することができます。


製造業向けデータ・マイニング

製造業では、材料調達、組立物流、品質管理、出荷日、製造不良による返品など、プロセス全体にわたりデータが生成されています。データ・マイニングは、プロセスの個々のステップと全体像の両方を調べることができます。これにより、チームはミクロとマクロの両面から課題に対応できるようになります。

たとえば、あるベンダーは出荷までの時間が長いものの、不良率が低いことがデータマイニングによって判明した場合、マネージャーは「遅延の影響を抑えるために他の工程を並行して進めることで、リスクを許容する価値がある」と判断できるかもしれません。一方で、別のベンダーは納期の安定性はあるものの、不良品の割合が高く、その結果として工程全体への悪影響が大きいことが分かるかもしれません。データ・マイニングはこうした関連性を可視化し、断片的な判断ではなく、製造プロセス全体を最適化する意思決定を支援します。


金融サービス向けデータ・マイニング

データ・マイニングは、金融サービスプロバイダーにとって、社内業務とカスタマー・エクスペリエンスの両面で数多くのメリットをもたらします。業務面では、データ・マイニングは人事からマーケティングまであらゆる分野に影響を与えます。特に金融業界においては、可用性とセキュリティが最優先事項であるため、データマイニングはITリスクの最小化にも大きく貢献します。

顧客側では、データ・マイニングは保護的な要素と、カスタマー・エクスペリエンスの向上の両方を提供します。トランザクション・パターン間のデータ・マイニングは、地理的、時間帯、購入のカテゴリー、またはこれらすべての組み合わせによって、異常と思われるアイテムを特定し、フラグを設定することができます。これにより、その結果を不正チームに転送し、フォローアップが必要であるかを確認することができます。また、エンドユーザーにとっては、データマイニングにより導き出された行動パターンに基づいて、住宅ローン借り換えやHELOCローンなど、個別最適化されたプロモーションが可能になります。

企業向けデータ・マイニング

社内業務からカスタマーサービスまで、企業内のあらゆる組織がデータ・マイニングからメリットを得ることができます。データ・マイニングを成功させるには、複数の高速データソースを活用できる強固なインフラ基盤を整えることが出発点となります。Oracle Cloud Infrastructureを無料で試して、データマイニングの基盤を構築する方法を学びましょう。