データ・マイニングとは

2022年5月2日

データマイニングの定義

データマイニングとは何でしょうか。簡単に言えば、大量のデータを処理する際にインサイトを発見するプロセスです。このデータは、多くのソースまたは単一のデータベースから取得でき、インサイトを手動検出または自動化によって生成できます。リソース、機械学習/AI機能、データの複雑さ、データの量、スタッフのトレーニングと経験などの変数に応じて、インサイトを導く方法はさまざまです。このプロセスでは、データを深く分析し、パターンや隠れた要因を発見することで、結論を導き出し、より的確な意思決定を可能にします。

ビッグ・データのデータ・マイニング

より多くのデータ・ソースがビッグ・データ環境を提供したため、データ・マイニングの使用は過去20年間で大幅に増加しました。ビッグ・データとは、複数のソースから継続的に大量のデータが高速で生成されることを指します。ビジネス・インテリジェンスの黎明期には、デバイスからデータテーブルをエクスポートし、手作業でインサイトを抽出していました。しかし、世界がますますつながるにつれて、特に構造化データと非構造化データが混在している場合、手作業では対応しきれない膨大なデータ量が日々流れ込んできます。

データ・マイニングは、ビッグ・データを機能させるプロセスです。データマイニングがなければ、企業は膨大なデータをただ保有するだけになってしまいます。たとえば、IoT(モノのインターネット)デバイス、データベース、企業のSNS、マーケティングメール、各種センサー、ウェブサイトの利用データなど、さまざまなソースから収集されたデータが、それぞれ独自のメタデータと共に蓄積されていきます。これらを人の手で精査することは事実上不可能です。データ・マイニング手法では、アルゴリズムを使用して、この膨大なレコード・セットを通じてパターンを識別し、チームが行動するための一連の推奨事項を出力します。

その分かりやすい例が、小売業におけるオンラインショッピングです。このような状況では、顧客の履歴はすべて大規模なデータベースにまとめられます。アルゴリズムはそのデータを分析し、たとえば特定のドッグフードブランドだけを購入している顧客を見つけ出します。さらに、その顧客が同時に購入しているサプリメントやおやつのブランドなど、関連する商品の情報も抽出します。こうして見つかったパターンは、マーケティングチームに提供され、そのブランドに関連したキャンペーンの設計に活用されます。

データマイニングの仕組み

前のセクションではデータマイニングの概要について説明しましたが、ここでは実際のプロセスについて詳しく見ていきましょう。データマイニングを最大限に活用するには、自動処理と人による分析の両方が不可欠です。スタッフがルールや目的を定義し、その上で機械学習や人工知能(AI)が大量のデータを処理していきます。一般に、次のワークフローが使用されます。

  1. 目標: データ・マイニングの目的は何ですか。すべての利害関係者の間でこれを確立することが、このプロセスの最も重要な部分です。目的が不明確または曖昧なままでは、プロジェクト全体をやり直すことになりかねません。
  2. データ準備: データ準備には、データ・ソースの抽出、フォーマットの確立、異常やノイズのデータセットのクリーニングなど、幅広いプロセスが含まれます。
  3. モデルの構築: データ・サイエンティストはモデルを構築し、反復を通じてモデルを開発およびトレーニングします。多くの場合、目標への最も適切な手法を見つけるために、複数のモデルを構築およびテストします。この評価プロセスには、相互検証や受信機動作特性(ROC)曲線分析などの手法を使用して、検証のための幅広いアプローチが必要です。

データ・マイニング・モデルが構築されたら、データセットにまたがってデプロイします。この段階では、予期せぬ問題や修正が必要な箇所がないかを確認するために、アクティブなモニタリングが求められます。すべてが計画通りに進めば、出力されるデータは有効性と有用性の基準をクリアし、ビジネスユーザーが意思決定に活用できる状態となります。

データ・マイニングのユースケース

前述の小売の例に加えて、データ・マイニングは多くの業界にとって変革的なプロセスになる可能性があります。次の例は、業界固有のニーズにデータ・マイニングを適用する方法を示しています。

医療向けデータ・マイニング

データ・マイニングは、医療提供者と患者の両方のエクスペリエンスを改善および加速することで、医療業界を変革できます。プロバイダは、データ・マイニングを使用して、調査を加速して関与させ、運用データを理解して人員配置のニーズを最適にサポートし、保険や記録詐欺の危険性を特定できます。患者に対して、データ・マイニングは予防的ケア・オプションを推進するパターンを特定し、治療が必要になる前に会話を開始できるようにします。また、副作用などの物事の隠れたパターンを特定し、患者それぞれの特異な状況によって治療がどのように影響を受けるのかをよりよく理解することができます。


製造のためのデータ・マイニング

製造業界では、資材の調達、アセンブリ・ロジスティクス、品質管理、出荷日、製造上の欠陥による返品など、プロセス全体にわたってデータが生成されています。データ・マイニングでは、プロセスの個々のステップと全体像の両方を調べることができます。これにより、チームはミクロとマクロの両面から課題に対応できるようになります。

たとえば、あるベンダーは出荷までの時間が長いものの、不良率が低いことがデータマイニングによって判明した場合、マネージャーは「遅延の影響を抑えるために他の工程を並行して進めることで、リスクを許容する価値がある」と判断できるかもしれません。一方で、別のベンダーは納期の安定性はあるものの、不良品の割合が高く、その結果として工程全体への悪影響が大きいことが分かるかもしれません。データマイニングはこうした関連性を可視化し、断片的な判断ではなく、製造プロセス全体を最適化する意思決定を支援します。


金融サービス向けデータ・マイニング

データ・マイニングは、内部運用とカスタマー・エクスペリエンスの両方において、金融サービス・プロバイダーに多くのメリットをもたらします。運用面では、データ・マイニングは人事からマーケティングまであらゆることに影響を与える可能性があります。特に金融業界においては、可用性とセキュリティが最優先事項であるため、データマイニングはITリスクの最小化にも大きく貢献します。

お客様側では、データ・マイニングは保護要素と優れたカスタマー・エクスペリエンスの両方を提供します。トランザクション・パターン全体にわたるデータ・マイニングでは、地理、時間、購買カテゴリ、またはこれらすべてによって異常と思われる項目を識別し、フラグを付けることができます。その後、結果を不正チームに転送して、フォローアップが必要かどうかを確認できます。また、エンドユーザーにとっては、データマイニングにより導き出された行動パターンに基づいて、住宅ローン借り換えやHELOCローンなど、個別最適化されたプロモーションが可能になります。

企業向けのデータ・マイニング

社内業務から顧客サービスまで、企業内のすべての組織がデータ・マイニングの恩恵を受けることができます。データマイニングを成功させるには、複数の高速データソースを活用できる強固なインフラ基盤を整えることが出発点となります。Oracle Cloud Infrastructureを無料で試して、データマイニングの基盤を構築する方法を学びましょう。