機械学習と分析: エキスパート・ガイド

Michael Chen |シニアライター| 2024年10月22日

機械学習と分析は、データから貴重なインサイトを抽出しようとする企業にとって不可欠なツールとなっています。強力なアルゴリズムと統計モデルを使用することで、組織は隠れたパターンを発見し、よりデータ主導型の意思決定を行い、今日の急速に進化する市場で競争力を獲得することができます。

チームは機械学習なしでデータを分析できますが、結果は期待外れになる可能性があります。事実、MLは分析プラットフォームの機能を大幅に強化しています。

機械学習とは?

機械学習は、AIのサブセットであり、大規模なデータセットでトレーニングされたアルゴリズムを使用して傾向を認識し、パターンと関係を特定し、その情報を使用して、明示的なプログラミングを必要とせず、最小限の人的介入で予測や意思決定を行います。

機械学習テクノロジーには、ヘルスケア、財務、マーケティング、サイバーセキュリティなど、多くの業界でアプリケーションがあります。結果は、精度の向上、カスタマイズの追加、およびモデルのエラーの削減に重点を置いた反復学習プロセスによって改善されます。

分析とは

分析とは、データからインサイトを導出し、それらを使用して結論を導き出したり、意思決定を行うプロセスです。具体的には、データの収集・整備・整理を行い、トレンドや相関関係、パターンを発見することが目的です。分析は、さまざまな統計的および数学的な手法を使用することで、組織がより十分な情報に基づいた意思決定を行い、パフォーマンスを向上させ、業務を最適化するのに役立ちます。

分析は統計の分野に関連しており、企業がデータを理解し、それを使用して成長と成功を促進するのに役立つ根本的な概念を提供します。ビジネスでは、分析という用語は、データをソートし、独自の関係を見つけ、可視化を通じてアクセス可能な方法で結果を提示するためにソフトウェアを使用することを指します。

主なポイント

  • 機械学習と分析は、互いに補完し合う技術です。
  • 機械学習は、他の手段で見逃されることが多いパターンやインサイトを特定することなど、分析の機能を高速化および拡張できます。
  • 分析は、実用的なインサイトのために適切なコンテキスト内でデータを処理することで、組織にとっての価値を創出します。
  • 機械学習プロジェクトと分析プロジェクトの両方について、隠れた偏りや不正確さをチェックするために継続的な監視を検討してください。

機械学習と分析の説明

分析の取り組みは、機械学習やその他のAI技術の適用から大きなメリットを得ています。機械学習を使わない分析ツールでは、固定されたアルゴリズムに基づいて処理が行われるため、データの中に存在する目立たないが重要なパターンを見逃してしまう可能性があります。機械学習は、そうした隠れたパターンを見つけ出すことができ、必要に応じて、従来の分析ツールでは処理しきれないような大規模かつ多様なデータセットにも対応できます。

分析には機械学習が含まれるのでしょうか?

分析は必ずしも機械学習を必要としません。長年にわたり、企業は統計分析で構築されたツールを使用して、データの傾向を分析し、将来の結果を予測し、戦略の有効性を評価してきました。たとえば、ホリデーシーズンの割引戦略がどれだけ効果的だったのか、この顧客層に最も人気のある製品やサービスは何か、どの製品やサービスが最も収益性が高いのか、といった問いに対して、機械学習を使わなくても答えを導くことは可能です。しかし、機械学習を使わない場合、分析の範囲や扱えるデータの数には限界があります。

こうした問いに答えるために、オンライン分析処理(OLAP)が何十年も使われてきました。OLAPは、トランザクションデータの一部を抽出し、古典的な統計分析を用いて分析する技術です。データがリレーショナル・データベースのように構造化されている場合、OLAPは非常に効果的です。ただし、しかし、構造化データと非構造化データが混在し、ビジネスに関する数値以外の情報が含まれている場合、統計分析で同じレベルのインサイトを提供することはできません。MLでは、非構造化データ・ソースであっても、より複雑な非線形パターンをアナリストが特定できるという利点もあります。

組織がデータウェアハウスにより多くの非構造化データを導入するにつれて、MLはそれをすべて分析する上でますます重要になってきます。

機械学習と分析がビジネスにとって重要な理由

機械学習と分析を組み合わせることで、さまざまなデータから貴重なインサイトと予測を抽出できます。これは企業にとって大きな競争優位につながります。というのも、現代のビジネス環境では、データはあらゆる場所から、場合によっては絶え間なく生成されているからです。社内の業務指標、サプライヤーやベンダーの在庫情報、マーケティングキャンペーンの成果、顧客アプリから収集されたデータ、公共データ、財務データ、IoT(モノのインターネット)デバイスが生成するデータなど、現代のテクノロジーエコシステムでは、ほぼすべてのやり取りがデータとして記録され、それがデータウェアハウスやデータレイクなどのクラウドベースのリポジトリに蓄積されていきます。

このように膨大な情報が存在する中で、企業が業務、マーケティング、サプライチェーンなどのさまざまな領域でインサイトを得られるかどうかは、多様で大量なデータを分析できる力を持っているかどうかにかかっています。ここで登場するのが機械学習です。機械学習を使用すると、次のような理由から、ビジネス分析のプロセス全体が管理しやすくなり、範囲が広がります。

  • 機械学習による自動化により、データ・クレンジングやデータ品質の問題の認識などのデータ変換プロセスを効率化できます。
  • 分析ツール内の機械学習は、ビジネス・ユーザーからの単純なクエリに基づいて「思いがけない洞察」を生成できます。
  • 機械学習ベースの分析ツールは、複雑なデータの隠れたパターンを特定し、新しい機会を生み出す可能性のある新しいアイデアや議論を引き起こすこともあります。

そして今、機械学習を活用した分析に対する関心が高まっている背景には、クラウドベースのデータウェアハウスと分析ツールが提供するスケーラビリティと柔軟性があります。膨大な量のデータと複雑な機械学習アルゴリズムでは、効率的な分析のために多くの計算能力が必要です。また、これは急速に進化する領域であるため、機械学習と分析専用に設計されたオンライン・ツールとサービスから、新しいモデルの構築と導入を検討している開発者やデータ・サイエンティストも恩恵を受けています。クラウドにより、組織は最新のデータ分析のイノベーションを使用しながら、システムを使用するための適切な資格情報を持つ組織内の誰にでも簡単にアクセスできます。

ビジネス・アナリティクスでの機械学習の使用

組織が様々なソースからリポジトリへの入力を収集すると、機械学習システムは、戦略的な取り組みを支援するために大量のデータの処理を開始できます。これらのイニシアチブは、運用、マーケティング、ロジスティクス、さらにはソーシャル・メディアでのパブリック・エンゲージメントの一部になる可能性があります。

次に、ビジネス分析における機械学習の一般的な用途を示します。

  • 顧客セグメンテーション: 顧客セグメンテーションにおいて、機械学習は両側面で効果を発揮します。どのバイヤー・プロファイルがどの顧客セグメントに属しているかを判断するために、機械学習は購入履歴およびエンゲージメント・データを解析してカテゴリ化を生成できます。一方で、マーケティングチームが実施したキャンペーンの効果をセグメント別にすばやく評価することで、メッセージや施策内容を見直す時間的余裕も生まれます。
  • 不正検出: 機械学習は、地理、購入頻度、購入タイプ、消費金額、および個々のトランザクションのその他の詳細を考慮し、それらを顧客プロファイルと比較することで、潜在的な不正パターンを特定できます。異常検出機能を使用すると、システムは普段とは異なる挙動にすばやくフラグを付け、違法の可能性があるトランザクションをさらなる調査に送ることができます。
  • Supply Chain Management: サプライチェーンには、世界中のさまざまなパートナー、卸売業者、ロジスティクスプロバイダーが関与する可能性があります。たとえローカルな出来事であっても、必要な部品や商品が滞れば、数千キロ離れた製造業者や小売業者にまで影響が及びます。機械学習は、サプライヤーやロジスティクス会社からのデータを収集およびソートして、潜在的な混乱や発生している混乱を特定できます。さらに、MLシステムはデータを製造スケジュールと関連付けて、一時的な問題を判断し、部品故障や配送遅延が発生しやすいベンダーの特定など、コストとプロセスの最適化につながる可能性のあるトレンドを特定します。
  • センチメント分析: センチメント分析では、メッセージ、通話記録、レビューなどのテキストデータから、全体的な感情傾向を判断したうえで、マーケティングや営業上のインサイトを得るためにさらに深く分析します。機械学習は、さまざまなソースからの大量のテキストデータを迅速に処理して、たとえば、製品に重要な部分が見つからない場合やサービス担当者に問題がある場合に調整する必要があります。
  • 予測分析: 機械学習を使用しない予測分析は、元帳が記録されるようになって以来、ビジネス分析の定番手法として定着してきました。前年と今年の売上推移を比較するなどの基本的な予測から始まり、統計学の進歩によって、過去から未来を読み解く技術は大きく発展してきました。機械学習はこの土台の上に構築され、より多くのデータをより高精度に処理し、より複雑な予測手法を実現しています。また、MLは、ビジネス・リーダーの思考を導くwhat-ifシナリオの分析にも役立ちます。
  • 価格最適化: 価格最適化においては、利益を最大化できる価格帯を見つけ出すことが課題となります。価格が高すぎれば売れ行きが鈍り、低すぎれば利益率が下がります。支出の習慣に加えて、競合他社の価格、季節性、天候、在庫不足などの要因が複雑で動的な価格アルゴリズムを形成します。機械学習とデータ分析は、このすべてのデータをソートして、最適な価格設定シナリオを作成できます。

分析の理解

最適な結果を達成したかどうかを判断するために実行したアクションを確認することは、常に役立ちます。過去のパフォーマンスを反映すると、通常、次回に改善がもたらされます。アナリティクスには、常にこのような目標が必要です。データに実用的なインサイトを見つけることで、何を達成できますか?

数値データの統計分析は、価値のある出発点です。しかし、それだけでは多くのデータが未分析のまま残る可能性があるほか、処理に時間がかかったり、人的ミスが発生するリスクもあります。MLは、分析の幅を広げて、他の方法では見分けがつかないインサイトを見つけるのに役立ちます。

分析のタイプ

企業が活用できる分析にはさまざまな種類や手法があり、どのアプローチが最適かは、チームがそのデータから何を得たいかによって異なります。分析の4つのカテゴリを次に示します。

  • 記述的分析。記述的分析システムは、履歴データを取得し、パターンとメトリックを決定して、状況分析の作成に必要なインサイトを導出します。たとえば、財務モデルでは、営業、マーケティング、HRおよび経費からデータを取り込み、組織の四半期分析を作成できます。このような分析は通常、ダッシュボードで視覚的に表現されます。
  • 診断的分析。診断的分析システムは、履歴データを取得して、状況、傾向または関係の根本原因を見つけます。たとえば、特定の製品の品質に関する苦情が急増した場合、サプライチェーンから製品配送までのデータを考慮した診断的分析ツールを採用して、根本原因が特定の資材、製造ステップまたはその他の原因にあるかどうかを判断できます。
  • 予測的分析。予測的分析システムは、関連する現在および過去のデータに基づいて将来のパフォーマンスの予測を作成します。予測は、モデル、最適な在庫水準、マーケティング・キャンペーンにおける顧客の行動など、あらゆるものに関連します。データが多いほど、予測的インサイトを可能にする状況プロファイルの作成が改善されます。
  • 処方的分析。処方的分析は予測的分析に似ていますが、見つかった問題に対する修正を提案することでさらに進みます。たとえば、予測分析システムでは、次の四半期に高額な売上を予測できます。処方的分析は、履歴データと市場分析を組み合せて、より弱い販売予測を克服するための規範的なアクションを生成できます。

分析プロセスのステップ

一般的にデータの収集とクレンジングから始まり、分析手法の選定、結果の解釈、そしてステークホルダーへの洞察の共有へと進んでいきます。データ・アナリスト、ドメイン・エキスパート、意思決定者間のコラボレーションは、生成されたインサイトが関連性があり、影響力があることを確認するのに役立ちます。

  1. 問題の特定。すべての分析は、ビジネス上の問題に対処する必要があります。たとえば、マーケティングデータを分析したいのか、従業員の離職要因を突き止めたいのか、サプライチェーンの中でボトルネックを明らかにしたいのかなどです。課題を明確にすることで、分析プロジェクトの出発点が定まります。
  2. データの収集とクレンジング。プロジェクトの目標が確立されたら、分析プラットフォームに必要なデータ・ソースを特定します。オプションには、データ・ソースをリンクするiPaaSシステムの使用、またはデータ・レイクやデータ・ウェアハウスなどのリポジトリへの接続が含まれます。互換性と正確性を確保するために、データには適切な書式設定も必要です。通常、クレンジングでは、重複エントリを削除し、分析前にデータを非正規化します。継続的に利用されるデータソースの場合は、機械学習を活用することでクレンジングや変換の一部を自動化し、効率化を図ることも可能です。
  3. データの探索と可視化。分析ツールを使用して、データ・ビジュアライゼーションを作成し、初期インサイトを生成できます。このプロセスでは、データ・モデルの基礎として機能するデータ駆動型仮説のパラメータ(どのデータ・セットが最も価値を提供するかなど)を確立する一般的な結果が作成されます。
  4. データのモデリング。分析の目標と利用可能なデータソースに関する理解が深まったところで、データエンジニアはデータモデルを構築します。これは、未加工のデータを整理・構造化し、分析アプリケーションによる保存・検索が可能な状態へと橋渡しする作業です。
  5. モデルの評価。次は分析を行います。データ・モデルの準備が整ったら、チームはプロジェクトの初期目標を達成するための分析プロセスを開始できます。データ分析には、プログラミング言語や分析ツールの使用など、様々な形式の統計分析を含めることができます。
  6. 導入と監視。最後に、導き出された結果をもとに行動に移します。レポートとビジュアライゼーションの準備ができているため、ユーザーは利害関係者に結果を提示して、重要な意思決定に関するディスカッションを開始できます。分析では、レコメンデーションはデータで見つかったエビデンスから生じ、ビジュアライゼーションで明確に提示されます。多くの場合、従来の評価手法や手動評価手法よりも深いインサイトが提供されます。
  7. 分析における主な手法

    分析の実践は、統計の分野で確立された多くの技術に基づいて構築され、機械学習の機能を拡張します。分析で使用される最も一般的な手法は次のとおりです。

    • 回帰分析。回帰分析は、データおよび統計モデリングにおける主要な手法の1つです。回帰分析では、機械学習モデルがデータを分析して、どの変数が結果に影響するか、およびどの程度影響するかを確認します。回帰分析には、線形回帰、非線形回帰およびロジスティック回帰を含む一連の手法が含まれます。
    • クラスタリング。クラスタリングは、教師なし機械学習モデルで使用される分析の一種です。クラスタリングでは、機械学習モデルがデータ・セットを調査して関連データの小規模なグループを見つけ、それらの小規模なグループから接続とパターンを導出して、より深い理解を生み出します。
    • 時系列分析。統計およびデータ・モデリングでは、時系列分析では、特定の時間範囲内に収集されたデータ・ポイントで、変数のパターン、変更および影響を調べ、予測モデルを作成します。時系列分析の最も一般的な例の1つは、季節パターンを予測するための年間全体の気象データです。
    • 相関ルール・マイニング。大規模なデータセットの中からパターンや興味深い関係性を発見することで重要な洞察を導き出す手法です。これはグラフ分析の基本的な考え方にも通じるものであり、機械学習を用いて変数間に潜む関連性や共通点を明らかにします。たとえば、あるファストフードチェーンが、特定のメニューが一緒に注文される傾向を発見し、それらをセット割引商品として提供することで、売上を促進することが可能になります。
    • テキスト・マイニング。テキスト・マイニングは教師なし機械学習の一種であり、電子メール、Webサイト・コメント、ソーシャル・メディアの投稿などのソースから受信したテキストを取得し、自然言語処理を使用して意味のあるパターンを導出します。これらのパターンは、エンゲージメント指標や販売データなどの他の変数に関連付けて、意図と感情の理解を促進できます。

機械学習について

機械学習の中核は、データ内のつながりやパターンを見つけることです。MLは、意思決定ツリーと同じくらい簡単で、ニューラル・ネットワークと同じくらい複雑で、データに非線形関係を提供できるより深い層を使用して、この手法を実行します。しかし、その方法に関係なく、機械学習は、組織が煩雑なプロセスを改善し、データを掘り下げて、生産性の向上と意思決定の改善を促進するのに役立ちます。

機械学習のタイプ

プロジェクトのリソース、目標および制限に応じて、幅広い機械学習モデルが存在します。さまざまなタイプの機械学習技術を理解することで、チームはプロジェクトに適した選択を行うことができます。一般的な機械学習には次のタイプがあります。

  • 教師あり。教師あり学習では、MLアルゴリズムは、既知のパターンを識別して出力の精度を繰り返し改善することを目的として、ラベル付きデータセットからトレーニングします。このプロセスは、関連する既知のパラメータの数によってモデルの改善を明確に測定できるため、監視対象として特徴付けられます。
  • 教師なし。教師なし学習では、機械学習モデルが目標や指標を考慮せずにラベルなしのデータ・セットを処理できます。かわりに、教師なしのアプローチでは、パターン検出、関係検出、または生成されたその他の形式のインサイトを通じて、有機的な学習のためのサンドボックスが提供されます。成功すると、教師なし学習によってトレーニングされたモデルは、データ・セットによって提示された環境を適切に模倣でき、正確な予測を形成できます。
  • 半教師あり。半教師あり学習は、教師ありおよび教師なしの手法を組み合せて、機械学習プロセスを加速します。半教師あり学習では、少量のラベル付きデータを使用してモデルがヘッド・スタートします。そのデータ・セットで終了した後、モデルは、ラベルなしの大きなデータ・セットの探索を開始し、最初のステップで学習した基本を適用してから、オーガニックな監視なしの方法で予測を絞り込みます。
  • 強化学習。強化学習とは、特定の結果を達成する目的でモデルがデータ・セットを探索できるようにするプロセスを指します。途中の各決定は、肯定的または否定的な強化の観点からフィードバックを生成し、状況に対する適切な対応を予測するためにモデルがさらに改訂されるときにモデルに通知します。

機械学習プロセスのステップ

機械学習モデルの目標やパラメータに関係なく、これらのプロジェクトは標準プロセスに従うことがよくあります。プロジェクトを開始する前にこのプロセスを理解すると、機械学習ライフサイクル全体に沿ったリソース割当と予算策定のロードマップが提供されます。

ここでは、機械学習モデルを開発するための一般的なステップを示します。

  1. 問題の特定。機械学習モデルの目的は何ですか。さらに重要なことは、他のユーザーがそのタスクのモデルをすでに作成していることですが、その場合は目標に十分ですか。すべてのプロジェクトで問題を解決できる必要があり、そのソリューションの品質は、開始点から成功を示す指標まで、プロジェクト・パラメータを定義する必要があります。
  2. データの収集とクレンジング。機械学習プロジェクトを推進するには、データが必要です。つまり、トレーニングされたモデルが一般的に使用するデータに似たトレーニング・データのソースを特定し、そのデータを収集して、重複やエラーのない統一された互換性のある形式に変換します。このステップをスキミングすると、プロジェクトをスキューまたはデレールするバイアスが作成される可能性があります。プロジェクトのデータセットを慎重に管理する時間を取ることは、成功を確実にするための投資です。
  3. 機能のエンジニア。データ・セットのすべてが機械学習モデルのトレーニングに必要であるわけではありません。機械学習の重要な初期段階は、プロジェクトの重要なパラメータを特定し、それらのパラメータの多様性を特徴とするデータセットをキュレーションすることです。機能エンジニアリングには、エキスパート主導の反復が必要であり、最終的にはデータの追加、削除、または結合によって変換を推進し、モデルの精度を向上させます。
  4. モデルの選択およびトレーニング。プロジェクトの目標によって、機械学習技術の短いリストが決まります。コンピュート・リソース、プロジェクト・タイムライン、品質データ・ソースの可用性、チーム・メンバーの経験などの実用的な制限により、選択肢を絞り込み、最終的にはプロジェクトに最適なものを決定できます。選択すると、モデルはキュレートされたトレーニング・データ・セットに対して反復的にトレーニングを行い、一貫した精度が得られるまで結果と結果を絞り込みます。
  5. モデルの評価。トレーニングに成功したモデルは、繰り返し可能で説明しやすい正確な結果を提供します。実世界のデータを使用してトレーニング済モデルを評価し、トレーニング・データ・セット外でのパフォーマンスを測定します。評価は、プロジェクトが元の目標を達成するためにどの程度近いかをチームに伝えます。
  6. 導入と監視。モデルが一貫性のあるベースで実際のテスト・データを正常に処理した場合、本番環境に対応できます。デプロイメントは、特定のベンチマークが満たされた後にのみ行われますが、モデルの進化の終わりを示すものではありません。チームは、モデルの結果を継続的に監視して、正確性、一貫性、その他の望ましい結果を維持し、結果が逸脱した場合はその理由を発見する必要があります。
  7. 機械学習の主な手法

    多くの機械学習技術が使用されていますが、すべての技術が必ずしもプロジェクトの目標や制限に適用されるわけではありません。機械学習を成功させる秘訣は、個々のプロジェクト・パラメータに基づいてどの手法を選択するかを知ることです。

    機械学習で使用される一般的な手法は次のとおりです。

    • 決定木:決定木では、教師あり学習を使用して、アイテムがワークフロー内を移動する際に考慮する様々なオプションを理解します。たとえば、新しい請求書が届いた場合は、請求書が支払われる前に特定の決定を行う必要があります。デシジョン・ツリーは、リグレッション分析およびクラスタリングを支援し、たとえば、請求書が完全であるか、不正であるか、支払に必要なデータが欠落しているかを判断します。
    • ランダム・フォレスト:単一のデシジョン・ツリーは、状況の限定的なビューのみを提供します。ランダム・フォレストとは、複数のデシジョン・ツリー(つまり、フォレスト)を組み合せて、より広い視野で累積的な結果を作成する手法を指します。ランダム・フォレストは、デシジョン・ツリーの多くの制限を克服し、機能と範囲の両方の柔軟性を高めます。たとえば、不正検出では、トランザクションが正当であるかどうかの決定は、トランザクションが発生した場所、アイテム・ミックスが顧客にとって典型的なものかどうか、購入のサイズが異常であるかどうかなど、多くの要因に依存します。フォレスト内のデシジョン・ツリーは、各評価パラメータを処理できます。
    • ベクトル・マシンをサポートします。データは、明白かどうかに関係なく、自然にクラスタに分類されることがあります。サポート・ベクトル・マシン(SVM)は、2つのデータ・クラスタ間の差異または距離を最大化する方法を見つけるための教師あり学習の一種です。データ・グループ化の間に明らかな線形分割線がある場合がありますが、分割関数が非線形である場合もあります。2次元ビューに明らかなクラスタリングがない場合でも、SVMは高次元分析を使用してデータをクラスタ化する方法を見つけることができます。
    • ニューラル・ネットワーク: ニューラル・ネットワークは、脳内のニューロン・ネットワークと同様の方法で計算ノードを配置します。ニューラル・ネットワーク内の各レイヤーは、入力データの分類方法、および入力データから予測を行うことができるかどうかを決定するために、固有の関数を適用します。
    • 勾配ブースティング: すべての機械学習モデルの予測結果には、その結果が程度信頼できるかのレベルがあります。たとえば、トランザクションが0.8の信頼度を持つ不正のように見えるとします。1.0は完全に確実です。これはかなり自信のある予測です。モデルが評価を行うと、途中のいくつかの計算が予測に大きく貢献しますが、一部はまったく貢献しません。多くのモデルでは、こうした影響の小さい要素は「ノイズ」として除外されます。しかし、勾配ブースティングでは、これらの低い貢献要素の一部を、予測に大きく貢献できるように組み合わせ、エラー率を下げ、信頼度を上げることを目指しています。

アナリティクスと機械学習における課題

アナリティクスと機械学習は多くの共通技術に支えられているため、個別に取り組む場合でも、「機械学習によって強化されたアナリティクス」として一体的に扱う場合でも、両者は同様の課題に直面します。次に、プロジェクト・チームが直面する一般的な課題を示します。

  • データ品質: 機械学習には多くのデータが必要です。しかし、フォーマットや重複などに一貫性のないデータが多岐にわたると、モデルのトレーニング・プロセスに偏りが生じてしまいます。データ品質は、効果的なモデルの作成における主要な課題の1つです。しかし、MLに関しては、「品質」とは、データが適切にフォーマットされ、実際のシナリオでモデルに表示される内容を反映していることを意味します。トレーニング・データがあまりにクリーンで、モデルが本番環境で経験する実際の変動を表さない場合、トレーニング・データに適合しすぎている可能性があります。つまり、実際のデータ・セットに存在する変動や複雑さを処理できません。組織は、データ品質を維持するための戦略を採用する必要があります。これには、適切な変換手法へのデータ・ソースの検証や定期的な重複除外などが含まれます。しかし、バラエティを維持しながら、ノイズやエラーを取り除くために十分なデータをクリーニングし、バランスを取る必要があります。
  • アルゴリズムの選択と最適化: すべてのプロジェクトには特定のニーズが伴い、プロジェクトの目標に応じて、最適な方法とアルゴリズムが異なります。意思決定ツリーの構造化された性質が、問題のスコープと性質のために機能することを知っている場合など、これらの選択は明白に見えることがあります。また、どのモデルが最も適しているのか判断が難しい場合もあります。サイズ、タイプ、複雑さなどのデータの特性を文書化し、解決しようとしている問題を検討します。モデルのトレーニングと使用にはどのくらいの処理能力が必要で、データを処理するために拡張できますか?シンプルに始め、複雑さを増すことが最善です。AutoMLなどのツールは、プロジェクトに最適なアルゴリズムのテストおよび選択を自動化するのに役立ちます。
  • オーバーフィッティングとアンダーフィッティング: トレーニング・データで、幅と品質の適切なバランスがモデルに提供されない場合は、オーバーフィッティングまたはアンダーフィッティングが発生する可能性があります。オーバーフィッティングは、トレーニング・データに特定のジャンルのデータのみが含まれている場合に発生します。歌のタイトルや歌手を識別できるアプリが欲しいが、トレーニング中にカントリーミュージックだけを与えると、ロックやR&Bに関しては失われます。アンダーフィッティングとは、その逆のことを指します。モデルは十分にトレーニングされておらず、明らかなクエリや初期入力であるべきものでも失敗します。
  • 解釈可能性と説明可能性: 解釈可能性と説明可能性は類似していますが、AIモデルの特性は異なります。説明可能性とは、AIモデルの出力結果に対して、それが何を意味しているのか、そして大まかにどう導き出されたのかを人が理解できることを意味します。たとえば、生成AIが役員会議の議事録を4段落に要約したときに、元の議事録を読めば、なぜそのような文章が生成されたのかが理解できる状態が「説明可能」であるということです。また、あるモデルが今年の売上高を3%増加すると予測した場合、販売レポートを見て、その数値がどこから来たのかを理解できます。これが説明可能性です。

    解釈性とは、モデルが答えの特質を考え出すために何をしたかを理解することを意味します。たとえば、なぜ生成AIがその言葉をその順番で使って会議を要約したのか、あるいは売上が3%伸びるという予測をするために、どの数式を使ったのかを追跡できることが求められます。AIがソースを引用すると、説明可能性が向上します。しかし、モデルがより複雑になるにつれて、解釈しにくくなります。

分析と機械学習のベストプラクティス

アナリティクスと機械学習には、データソース、アルゴリズム、評価指標といった共通の重要項目が存在します。次では、分析と機械学習の両方の一般的なプラクティスについて説明します。

  1. 問題と成功の指標の定義: 分析プロジェクトの目的は何ですか?この単純な質問は、その後起こるすべてのことの基礎です。解決しようとしている問題を把握することで、アルゴリズムやデータ・ソースの選択などの意思決定がそこから導き出されます。そして、出発点と同じくらい重要なのが、ゴールの定義です。成功をどのように評価しますか?この2つの質問は、プロジェクトの幅広いフレームワークを提供し、その上でチームは細部の構築に着手できます。
  2. 高品質で多様なデータ・セットの使用: プロジェクトの成果は、使用するデータの質に大きく依存します。重複や非現実的に均一なソースなどの問題がある低品質のデータ・セットは、最悪の場合に問題を引き起こし、結果に偏りが生じます。その結果、会社の時間、コスト、顧客に悪影響を及ぼすという誤った結論に至ります。分析とAIの両方で、データセットは最新であり、現実の状況を反映しながら、関連性のある多様な視点をもたらす必要があります。
  3. 適切なアルゴリズムとモデル・アーキテクチャの選択: 機械学習技術は特定の目的のために開発されています。たとえば、異常検出システムは、階層クラスタリングまたはオブジェクト識別システムとは異なります。機械学習の方法の中には、より多くの処理能力を必要とするものもあり、単純なアプリケーションには適しない場合もあります。同様に、分析モデルにも最善の用途があります。データに対していくつかの異なるアルゴリズムを試し、そのパフォーマンスを比較検討する価値は十分にあります。
  4. モデルの正規化および最適化: MLでは、モデルのトレーニング・セットに本番で使用する多様性がない場合にオーバーフィッティングが発生します。モデルが限られたデータ・セットで高度にトレーニングされている場合、そのトレーニング・セットとは異なる入力を解釈できないことがあります。正規化は、オーバーフィッティングを排除し、モデルをより一般的に適用可能にすることを目指しています。最適化は、モデルを繰り返し微調整して高精度を実現します。
  5. 結果を明確に伝える: ここまで述べた内容は技術的な側面に焦点を当てたものですが、実際にはプロジェクトの成功を左右する鍵のひとつが、結果の伝え方にあります。チームは、モデルの微調整やデータソースの監査に注力し、主要な利害関係者がプロジェクトの進行状況を把握する必要があることを忘れる可能性があります。だからこそ、実用的な指標との明確なコミュニケーションと、「どうなっているか」の簡潔な評価が必要です。

分析と機械学習のユースケースと活用例

アナリティクスと機械学習は現実世界でどのように使われるのか?結論から言えば、データが存在するかぎり、あらゆる業界や組織でその活用が可能です。実際、エンジニアリング、オペレーション、マーケティング、営業など、さまざまな部門がさまざまな方法で使用しています。以下では、さまざまな業界や機能にわたる分析と機械学習のメリットを紹介するユースケースをご紹介します。

  • マーケティング: マーケティング部門は、電子メールやソーシャルメディアの投稿に関するエンゲージメント追跡、購入履歴、アプリの使用状況、ブラウジング行動など、さまざまな方法からデータを取得します。この膨大な量の情報をどのように活用できるのでしょうか?機械学習システムは、それをまとめて特定のパターンを探し、ビジネス・ユーザー向けの個々の顧客およびセグメントの分析主導のプロファイルを構築できます。そこから、データドリブンの意思決定は、マイクロターゲティングされたオファーや、人口統計による季節的なエンゲージメントなど、さらなる戦略を活性化することができます。
  • 財務: 組織全体のデータを統合すると、財務部門は機械学習を使用して、分析で解読するために大量のデータをまとめることができます。その結果、データドリブンのインサイトにより、キャッシュ・フロー、給与の傾向、資産購入パターンなどの重要な要因をより詳細に確認できます。分析は、トレンド検出とモデルベースの予測を通じて新しいレベルのインサイトを導き出し、不正検出の支援も提供します。
  • ヘルスケア: 電子医療記録、コネクテッド・デバイス、施設からの運用指標の間では、機械学習と分析が連携して、医療機関が業務を最適化し、より優れた個別ケアを提供できるよう支援できます。運用では、季節や天候などの要因によって引き起こされる実績のある使用サイクルに基づいて、人員配置をスケールアップおよびスケールダウンできます。個人レベルでは、定期検査の時期や有望な治療法の提案など、個別の健康データに基づいたパーソナライズされた推奨が可能になります。
  • ロボティクス: ロボティクスの分野では、製造工程から実運用に至るまで、ロボットのあらゆる動作がデータを生み出します。たとえば、温度センサー、CPUの稼働状況、関節やモーターの動きなどが情報源になります。アナリティクスは、膨大な量のデータを取得し、製造業の調達やモーターの維持など、生産のすべての側面を最適化し、最終的にはメンテナンス・コストを削減することを目指しています。
  • 経済: 機械学習は、さまざまな方法で経済研究と分析の恩恵を受けることができます。単純な活用例としては、膨大な経済データを高速で処理し、視覚化することが挙げられます。しかし、経済アナリストは機械学習を使用して、テキストベースのセンチメントなどの関連データ・ポイントを調査し、特定の発見の方法と理由により大きなコンテキストを提供します。

Oracle: 分析と機械学習を使用したビジネスの向上

Oracle Analyticsシステムは、データサイエンティストにとって十分にパワフルでありながら、ビジネスユーザーにも直感的に使える設計となっています。Oracle Analytics製品を使用すると、自然言語処理によるデータの探索、コードフリー・インタフェースでのビジュアライゼーションの構築、ワンクリックのAIによるインサイトの取得が可能になります。Oracleは、コードなし機能やAutoMLタイプの機能など、データ・アクセスとAI/MLのアクセシビリティを民主化しながら、情報をコンテキストに組み込むのに役立ちます。

機械学習と分析は、ビジネスを変革し、イノベーションを推進する大きな可能性を提供します。データの力を活用し、高度な技術を活用することで、組織は貴重なインサイトを獲得し、データ主導型の意思決定を行い、競争上の優位性を獲得できます。テクノロジーが進化し続けるにつれ、機械学習から分析への応用は拡大し、あらゆる規模の企業にエキサイティングな機会を提供します。

データとAI : CIOを成功に導くためのガイド

データがビジネス成功の基盤であることから、CIOは機械学習(ML)と分析の戦略を策定する必要があります。

機械学習と分析に関するFAQ

MLと分析の違いは何ですか?

機械学習は、大規模なデータセットを評価してパターンを特定し、予測モデルを構築するプロセスです。これは、小規模な自動化タスクの場合でも、クリティカルな思考を必要とする大規模で複雑なプロセスの場合でも同様です。分析とは、データと統計の体系的な分析の科学を指します。分析は、機械学習を統合してデータ・モデルを生成することでメリットを得ることができますが、意図的に一緒に使用しないかぎり、2つの概念は別々に存在します。今日のビジネス環境では、MLと分析を組み合わせることで、組織を成功に導くことができます。

機械学習を活用した分析の種類を教えてください。

一般に、分析プラットフォームが機械学習をサポートし、データ・リポジトリに適切に接続しているかぎり、あらゆるタイプの分析のために機械学習を使用できます。実際、ほぼすべての分析プロジェクトで、機械学習を使用することでデータ・クランチング・プロセスを迅速化できるというメリットがあります。

機械学習と分析を使用してビジネスを予測するにはどうすればよいですか?

分析は、履歴データを処理し、販売サイクル、市場動向、顧客の行動、さらには製造プロセスなどのパターンを特定することで、組織がビジネス予測を行うのに役立ちます。これらのいずれかに対する予測的インサイトにより、組織は、より良いビジネス成果を得るために調査結果を最大限に活用するための意思決定を行うことができます。

組織はどのようにして機械学習と分析プロジェクトを成功に導くことができるのでしょうか。

機械学習と分析プロジェクトにおいては、以下の取り組みをおすすめします。これにより、プロジェクト成功の可能性が高まります。

  • 両者に共通:高品質なデータソースを確保します。
  • 分析: データ・エンジニアがモデリングとデータを使用前に標準を満たしていることを確認します。
  • 分析: プロジェクトの目標と実用的なリソースの最適なバランスをとる手法を選択します。
  • 機械学習: オーバーフィッティングやアンダーフィッティングなどの問題のトラブルシューティング。
  • 機械学習: デプロイ後にモデルを継続的に監視して、さらに改訂や調整が必要かどうかを確認します。