機械学習と分析: 専門家によるガイド

Michael Chen |シニア・ライター| 2024年10月22日

機械学習と分析は、データに関する価値あるインサイトを抽出することを目指すビジネスにとって不可欠なツールとなっています。強力なアルゴリズムと統計モデルを使用して、組織は隠れたパターンの解明、より多くのデータに基づく意思決定の実現、そして急速に進化する今日の市場における競争力の獲得が可能になります。

機械学習なしでデータを分析することは可能ですが、その結果は期待に満たない可能性があります。事実、MLは分析プラットフォームの機能を大幅に向上させます。

機械学習とは?

機械学習は、人工知能のサブセットであり、大規模なデータセットで訓練されたアルゴリズムを使用して、傾向を認識し、パターンや関係を特定し、その情報を使用して、明示的なプログラミングなしで、人間の介入を最小限に抑えながら、予測や意思決定を行います。

機械学習テクノロジーは、ヘルスケア、金融、マーケティング、サイバーセキュリティなど、多くの業界で活用されています。結果は、精度の向上、カスタマイズの追加、モデルのエラー削減に焦点を当てた反復学習プロセスを通じて改善されます。

アナリティクスとは

分析とは、データからインサイトを導き出し、それを使用して結論を導き出したり意思決定するプロセスを指します。これには、トレンド、相関関係、パターンを特定するためのデータ収集、クリーニング、編成が含まれます。さまざまな統計的および数学的手法を使用することで、分析は組織が十分な情報に基づく意思決定を行い、パフォーマンスを向上させ、運用を最適化できるよう支援します。

分析は統計学の分野に関連し、企業がデータを理解し、成長と成功を推進するためにデータを活用できるよう支援するための元となる概念を提供します。 ビジネスにおい て、分析という用語は多くの場合、ソフトウェアを使用してデータを分類し、独自の関係を見つけ、可視化によってアクセスしやすい方法で調査結果を提示することを指します。

主なポイント

  • 機械学習と分析は共生テクノロジーです。
  • 機械学習は、他の手段では見過ごされがちなパターン、インサイトを特定するなど分析機能を高速化し、拡張することができます。
  • 分析は、適切な状況下でデータを処理し、実行可能なインサイトを得ることで、組織の価値を生み出します。
  • 機械学習と分析のためのプロジェクトでは、隠れた先入観や不正確さをチェックするための継続的監視を考慮します。

機械学習と分析の説明

分析の取り組みは、機械学習やその他のAI技術の適用から大きなメリットを得ています。機械学習を利用していない分析ツールは、静的なアルゴリズムを使用しているため、データの曖昧ながらも重要なパターンを見逃している可能性があります。機械学習は、そのようなパターンを検出し、必要であれば、従来の分析ツールでは対応できないほど大規模で多様なデータセットを検証することができます。

分析に機械学習は含まれるか

分析には必ずしも機械学習が必要なわけではありません。長年にわたり、ビジネス・データは統計分析ツールを使用して、データの傾向を分析し、将来の成果を予測し、戦略の効果を評価してきました。MLのメリットなしに、次のような質問への答えを求めていました。休日の割引戦略はどの程度効果があったのでしょうか。そのカスタマー・セグメントに最も好評な製品やサービスは何でしょうか。最も収益性が高い製品はどれでしょうか。従来の手法でも回答は得られますが、MLを使わなければ、そのプロセスは利用可能なデータポイントの数や範囲において制限されます。

こうした回答を得るために、トランザクション・データ処理と分析データ処理のセグメントを取得し、従来の統計分析を使用して分析するオンライン分析処理(OLAP)が数十年にわたって使用されてきました。リレーショナル・データベースのようにデータが構造化されている場合、OLAPは非常に効果的です。ただし、データが構造化および非構造化の両方であり、ビジネス・データに関する非数値情報を含む場合、統計分析では同じレベルのインサイトを提供することはできません。MLの利点として、アナリストは構造化されていないデータ・ソースであっても、より複雑な非線形パターンを特定することができます。

組織がより多くの非構造化データをデータウェアハウスに格納するに従い、MLはそのすべてのデータの分析においてますます重要になります。

機械学習と分析がビジネスにとって重要な理由

機械学習と分析は、さまざまなデータから価値あるインサイト、予測的インサイトを抽出します。現在、データはあらゆるところから、場合によっては常にもたらされているため、これはビジネスにとって競合優位性をもたらす可能性があります:社内の業務指標、サプライヤーやベンダーの在庫、マーケティング・キャンペーンの結果、顧客アプリからのデータ、公共ソースからの関連データ、財務データ、IoTデバイスから生成されたデータなど、現代のテクノロジー・エコシステムは、ほぼすべてのインタラクションからデータを生成し、それをデータウェアハウスやデータレイクのようなクラウドベースのリポジトリに送り込みます。

これは膨大な情報であり、ビジネスにとって、業務、マーケティング、サプライチェーンなど、さまざまなインサイトを見出すチャンスとなりますが、大量のさまざまなデータを分析することができればの話です。ここで登場するのが機械学習です機械学習を使用すると、ビジネス・アナリティクスのプロセス全体が管理しやすくなり、以下のような理由で範囲が広がります:

  • 機械学習による自動化により、データ・クレンジングや データ品質の問題の認識など、データ変換プロセスを効率化できます。
  • 分析ツールの機械学習は、ビジネス・ユーザーからのシンプルなクエリに基づいて、「ハッとするような」インサイトを生成することができます。
  • 機械学習ベースの分析ツールは、複雑なデータの隠れたパターンを特定することもでき、新しいアイデアや議論を呼び起こし、新しい機会を生み出す可能性があります。

クラウドベースのデータウェアハウスと分析ツール提供するスケーラビリティと柔軟性が、MLを活用した分析の可能性をさらに高めています。膨大なデータと複雑な機械学習アルゴリズムは、効率的な分析に多くの処理能力を必要とします。また、この領域は急速に進化しているため、新しいモデルの構築と導入を検討している開発者とデータ・サイエンティストは、機械学習や向けに特別に設計されたオンライン・ツールやサービスを利用することにより、メリットを得ています。クラウド・システムを利用することで、組織は最新のデータ分析イノベーションを利用しながら、適切な認証情報を持つ組織内の誰にでも簡単なアクセスを提供することができます。

ビジネス・アナリティクスにおける機械学習の使用

組織がさまざまなソースからインプットをリポジトリに収集すると、機械学習システムは戦略的取り組みをサポートするために大量のデータ処理を開始できます。このような取り組みは、業務、マーケティング、ロジスティクス、さらにはソーシャルメディア上でのパブリック・エンゲージメントの一部となる可能性があります。

ビジネス・アナリティクスにおける機械学習の一般的な用途をいくつかご紹介します。

  • カスタマー・セグメンテーション:機械学習はカスタマー・セグメンテーションの両面で役立ちます。どのカスタマー・プロファイルがどのカスタマー・セグメンテーションに属するかを判断するために、機械学習は購入履歴やエンゲージメントのデータを解析してカテゴリを作成することができます。一方、機械学習は特定のセグメントにおけるキャンペーンの有効性を迅速に判断することができるため、マーケティング・チームはメッセージングやその他のキャンペーン要素を微調整する余裕を得ることができます。
  • 不正検出: 機械学習は、地域、購入頻度、購入タイプ、支出額、および個々のトランザクションのその他の詳細を考慮し、カスタマー・プロファイルと比較することで、潜在的な不正パターンを特定できます。異常検出機能を使用しているため、通常とは異なるアクティビティに迅速にフラグを付け、不正な可能性のあるトランザクションを送信して詳細な調査を行うことができます。
  • サプライチェーン・マネジメント:サプライチェーンには、世界中のさまざまなパートナー、卸売業者、ロジスティクス・プロバイダーが関与する場合があります。必要な商品の流れが妨げられると、地域で発生した事象が迅速に何千マイルも離れたメーカーや小売業者の懸念になる可能性があります。 機械学習は、サプライヤーやロジスティクス企業からデータを収集および分類し、潜在的な混乱や発生している混乱を特定することができます。さらに、MLシステムは製造スケジュールとデータを相関させ、一時的な問題を判断するだけでなく、部品の不具合や納期遅れが発生しやすいベンダーを特定するなど、コストやプロセスの最適化につながる可能性のある傾向を特定します。
  • センチメント分析: センチメント分析では、メッセージ、トランスクリプト、レビューからテキストを取得し、全体的なトーンを判断し、さらにデータを分析してマーケティングおよびセールスに関するインサイトを得ます。機械学習は、製品の重要な部品が頻繁に欠品していたり、サービス担当者に問題があったりする場合に、さまざまなソースからの大量のテキストデータを調整できるように迅速に処理するために必要です。
  • 予測分析: 機械学習による支援なしの予測分析は、元帳が保管されている限り、ビジネス分析における定番です。前年の売上高と当年の売上高を比較したシンプルなプロットが出発点であり、統計学者は過去から未来を予測する科学を飛躍的に進歩させました。機械学習は、より多くのデータのより正確な処理と、より複雑な方法の使用により、その上に構築されています。MLはビジネス・リーダーの思考を支援する仮定シナリオの分析も支援します。
  • 価格の最適化: 収益性が最大限になる価格とはいくらでしょうか。価格が高すぎると購入する人数が不足します。低すぎると利益率が低下します。支出習慣だけでなく、競合他社の価格、季節性、天候、在庫の希少性などの要因により、複雑で動的な価格アルゴリズムが形成されます。機械学習とデータ分析は、すべてのデータを分類して、最適な価格設定シナリオを作成することができます。

分析について

最適な結果を得られたかを判断するために、これまでに取った行動を見直すことは、常に有益です。過去のパフォーマンスを振り返ることは、通常、 次回以降の改善につながります。分析には常にこのような目標が必要です。データから実用的なインサイトを見つけることで、何を達成できるのでしょうか。

数値データの統計分析は、出発点としては価値があります。数値データの統計分析は、出発点としては価値があります。しかし、それでは多くのデータが分析されないまま放置されたり、最低でも結果の遅れが生じ、ヒューマンエラーの余地が生じます。MLは分析の幅を広げ、他の方法では容易に見極めることができないインサイトの発見を支援します。

分析の種類

企業にはさまざまな分析型や分析手法があり、チームがデータから何を引き出したいかによって、プロジェクトに最適なものが異なります。以下は分析の4つのカテゴリです。

  • 記述分析 記述分析システムは、履歴データを取り込んでパターン、メトリックを決定し、状況分析に必要なインサイトを導き出します。たとえば、財務モデルで営業、マーケティング、人事、経費のデータを取り込み、組織の四半期分析を作成することができます。通常、記述分析の可視化にはダッシュボードを使用します。
  • 診断分析 診断分析システムは、履歴データから状況、傾向、関係の根本原因を特定します。たとえば、ある組織で特定の製品の品質に関するクレームが急増している場合、サプライチェーンから製品出荷までのデータを考慮する診断分析ツールを活用し、根本的な原因が特定の材料、製造段階、またはその他の原因にあるかを判断します。
  • 予測分析 予測分析システムは、関連する現在と過去のデータに基づいて将来のパフォーマンスの予測を作成します。予測は、天候モデル、最適在庫レベル、マーケティング・キャンペーンにおける顧客行動など、あらゆるものに関連することがあります。データが多いほど、予測的インサイトを可能にする状況プロファイルの作成に有利です。
  • 処方分析 規範的分析は、予測分析と似ていますが、発見された問題に対する修正策を提案することで、さらに踏み込んだ分析を行います。たとえば、予測分析システムは、次の四半期の売上が頭打ちになることを予測する場合があります。規範的分析では、履歴データと市場分析を組み合わせることで、低迷する売上予測を覆すための規範的な対策を生み出すことができます。

分析プロセスのステップ

通常、このプロセスでは、データの収集とクリーニング、手法の選択、結果の解釈、ステークホルダーへのインサイトの伝達が求められます。生成されたインサイトが適切で効果的であることを確かにするためには、データ・アナリスト、ドメイン・エキスパート、意思決定者のコラボレーションが役立ちます。

  1. 問題の特定:すべての分析はビジネス・アナリティクスに対応する必要があります。マーケティング・データの分析をご希望ですか。従業員の離職を引き起こしている原因究明をお望みですか。サプライチェーンの弱点を見極めることでしょうか。課題を特定することで、分析プロジェクトの出発点が見えてきます。
  2. データの収集とクリーニング:プロジェクト・データの目標が定まったら、分析プラットフォームに必要なデータ・ソースを特定します。選択肢としては、データソースを連携する iPaaS システムの使用、またはデータレイクやデータウェアハウスなどのリポジトリとの接続があります。データの互換性と精度を確保するためには、データを処理するための適切なフォーマットも必要です。クレンジングでは通常、重複する項目を削除し、分析前にデータを非正規化します。反復可能なデータ・ソースの場合、機械学習により、クリーニングと変革プロセスの一部を自動化し、効率の向上を支援することができます。
  3. データの探索と可視化:分析ツールを使用して、データを可視化し、最初のインサイトを生成することができます。このプロセスにより、どのデータセットが最も価値を提供するかなど、データ・モデルの基盤となるデータドリブンな仮説のパラメータを確立する、一般的な知見が得られます。
  4. データのモデリング:データ・エンジニアは、目標と利用可能なデータソースの基本的な理解にもとづき、データを構造化および組織化するモデルを構築し、未加工データと分析アプリケーションによるストレージと取得がすぐに可能なデータ間のギャップを埋めます。
  5. モデルの評価:ここで分析を行います。データ・モデルの準備ができたチームは、プロジェクトの初期目標を達成するための分析プロセスを開始することができます。データ分析には、プログラミング言語や分析ツールの使用など、さまざまな形態の統計分析が含まれる場合があります。
  6. 展開と監視 今こそ行動を起こすときです。レポートと可視化が準備できれば、ユーザーは関係者に調査結果を提示し、重要な意思決定に関する議論を開始することができます。分析では、データから発見されたエビデンスに基づく推奨事項が可視化により明確に提示され、多くの場合、従来の評価手法や手作業による評価手法よりも深いインサイトが得られます。
  7. 分析における主な手法

    分析の実践は、統計学の分野で確立された数多くのテクニックの上に構築され、機械学習の機能によってスケールアップされます。分析で使用される最も一般的な手法は次のとおりです。

    • 回帰分析:回帰分析は、データおよび統計モデリングにおける主要な手法の1つです。回帰分析では、機械学習モデルがデータを分析して、どの変数がどの程度結果に影響するかを確認します。回帰分析には、線形回帰、非線形回帰、ロジスティック回帰などの手法があります。
    • クラスタリング:クラスタリングは、教師なし機械学習モデルで使用している分析の一種です。クラスタリングでは、機械学習モデルがデータセットを探索して関連データのより小規模なグループを検出し、それらの小規模なグループからつながりや パターンを導き出して、より深い理解を生み出します。
    • 時系列分析:統計学とデータ・モデリングにおいて、時系列分析は、予測モデルを作成するために、特定の時間幅で収集されたデータポイントのパターン、変化、変数の影響を調べます。時系列分析の最も一般的な例の1つは、時期的なパターンを予測するための年間を通じての気象データです。
    • 相関ルール・マイニング:最も奥深いデータ・インサイトのいくつかは、グラフ分析の原則的なアイデアの1つである、大規模なデータセット内のパターンを特定し、興味深い関係を見つけることから得られます。相関ルール・マイニングは、機械学習の一種で、変数関係に隠れた連携や共通点を見出します。たとえば、ファストフード・チェーンでは、相関ルール・マイニングを活用して、よく一緒に注文されるアイテムを特定し、それらを割引セットとして提供することで、顧客の獲得を推進することができます。
    • テキスト・マイニング テキスト・マイニングは、教師なし機械学習の一形態で、メール、ウェブサイトのコメント、ソーシャルメディアへの投稿などのソースからテキストを取り込み、自然言語処理を活用して有意義なパターンを導き出します。これらのパターンは、エンゲージメント指標やセールス・データなどの他の変数と関連付けられ、意図や 感情の理解を推進します。

機械学習の概要

機械学習の核心は、データ・パターンのつながりや パターンを見つけることです。MLは、意思決定木のような単純な手法から、ニューラル・ネットワークのような複雑な手法まで使用しており、より深い層ではデータ内の非線形な関連データを提供することができます。しかし、どのような方法であれ、機械学習は組織が煩雑なプロセスを改善し、データを掘り下げて生産性を向上させ、より良い意思決定を行うことを支援します。

機械学習のタイプ

プロジェクトのリソース、目標、制限に応じて、さまざまな機械学習モデルが使用できます。。さまざまな種類の機械学習技術を理解することで、チームはプロジェクト・チームに適した選択をすることができます。一般的な機械学習には次のタイプがあります。

  • 教師あり:教師あり学習では、MLアルゴリズムはラベル付きデータセットから学習し、既知のパターンを識別して出力の精度を繰り返し向上させることを目標とします。このプロセスが教師ありとして特徴づけられるのは、関係する既知のパラメータの数がモデルの改善を明確に測定できるためです。
  • 教師なし:教師なし学習は、目標やメトリックを意識することなく、機械学習モデルにラベル付きではないデータセットを処理させます。その代わりに、教師なしアプローチでは、パターン検出、関係検出、または他の形式の生成されたインサイトを通じて、有機的な学習のためのサンドボックスが与えられます。。教師なし学習によってトレーニングされたモデルは、データセットが提示する環境を適切に模倣し、正確な予測を行うことができます。
  • 半教師あり半教師あり学習は、教師あり学習と教師なし学習を組み合わせることで、機械学習プロセスを加速します。半教師あり学習では、モデルは少量のラベル付きデータを使用して有利なスタートを切ります。そのデータセットでの学習が終わると、モデルはより大規模なラベル付きではないデータセットの詳細な探索を開始し、最初のステップで学習した基本を適用してから、有機的な教師なしの方法で予測を改善します。
  • 強化学習:強化学習とは、モデルが特定の結果を達成する目的でデータセットを探索するプロセスを指します。途中の意思決定ごとに、正の強化または負の強化のいずれかのフィードバックが生成され、それがモデルに情報として与えられ、状況への適切な対応を予測するためにさらに修正されます。

機械学習プロセスのステップ

機械学習モデルの目標やパラメータにかかわらず、これらのプロジェクトは多くの場合、標準プロセスに従います。プロジェクトを開始する前にこのプロセスを理解することで、機械学習のライフサイクル全体におけるリソース編成と予算編成のロードマップを得ることができます。

ここでは、機械学習モデルを開発するための一般的なステップを示します。

  1. 問題の特定:機械学習モデルの目的は何でしょうか。さらに重要なことは、他の企業がそのタスクに対応するモデルをすでに作成しているのか、もしそうなら、そのモデルはあなたの目標を達成するために十分なものなのかということです。すべてのプロジェクトは問題を解決できる必要があり、その解決策の品質は、出発点から成功を決定づける指標に至るまで、プロジェクトのパラメータを定義する必要があります。
  2. データの収集とクリーニング:機械学習プロジェクトを推進するには、データが必要です。つまり、学習済みモデルが通常使用するデータと類似したトレーニング・データのソースを特定し、そのデータを収集し、重複やエラーのない統合的で互換性のある形式に変換する必要があります。このステップを怠ると、プロジェクトに歪みや頓挫をもたらす先入観が生じかねません。プロジェクト・データセットを時間をかけて慎重に管理することは、成功を確実にするための投資です。
  3. 機能のエンジニア:機械学習モデルをトレーニングするために、データセットのすべてが必要なわけではありません。機械学習の重要な初期ステップは、プロジェクト・プロジェクトにとって重要なパラメータを特定し、そのパラメータを取り巻くさまざまな機能を持つデータセットをキュレーションすることです。機能エンジニアリングにはエキスパート主導の反復作業が必要であり、最終的にはデータの追加、削除、組み合わせによりモデルの精度を向上させる変革を推進します。
  4. モデルの選択およびトレーニング:プロジェクトの目標によって、機械学習技術の候補が決まります。コンピュート・リソース、プロジェクト・スケジュール、良質なデータソースの利用可能性、チーム・メンバーの経験など、現実的な制約が選択肢を狭め、最終的にプロジェクトに最適なモデルを決定します。一度選択されたモデルは、キュレーションされたトレーニング・データセットで繰り返しトレーニングを行い、一貫した精度を達成するまで成果と結果を改善します。
  5. モデルの評価:うまくトレーニングされたモデルは、再現性があり、説明しやすく、正確な結果をもたらします。実世界のデータを使用してトレーニングしたモデルを評価し、トレーニング・データセット以外でのパフォーマンスを測定します。評価により、プロジェクト・チームが当初の目標にどれだけ近づいているかを知ることができます。
  6. 展開と監視 モデルが一貫して実際のテスト・データをうまく処理できれば、本番環境での準備は完了です。モデルの導入は特定のベンチマークを満たした後に行う必要がありますが、そこでモデルの進化が終わるわけではありません。チームはモデルの結果を継続的にモニターし、正確性、一貫性、その他の望ましい結果を維持できるようにし、結果が乖離している場合はその原因を突き止める必要があります。
  7. 機械学習の主な手法

    多くの機械学習技術が使用されていますが、プロジェクトの目標や制限に必ずしもすべての技術が該当するとは限りません。機械学習を成功させるコツは、個々のプロジェクトのパラメータに基づいてどの手法を選択すべきかを知ることです。

    機械学習で使用される一般的な手法は次のとおりです。

    • 決定ツリー: 決定ツリーでは、教師あり学習を使用して、アイテムがワークフロー内を移動する際に考慮する様々なオプションを理解します。たとえば、新しい請求書が届いたとき、その請求額を支払う前に特定の意思決定を行う必要があります。意思決定木は回帰分析やクラスタリングを支援し、たとえば、請求が有効で完全な請求書であるか、不正の可能性があるか、支払いに必要なデータが欠落しているかを判断することができます。
    • ランダム・フォレスト:単一の意思決定木では、状況を限定的にしか見ることができません。ランダム・フォレストとは、複数の意思決定木(つまりフォレスト)を組み合わせて、より幅広い見解による累積結果を作成する手法を指しますランダム・フォレストは意思決定木の制限の多くを克服し、機能と範囲の両方でより高い柔軟性を提供します。たとえば不正検出では、取引が正当かどうかの意思決定は、取引の発生場所、商品の構成がその顧客にとって通常のものかどうか、購入の規模が通常と異なるかなどの多くの要因に左右されます。フォレスト内の決定木は各評価パラメータを扱うことができます。
    • サポート・ベクター・マシンのサポート:明白であるなしに関わらず、データは自然にクラスタに分類されることがあります。サポート・ベクトル・マシン(SVM)は、データの2つのクラスタ間の差または距離を最大化する方法を見つけ出すことを目的とした教師あり学習の一種です。データのグループ分けの間に明らかな線形分割線がある場合もあれば、分割機能が非線形の場合もあります。2次元ビューで明らかなクラスタリングがない場合、SVMは高次元分析を使用してデータをクラスタリングする方法を見つけることができます。
    • ニューラル・ネットワーク:ニューラル・ネットワークは、人間の脳のニューロン・ネットワークに似た方法でコンピュート・ノードを配置します。ニューラル・ネットワークの各レイヤーは、入力データをどのように分類すべきか、また入力データから予測を行うことができるかを判断するために独自の機能を適用します。
    • 勾配ブースティング:すべての機械学習モデルの予測には、確実性のレベルがあります。たとえば、1.0が完全に確かな取引である場合、0.8の確実性に詐欺の可能性があるとします。これはかなり確実な予測です。モデルが評価を行う際、その過程で予測に大きく役立つ計算もあれば、まったく役立たない計算もあります。多くのモデルでは、貢献度の低いものはノイズとして扱われ、除外されます。勾配ブースティングは、これらの低因子因子を予測により大きく寄与するように組み合わせることで、エラー率を低下させ、信頼度を向上させることを目的としています。

アナリティクスと機械学習における課題

機械学習と分析は、多くの同じ技術を利用しています。そのため、この2つは、別々に取り組んだ場合でも、「機械学習による強力な分析」プロジェクトとして複合的に取り組んだ場合でも、同じような課題に直面します。プロジェクト・チームが直面するよくある課題を次に示します。

  • データ品質: 機械学習には多くのデータが必要です。しかし、そのデータに一貫性のないフォーマットや重複などの問題があると、モデルをトレーニングするプロセスに歪みが生じる可能性があります。データ品質は効果的なモデルを作成するための主要な課題の1つですが、MLに関して言えば、「品質」とは、データが適切にフォーマットされ、モデルが実際のシナリオで目にするものを反映していることを意味します。トレーニング・データがクリーンすぎて、モデルが本番環境で経験する実際の変動要素を表していない場合、トレーニング・データにオーバーフィッティングして、実際のデータセットに存在する変動性や複雑性を扱えなくなる可能性があります。組織は、データソースの吟味、適切なトランスフォーメーション技術、定期的な重複排除など、データ品質を維持するための戦略を用いる必要があります。しかし、ノイズやエラーを除去するためにはデータを十分にクリーニングしながらも、多様性を維持するというバランスを取る必要があります。
  • アルゴリズムの選択と最適化: すべてのプロジェクトには特定のニーズが伴い、プロジェクトの目標に応じて、最適な方法とアルゴリズムが異なります。例えば、決定木の構造化された性質が、目の前の問題の範囲や性質に適していることが分かっている場合などです。また、モデルの選択があまり明確でない場合もあります。データのサイズ、型、複雑さなどの特徴をドキュメントにまとめ、解決しようとしている問題を検討します。モデルをトレーニングし、使用するために必要な処理能力はどの程度で、データを処理するためにスケーリングできるでしょうか。シンプルなものから始めて、複雑さを増していくことが最善です。AutoMLのようなツールは、テストとプロジェクトに最適なアルゴリズムの選択を自動化できるよう支援します。
  • オーバーフィッティングとアンダーフィッティング:トレーニング・データがモデルの幅と質の適切なバランスを提供しない場合、オーバーフィッティングまたはアンダーフィッティングが生じる可能性があります。オーバーフィッティングは、トレーニング・データに特定のジャンルのデータのみが含まれている場合に起こります。曲名や歌手を識別できるアプリケーションの構築を目指しているのに、トレーニングでカントリーミュージックしか与えなかった場合、ロックやR&Bになると途端に使えなくなります。アンダーフィッティングとはその逆で、モデルを十分に幅広くトレーニングしていないため、明らかなクエリや ありきたりの入力でさえも正しく処理できないことを指します。
  • 解釈性と説明可能性: 解釈可能性と説明可能性は、似ていますがAIモデルの別々の特性です。AIモデルの出力が説明可能であれば、私たちはそのモデルが何を語っているのか、そしてその答えがどこから来たのかを高いレベルで理解することができます。生成AIが取締役会の要約を4段落で書けば、議事録を読んで、システムがどのようにその文章を書くことにしたかを理解することができます。あるいは、あるモデルが製品の売上が翌年3%増加すると予測した場合、販売レポートを見て、その数字がどこから得られたのかを理解することができます。それが説明可能性です。

    解釈性とは、モデルがその答えを導き出すために何をしたかを理解することです。生成AIシステムが、取締役会を要約する際に、選んだ言葉の順番にはどのような理由があったのでしょうか。売上増加率3%という予測は、どのような計算によって導き出されたものでしょうか。AIがソースを引用することで、説明可能性が向上します。しかし、モデルがより複雑になるにつれて、解釈しにくくなります。

分析と機械学習のベストプラクティス

分析および機械学習には、データ・ソース、アルゴリズム、評価指標などに関する一般的な共通のプラクティスがあります。以下では、分析と機械学習の両方の一般的なプラクティスを取り上げます。

  1. 問題と成功の指標の定義: 分析プロジェクトの目的とは何でしょうか。この単純な質問が、その後のすべての土台となります。どのような問題を解決しようとしているのかを知ることで、アルゴリズムやデータソースの選択などの意思決定はそこから派生していきます。これでスタート地点は決まりましたが、ゴール地点も決める必要があります。成功はどのように測定するのでしょうか。この2つの質問からプロジェクトの大枠が決まり、チームはそこから詳細を詰めていくことができます。
  2. 高品質でさまざまなデータ・セットの使用: プロジェクトの結果は、ソース・データの良し悪しで決まります。重複や非現実的な均一ソースなどの問題を抱えた低品質なデータセットは、良い場合でも結果を歪め、最悪の場合は誤った結論を導き、企業に時間、コスト、顧客の損失をもたらします。分析とAIの両方において、データセットは最新のものであり、実際の状況を反映し、関連性がありながらさまざまな見解をもたらすものである必要があります。
  3. 適切なアルゴリズムとモデル・アーキテクチャの選択: 機械学習技術は特定の目的のために開発されています。異常検知システムは、階層クラスタリングや オブジェクト識別システムとは異なります。ML手法の中には、より多くの処理能力を必要とするものもあり、よりシンプルなアプリケーションには向かない場合もあります。同様に、分析モデルにも最適な使用方法があります。データに対していくつかの異なるアルゴリズムを試し、そのパフォーマンスを比較する価値は十分にあり得ます。
  4. モデルの正規化および最適化: MLでは、モデルのトレーニングセットが製品の使用時に存在するようなさまざまな多様性を欠いている場合に、オーバーフィッティングが発生します。モデルが限られたデータ・セットで高度にトレーニングされている場合、そのトレーニング・セットとは異なる入力を解釈できないことがあります。正規化は、オーバーフィッティングを排除し、モデルをより一般的に適用可能にすることを目的としています。最適化は、モデルを繰り返しファインチューニングし、高い精度を確保します。
  5. 結果の明確な伝達:上記のプラクティスには、プロジェクトの技術的な要素が含まれています。しかし、成功への最大のカギとなり得る要素の1つである「結果の伝達」は、見落とされることがよくあります。チームは、モデルのファインチューニングやデータ・ソースの監査に集中し、主要なステークホルダーがプロジェクトの進捗状況を知る必要があることに気づかない場合があります。そのため、実用的な指標と、「調子はどうですか」という簡潔な評価による明確なコミュニケーションが必要なのです。

分析と機械学習のユースケースと活用例

分析と機械学習は実社会でどのように適用されるのでしょうか。データが存在する限り、いかなる業界の組織も分析と機械学習を統合することができます。実際、エンジニアリング、業務、マーケティング、営業など、さまざまな部門がさまざまな方法での活用が可能です。以下では、さまざまな業界や機能にわたる分析と機械学習のメリットを示すユースケース(PDF)のごく一部を紹介します。

  • マーケティング: マーケティング部門は、メールやソーシャルメディア投稿におけるエンゲージメントの追跡、購入履歴、アプリケーションの使用状況、閲覧行動など、あらゆる手段からデータを入手しています。その膨大な情報をどう活用するのでしょうか。機械学習システムは、特定のパターンを探すために情報をまとめ、個々の顧客とビジネス・ユーザーのセグメントの分析主導のプロファイルを構築することができます。そこからデータに基づく意思決定を行うことで、マイクロターゲットの提供や人口統計による季節的エンゲージメントなど、さらなる戦略を実施することができます。
  • 財務: 組織全体にわたりデータが統合されると、財務部門は機械学習を使用して膨大なデータをまとめ、分析で読み解くことができます。その結果得られるデータドリブンなインサイトは、キャッシュフロー、給与動向、資産購入パターンなど、重要な要素を詳しく調べることができます。分析は、トレンド検出やモデルベースの予測を通じて新たなレベルのインサイトを導き出すとともに、不正検出も支援します。
  • 医療: 電子カルテ、コネクテッド・デバイス、施設の運用指標の間で、機械学習と分析は、医療機関が運用を最適化し、より優れた個別ケアを提供できるよう連携して支援することができます。業務では、季節や天候などの要因によって引き起こされる実績のある利用サイクルに基づいて、人員配置をスケールアップしたりスケールダウンできます。個人に対しては、データドリブンなインサイトにより、特定の検診や 期待できる新しい治療の予約のタイミングを知らせることができます。
  • ロボット工学:製造サイクルから最終製品の使用に至るまで、ロボット工学のほぼすべての用途でデータを生成します。最終製品については、温度センサー、CPUの使用状況、機械的なジョイントやモーターなどのソースからデータが得られます。分析は、その膨大なデータを活用し、製造メーカーやモーターのメンテナンスなど、生産のあらゆる側面を最適化し、最終的にメンテナンス・コストを削減することを目指します。
  • 経済: 機械学習は経済研究や分析に様々なメリットをもたらす可能性があります。最もシンプルな方法は、大量のデータを処理して可視化することです。一方で、経済アナリストはテキストベースのセンチメントなどの関連データポイントを調査するために機械学習を利用して、特定の発見の方法と理由ついて、より大きな背景を明確化しています。

オラクル: 分析と機械学習を使用したビジネス強化の支援

データ・サイエンティストにとって十分に強力でありながら、ビジネス・ユーザーにとっては十分に直感的なOracle Analyticsシステムは、機械学習と統合した強力な機能を提供します。Oracle Analytics製品を使用すると、自然言語処理によるデータ分析、コーディング不要のインターフェイスによる可視化、AIによるワンクリックでのインサイトを実現できます。オラクルは、コード不要やAutoML型の機能を含め、データ・アクセスとAI/MLアクセスの民主化を実現しながら、情報が文脈に沿って表示されるよう支援します。

機械学習と分析は、ビジネスを変革し、イノベーションを推進する計り知れない可能性を提供します。データの力を活用し、高度な技術を活用することで、組織は価値あるインサイトを獲得し、データに基づく意思決定を行い、競争上の優位性を獲得できる可能性があります。テクノロジーが継続的に進化するにつれ、機械学習と分析のためのアプリケーションは拡大する一方であり、あらゆる規模のビジネスにエキサイティングな機会を提供します。

データとAI : CIOを成功に導くためのガイド

ビジネスの成功にとってデータがいかに基本的なものであるかを考えると、CIOにはMLと分析の戦略が必要です。

機械学習と分析に関するFAQ

MLと分析の違いを教えてください。

機械学習とは、大規模なデータセットを評価してパターンを特定し、予測モデルを構築するプロセスであり、小規模な自動化タスクであれ、クリティカル・シンキングを必要とする大規模で複雑なプロセスであれ、その目的は同じです。分析とは、データと統計を体系的に分析するサイエンスを指します。分析では、データモデルを生成するために機械学習を統合することで利益を得ることができますが、意図的に一緒に使用しない限り、この2つの概念は別々に存在します。現在のビジネスでは、MLと分析を組み合わせることで、組織を成功に導くことができます。

機械学習を用いた分析にはどのような種類がありますか。

通常、分析プラットフォームが機械学習をサポートし、データ・リポジトリに適切に連携されていれば、どのような種類の分析でも機械学習を使用できます。機能的には、ほぼすべての分析プロジェクトが、機械学習を使用してデータ処理プロセスを迅速化することでメリットを得ることができます。

ビジネスの予測に機械学習と分析を使用する方法を教えてください。

分析は、履歴データを処理し、販売サイクル、市場動向、顧客行動、さらには製造プロセスなどのパターンを特定することで、組織がビジネス予測を行なえるよう支援します。これらのいずれかに予測的なインサイトがあれば、組織は、より優れたビジネスの成果を得るために、発見事項を最大限に活用する意思決定を行うことができます。

組織はどのようにして機械学習と分析のプロジェクトを成功させることができるでしょうか。

機械学習と分析のためのプロジェクトでは、次のようなプラクティスを考慮することで、プロジェクトを成功に導くことができます。

  • 両方の場合: 高品質なデータソースを使用します。
  • 分析の場合:データ・エンジニアが、使用前にモデルとデータが基準を満たしていることを確認します。
  • 分析:プロジェクトの目標と現実的なリソースのバランスが最適な手法を選択します。
  • 機械学習の場合:オーバーフィッティングや アンダーフィッティングなどの問題に対するトラブルシューティングを行います。
  • 機械学習の場合: モデルの導入後の継続的モニタリングにより、さらなる修正や調整が必要かを確認します。