Michael Chen | コンテンツ・ストラテジスト | 2024年7月17日
教師あり学習は機械学習の一形態で、ラベル付きデータセットを使用してアルゴリズムをトレーニングします。教師あり学習を使用することで、ラベル付きのデータセットにより、アルゴリズムは入力と出力の関係を決定することができます。アルゴリズムがトレーニング・データを通して作業するにつれて、最終的に予測モデルを改善したり、自動ワークフロー中の意思決定に情報を提供できるパターンを識別します。要するに、ラベル付きデータセットは、構造化された教室での学生のように、アルゴリズムが学習するための例として機能します。
教師あり学習は、さまざまなミッションや状況にとって理想的な選択ですプロジェクト・データに明確に設定された目標がある場合、教師あり学習は、アルゴリズムがパラメータや目標なしにラベル付きではないデータセットを取り込み、データ内のパターンや関係を独自に判断する教師なし学習を使用する場合と比較して、チームによるより短期間での終了を支援します。教師あり学習では、ラベル付きデータセットがアルゴリズム・トレーニングの道標として機能します。
また、他の形式の機械学習と比較して、教師あり学習アルゴリズムのトレーニングは、特徴や結果などの既知の量を処理できるという利点があります。標準的な指標により、トレーニング担当者はプロジェクトの現状を具体的に理解することができるため、レビュー・プロセスをスピードアップすることができます。
教師あり学習によって、組織は複数のメリットを得ることができます。ビッグデータを効率的に処理する機能を統合することで、組織はパターンとインサイトをより迅速に特定し、よりタイムリーな意思決定に役立てることができます。さらに、教師あり学習アルゴリズムは、タスク自動化の取り組みを支援し、ワークフローを改善および高速化する可能性があります。たとえば、メーカー運用の機械学習アルゴリズムは、過去のデータセットを使用してトレーニングを行い、さまざまな機器の一般的なメンテナンス・サイクルを特定することができます。その後、システムはそのナレッジを、ツールの使用状況とパフォーマンスを追跡するセンサー・データからのリアルタイム・データに適用します。アルゴリズムは、摩耗の兆候にフラグを立てたり、重要な部品の寿命を警告して、ツールの不具合で生産ラインが停止する前に交換を発注することができます。
教師あり機械学習は、明確かつ一貫して識別された入力と出力を持つ、ラベル付きトレーニング・データセットをキュレーションすることから始まります。アルゴリズムはこのデータを取り込んで関係を学習し、その学習により予測のための数学的モデルを導き出します。トレーニング・プロセスは繰り返し行われ、モデルが望ましい精度を達成するまでアルゴリズムを改善します。その時点で、異なるデータセットを使用してモデルを評価し、ライブ・データですぐに機能するかを確認することができます。
教師あり学習アルゴリズムは通常2つのカテゴリに分類されます。
分類:分類アルゴリズムはデータを取り込み、入力を分類された出力に置き換えます。たとえば、不正検出のための金融アルゴリズムは、クレジット・カードの顧客の購入履歴を調べ、そのデータを使用して、新しい取引が正当なものである可能性が高いか、今後の不正検査のためにフラグを立てる必要があるかを判断します。
回帰:アルゴリズムは、新しい入力に対して数学的予測を行うことができるように、ラベル付きトレーニング・データセットを使用して、入力と出力間の最適な関係を識別します。たとえば、天候アルゴリズムでは、季節、最近の傾向、過去のパターン、現在の環境指標などの変数を取り込んで予測結果を作成することができます。
教師あり学習は実績のある効果的な機械学習アプローチですが、いくつかの課題があります。チームは、教師あり学習の導入を決定する前に、以下の問題を確認する必要があります。
モデルの選択:教師あり学習のアルゴリズムは、複雑さとリソース集約度の点で幅があります。たとえば、意思決定木(基本的には、判断点と起こりうる結果のフローチャート)は、軽いフットプリントで実行することができますが、複雑な領域で厳密な正確さを実現する機能には欠けています一方、ディープ・ニューラル・ネットワークは、トレーニングにも本番にもはるかに多くのリソースを必要としますが、最終的には正確な予測やそれ以上のことができるようになります。適切なバランスを見つけることがプロジェクト成功のカギです。
トレーニング・データの品質:どのような機械学習プロジェクトでも、質の高いソースからのクリーンなデータが必要です。教師ありのトレーニング・データの場合、具体的に、トレーニングに使用される他のソースと互換性がある、正確で一貫性のあるラベリングが施されたデータを意味します。トレーニング・データセットが互換性のある形式でない場合、トレーニングの前にデータ統合と変換技術を適用する必要があり、時間とコストがかかります。
プロジェクトの制約の把握: 予算、トレーニング環境のリソース、期限などの要因によって、機械学習プロジェクトの実現を左右する実際の制約が生じる可能性があります。これらの制約はアルゴリズムの選択に影響を与える可能性があるため、チームは開始前にパラメータを特定する必要があります。
結論として、ラベル付きデータセットが利用可能なプロジェクトには、教師あり学習が適切な機械学習アプローチになることがあります。それ以上に、アルゴリズムが正しい結果と誤った結果の例でトレーニングできるような、不正検出やスパム検出のように、識別されたパターンに基づく正確な予測や意思決定を目標とする場合に、教師あり学習が最も効果的に機能することを理解する必要があります。最後に、決定木や線形回帰など、さまざまなタイプの教師あり学習モデルを理解することで、これが特定のプロジェクトに適したアプローチで あるかがわかります。
どのAIユースケースが教師あり学習に最適なのでしょうか。このeBookでご確認ください。
教師あり学習アルゴリズムの例を教えてください。
教師あり学習アルゴリズムの例には、患者の電子健康記録に基づいて病状の可能性を予測するモデルの作成があります。モデルは、症状、年齢、検査結果、既往症などの要因を使用して、ラベル付きの一連の患者データセットをトレーニングします。これにより、システムは患者のデータを取り込み、未診断の病状に適合しそうなものがあれば特定し、詳しく調べるよう促します。
教師なし学習の例を教えてください。
教師あり学習とは異なり、教師なし学習アルゴリズムはラベルのないデータセットを使用してトレーニングされます。教師なし学習の目標は、アルゴリズムがデータを探索し、自力でパターンを識別できるようにすることです。この結果得られたモデルは、受信データに適用できます。教師なし学習の例としては、顧客の使用履歴や購入履歴の大規模なデータセットのパターンを利用して、マーケティングのために顧客をグループに分類できる、カスタマー・セグメンテーション・モデルがあります。
CNNは教師あり、教師なしどちらでしょうか。
畳み込みニューラル・ネットワーク(CNN)は、自然言語処理などの類似モデルを使用するアプリケーションに加えて、画像や動画解析などの目的でラベル付きデータセットをトレーニングする教師あり学習手法です。CNN は複数のレイヤーを使用して、機能/使用の識別や分類の適用などのタスクを分離し、コンピュート・リソースを最適化します。