Michael Chen | 內容策略師 | 2024 年 11 月 25 日
近年來,機器學習已成為家喻戶曉的術語,從科幻概念發展為驅動企業和組織處理資訊的關鍵技術。隨著資料創建速度持續呈指數級增長,機器學習工具對於希望發現模式、梳理趨勢和規劃最具獲利能力的發展路徑的組織至關重要。
機器學習有多普及?如果您曾點擊過電子商務網站或串流平台的推薦、收到信用卡可能被濫用的通知,或使用過轉錄軟體,您就已經受益於機器學習。機器學習被廣泛應用於金融、醫療、行銷、零售及許多其他領域,用來從資料中提取有價值的洞見並自動化流程。
機器學習 (Machine learning, ML) 是人工智慧的一個子領域,專注於建立隨著資料的增加而學習與進步的系統。人工智慧是一個更廣泛的術語,指能模擬人類智慧的系統及機器。機器學習和 AI 經常一起討論,而且有時這兩個詞能通用,但它們並不指稱相同的事物。
簡而言之,所有的機器學習都是人工智慧,但並非所有的人工智慧都是機器學習。
重點精華
機器學習是一種技術,透過搜尋大量資料集來發現資料中以前未知的關聯,從而發現超越簡單統計分析的模式和趨勢。機器學習使用先進的演算法來識別資料中的模式,並建立模型。這些模型可以用來進行預測和資料分類。
請注意,演算法與模型不同。演算法是一組解決特定問題或執行某項任務的規則和步驟,而模型則是將演算法應用於資料集後的輸出或結果。
訓練前,您擁有的是演算法;訓練後,您擁有的是模型。
舉例來說,機器學習在醫療領域的應用非常廣泛,包括醫學影像分析、預測分析和疾病診斷。機器學習模型非常適合分析醫學影像,如 MRI 掃描、X 光片和CT 掃描,以識別模式並偵測可能無法用肉眼察覺的異常,或是那些過勞的診斷人員可能會錯過的情況。機器學習系統也能分析症狀、基因資訊和其他病人資料,以建議進一步檢測癌症、糖尿病和心臟病等疾病。
機器學習的主要功能包括:
機器學習有四種主要類型,每種方法各有優勢與局限,因此選擇適合當前任務的方式非常重要。
強化機器學習 像非監督式學習一樣,使用未標註的資料集並讓演算法對資料進行評估。然而,強化學習的不同之處在於,它朝著既定目標前進,而不是探索資料來發現可能存在的模式。有了明確的目標後,演算法會進行試錯過程。每一步都會收到正面、負面或中立的回饋,演算法利用這些回饋來改善其整體決策過程。強化學習演算法可以在宏觀層面上朝著專案目標邁進,即使這意味著需要承受短期的負面後果。因此,強化學習比其他方法能夠處理更複雜、更動態的情況,因為它讓專案目標影響決策的風險。教導電腦下棋就是一個很好的例子。總體目標是贏得棋局,但這可能需要在過程中犧牲棋子。
哪一種方法最適合您的需求?選擇監督式方法或其他三種方法通常取決於資料的結構與規模、可用的預算與訓練時間,以及您希望應用最終模型的使用情境。建議將襯衫與裙子搭配,這可能無關緊要;但如果未發現腫瘤,那就大不相同了。
機器學習正如其名,透過建立基於電腦的統計模型,藉由評估訓練資料來針對特定目的進行優化,而非採用傳統方法,由程式設計師開發靜態演算法來解決問題。機器學習模型處理資料集後,會根據準確度來評估結果,讓資料科學家透過一系列預設變數 (稱為超參數) 和演算法調整變數(稱為學習參數) 來調整模型。
由於演算法會在評估訓練資料時進行調整,處理新資料的過程讓演算法能夠變得更加精確。演算法是專案中的計算部分,而「模型」則是經過訓練後,可以應用於實際案例的演算法。
機器學習專案的範圍、資源和目標將決定最適合的執行路徑,但大多數專案都涉及一系列的步驟。
1.收集和編譯資料
訓練機器學習模型需要大量高品質的資料。找到這些資料有時會很困難,若需要標註資料,則可能會非常消耗資源。確定潛在的資料來源後,需評估其整體品質並與專案現有的資料整合/儲存資源進行對比,這些來源構成機器學習專案的訓練基礎。
2.選擇適合的演算法來產生所需的模型
根據專案是否計畫使用監督式、非監督式或半監督式學習,資料科學家可以選擇合適的演算法。例如,對於簡單的專案,若資料集已標註,可以使用決策樹;而聚類分析 (將資料樣本分組為相似物件) 則需要更多的運算資源,因為演算法在非監督模式下運行,必須找出達成目標的最佳路徑。
3.調整和準備資料以進行分析
傳入的資料通常無法直接使用。資料準備包括清理資料集,確保在訓練過程中能夠輕鬆擷取所有記錄。準備工作包括一系列的轉換任務,例如建立日期和時間格式、根據需要合併或分開欄位,以及設定其他格式參數,例如實數資料中可接受的有效數字。其他關鍵任務包括清理重複紀錄 (亦稱為刪除重複資料),以及識別並可能移除異常值。
4.透過訓練來教育模型
選擇所需的最終模型後,訓練過程就會開始。在訓練過程中,經過標註或未標註的精選資料集都會被輸入到演算法中。在初期的運行中,結果可能不理想,但資料科學家會根據需要進行調整,以改善效能並提高準確度。接著,演算法會再次接收資料,通常會使用更多的資料來進行更精確的調整。演算法接觸到的資料越多,最終模型在達成預期結果上就會越精準。
5.評估模型效能與準確性
當模型訓練到足夠的準確度後,就可以用先前未見過的資料來測試其表現。通常,測試所用的資料是從訓練資料中分出的一部分,會在初步訓練後使用。
6.微調並增強模型參數
此時,模型應該已經接近可以投入使用。使用測試資料集運行應該能產生非常準確的結果。透過使用特定資料 (通常是公司營運所特有的資料) 進行額外訓練來進一步增強,以補充原始培訓中使用的通用資料。
7.啟動模型
當結果達到最佳狀態後,模型就準備好在正常生產環境中處理先前未見過的資料。當模型上線後,專案團隊會收集有關模型在現實情境中表現的資料,這可以透過監控關鍵績效指標來進行,例如準確度 (模型預測的整體正確性) 和召回率 (正確預測的正面觀察比率)。同時,也要考慮模型的預測如何影響業務結果。例如,它是否在提高銷售或改善診斷方面創造價值?
定期審核與檢討模型的表現,有助於識別部署後可能出現的問題或偏差,這對確保模型有效運作並達成預期目標至關重要。
演算法是機器學習專案中的計算部分。演算法經過訓練後會生成模型,並以統計概率來回答問題或達成目標。這個目標可能是識別影像中的某些特徵,例如「找出所有的貓」,或者是發現資料中的異常,這些異常可能表示詐騙、垃圾郵件或機器故障問題。還有一些演算法可能試圖進行預測,例如根據目前購物車中的商品,推測買家可能會喜歡哪些衣物。
以下是機器學習中最常用的演算法:
神經網路之外
機器學習使用了各式各樣的演算法。除了上述討論的熱門演算法,以下是五個較少見但仍然有用的演算法。
梯度提升法 (Gradient boosting) | 依序建立模型,重點在於修正先前的錯誤,對於詐騙與垃圾郵件偵測特別有效。 |
K近鄰法 (K-nearest neighbors, KNN) | 簡單但高效的模型,根據訓練資料中最接近的標籤對資料點進行分類。 |
主成分分析 (Principal component analysis, PCA) | 透過識別最重要的特徵來降低資料的維度,對於資料可視化和壓縮 (例如異常偵測) 非常有用。 |
Q學習 (Q-learning) | 透過代理反覆試驗,對正確行為給予獎勵,對錯誤行為給予懲罰。 |
支援向量機 (Support vector machines, SVM) | 創建超平面來有效地將屬於不同類別的資料點區分開,常用於圖像分類等應用。 |
機器學習讓企業能夠從資料中提取洞察,這些是透過其他方式可能無法發現的。將機器學習整合至流程中所帶來的主要優勢如下:
機器學習專案的成效,取決於其所建立的系統與資源。因此,這強調了在適當規劃與準備方面進行投資的必要性。
以下是機器學習專案中常見的挑戰:
機器學習可以為幾乎所有產業及企業內的各個部門帶來顯著的效益。只要有資料,機器學習便能提供提升效率及打造新互動的方式。各行各業中常見的機器學習應用範例包括:
Oracle Database 中的機器學習提供一系列功能,能夠加速機器學習流程。透過將資料保持在資料庫內,資料科學家可以簡化工作流程並提高安全性,同時利用超過 30 種內建的高效能演算法、支援 R、SQL 和 Python 等熱門語言、自動化機器學習功能,以及無需編碼的介面。
對於擁有大量資料的企業, HeatWave MySQL 中的資料庫內機器學習可避免將資料轉移至其他系統進行機器學習,這樣不僅能提高安全性、降低成本,還能節省時間。HeatWave AutoML 自動化機器學習生命週期,包括演算法選擇、用於訓練的智慧資料採樣、功能選擇和調整,通常有助於節省更多時間和精力。
機器學習的最大價值在於能快速且準確地分析與解釋大量資料。訓練完成後,機器學習模型可以在幾秒鐘或幾分鐘內識別出趨勢、模式與洞察,這些是人類可能需要數週才能發現的,甚至是永遠無法察覺的。最終的結果是帶來更明智的決策、提升解決問題的能力,以及能夠進行資料導向預測。此外,機器學習模型還可以自動化重複過程,節省時間與資源。機器學習正在釋放其潛力,推動工作場所革新及創新。
機器學習是釋放資料價值的關鍵,也是成功人工智慧計畫的第一步。
人工智慧與機器學習有何不同?
人工智慧 (AI) 是指一個廣泛的運算領域,專注於構建和完善像人類思考的系統;機器學習 (ML) 則是這一領域的子集,專注於學習過程中的運算方面。這兩個術語常常互換使用,也面臨類似的挑戰,但儘管如此,它們仍然是獨立的領域。
機器學習的四大主要類型是什麼?
機器學習的四種類型如下:
學習機器學習難嗎?
像任何技術領域一樣,學習機器學習的所有内容是一個需要時間與投入的反覆過程。學習機器學習的一個良好起點是掌握程式語言基礎,如 Python 或 R,同時也要掌握統計學概念。評估機器學習結果的許多元素需要瞭解統計學的基本概念,如迴歸、分類、擬合和參數等。
機器學習的範例是什麼?
常見的機器學習範例包括推薦引擎。在電子商務中,這表現為「您可能也喜歡...」的產品推薦。在視訊串流平台中,則顯示為推薦觀看的內容。在這些情況下,演算法會根據使用者的歷史記錄來預測使用者可能感興趣的內容,且隨著使用者提供更多資料,演算法能不斷優化預測。