Joseph Tsidulko | 資深撰稿人 | 2025 年 7 月 29 日
大型語言模型 (簡稱 LLM) 是一種日益普及的人工智慧類型,主要設計用於針對使用者透過文字、語音或其他方式提供的輸入,產生類似人類的回應。LLM 經過大量文字訓練,已學會根據提示提供的上下文預測下一個單字或字詞序列,甚至能夠模仿特定作者或體裁的寫作風格。
LLM 在 2020 年代初期走出實驗室,進入公眾視野並引發關注。從那時起,憑藉其詮釋使用者請求、並產生相關回應的驚人能力,它們已成為獨立產品及商務軟體中的內嵌增值功能,提供自然語言處理、機器翻譯、內容生成、聊天機器人、文件摘要等功能。
這項技術持續快速演進,整合更大的資料集,並增加更多訓練與調整層,使模型表現更佳。拜日益強大的運算基礎架構所支援的更廣泛且更深入的訓練所賜,其推理能力日益精細複雜,已可用於生成達成組織目標所需的計畫。這些推理能力也支撐著 AI 代理程式的功能,後者會利用進階 LLM 來完成人類操作員為其設定的任務。
大型語言模型是受過龐大資料集 (通常包含數十億個取自書籍、網路與其他來源的字詞) 訓練的 人工智慧系統,用於針對查詢產生類似人類、並與情境相關的回應。由於 LLM 的設計旨在理解問題 (在 LLM 術語中稱為「提示」) 並生成自然語言回應,因此可以執行回答客戶問題、摘要報告資訊、多國語言翻譯,以及創作詩歌、撰寫電腦程式碼與電子郵件初稿等任務。LLM 通常對其訓練語言的語法與語意有著深刻理解。它們可以設定為使用組織自有的資料,以提供該組織特有的回應。
儘管具備這些令人驚嘆的功能,使用者仍應留意 LLM 的限制。過時的資料與措辭不當的提示可能導致錯誤,例如聊天機器人對公司產品給出錯誤答案。資料不足則可能使 LLM 編造答案,或稱為「幻覺 (hallucinate)」。雖然 LLM 在預測方面表現出色,但歷來在解釋如何得出特定結論方面表現不佳。這些是較新型 LLM 尋求改進的領域。
儘管如此,LLM 仍標誌著自然語言處理領域的重大進展。其商業用途不計其數 - 新的應用程式正在迅速開發並獲得採用。
重點精華
自 1960 年代以來,自然語言處理一直是人工智慧研究的活躍領域,早期的語言模型甚至可以追溯到數十年前。大型語言模型透過部署深度學習推動了該領域的發展,也就是在神經網路上進行機器學習,以產生更精密複雜的模型。LLM 的另一個特性是,基礎模型的訓練是在沒有人為干預的情況下,以標籤資料的形式進行的,此過程稱為自我監督學習。
LLM 的現代概念誕生於 2017 年,Google 的一篇開創性論文描述了一種稱為轉換器網路 (Transformer networks) 的強大新架構。轉換器採用可實現平行處理的自我注意力機制 (Self-attention mechanism),從而加快了訓練與部署模型的速度,並降低了成本。OpenAI 採用此架構建立了 GPT-1,許多人將其視為第一個現代 LLM。
企業也注意到了這一點 - 他們正迅速發現 LLM 可以支援無數的使用案例,並提供巨大的潛力,協助其業務提高生產力、效率,並更靈活地回應客戶需求。
LLM 是透過機器學習流程開發的多種 AI 類型之一。然而,有幾個元素定義並區分了這些模型。其中最重要的,便是模型的大小。LLM 中的「大型」是指計算最終輸出結果的參數數量,以及透過調整這些參數來訓練模型所投入的資料量。
LLM 是許多先進類型應用程式的核心引擎。隨著 ChatGPT 問世 (OpenAI 的瀏覽器型 GPT-3.5 模型版本,以及包括 GPT-4o 與 GPT-4 在內的較新版本),普羅大眾已發現其令人驚嘆的功能。但 LLM 的優勢已延伸至整個企業範疇,目前正於金融服務、人力資源、零售、行銷與銷售、軟體開發、客戶支援及醫療照護等產業與業務部門中大展長才。
LLM 的熱門業務應用程式包括:客戶服務聊天機器人、客戶情緒分析,以及口語化且聽起來十分自然的情境式翻譯服務。LLM 也正在幕後執行更專業的任務,例如在藥物研究期間預測蛋白質結構、撰寫軟體程式碼,以及為企業爭相部署的代理程式提供支援,以實現業務流程自動化。
LLM 正被應用於不斷增加的業務使用案例中。例如,許多公司現在將聊天機器人作為其客戶服務策略的一部分。然而,得益於這些模型的多功能性,富有創意的企業軟體開發人員正在應用底層技術處理一系列廣泛的任務,而不僅僅是產生語言回應。
1. 客戶支援自動化
客戶支援是 LLM 在企業環境中最明顯的應用 - 特別是面向客戶的情境。由語言模型驅動的對話式使用者介面 (即聊天機器人) 可以全天候處理幾乎無限數量的諮詢。這能協助大幅縮短因客服中心人員負擔過重而產生的回應時間,而這正是客戶感到挫折的主要原因。
將聊天機器人與其他 LLM 驅動的應用程式整合,即可自動執行支援通話後的後續追蹤動作,例如寄送替換用的機器零件、文件或問卷調查。LLM 還可以直接協助人類專員,為其提供及時資訊、情感分析、翻譯及互動摘要。
一家在 50 多個國家、以 80 種語言運作的基金管理公司,已利用這些功能讓客戶更輕鬆地發掘並選擇最符合其需求的金融工具。這家專業的退休客戶管理公司透過自訂聊天機器人實現了客戶支援的現代化,使服務水準提升了 150%,且營運成本降低了 30%。現在,客戶可以隨時造訪該公司的網頁,以多種語言向聊天機器人詢問有關其帳戶的問題。
2. 內容生成與摘要
LLM 可以建立原創內容,也可以摘要現有內容。這兩種使用案例對於大型與小型公司都極其有用,這些公司正在利用生成式 AI 撰寫報告、電子郵件、部落格、行銷材料與社群媒體貼文,同時利用 LLM 的能力針對特定群體或個人客戶生成量身打造的內容。
摘要功能會對領域具有敏感性的情況下,將大量資訊濃縮成易於人類快速審閱與吸收的格式。LLM 達成此目標的方法有二:一是評估文字中各項概念的重要性,然後擷取關鍵段落;二是根據其認為原始文字中最相關且關鍵的資訊,產生簡單明瞭的概述。
LLM 有時會被批評為「摘要至平均水準」(summarizing to average),意指其摘要過於籠統,遺漏了原始材料的關鍵細節或強調重點。衡量摘要的可靠性,並據此對各個模型的表現進行排名,也十分具有挑戰性。儘管如此,企業仍熱情地採用這項功能。
一家領先的雲端通訊公司部署了 LLM,以自動摘要每天以近二十種語言產生的數百張支援工單與聊天記錄。這些摘要現在能協助支援工程師更快解決客戶挑戰,並提升整體體驗。
3. 語言翻譯
Google 開發轉換器的最初意圖,是讓機器在不同語言之間的翻譯表現得更好;直到後來,該模型廣泛的能力才讓開發人員印象深刻。這些開發人員對此架構的首次實作便達成了該目標,在英德翻譯方面有著無與倫比的表現,且模型所花費的時間與運算資源顯著低於其前代技術。
現代 LLM 已遠遠超越了這種有限的使用案例。儘管大多數 LLM 並未專門接受翻譯訓練,但當它們以兩種語言的資料集受過廣泛訓練時,便能精通於解譯一種語言的文字,並以另一種語言清晰地重述。這種打破語言障礙的突破性進展,對於跨境營運的企業極具價值。跨國公司利用進階語言服務來執行各項任務,例如為其產品與服務開發多語系支援;翻譯指南、教學課程與行銷資產;以及在擴展到新國家時,利用現有的教育資產來培訓員工。
多模態模型的進展
目前一個活躍的研究領域,是將 LLM 作為 AI 的基礎模型,以語言之外的模態產生輸出。LLM 具有令人印象深刻的多功能性,能夠使用標籤資料進行微調,進而解譯並建立音訊、影像,甚至影片。這些以語言之外的模態接收提示或產生輸出的模型,有時被稱為大型多模態模型 (Large Multimodal Models),簡稱 LMM。
環境考量
LLM 通常需要大量的運算能力,才能大規模開發與運作。在包含數百甚至數千個 GPU 的叢集上訓練單一模型數週,可能會消耗大量能源。一旦部署了成功的模型,執行推論的基礎架構會持續需要大量電力,用來處理持續的使用者查詢。
訓練 GPT-4 估計需要 50 吉瓦時 (gigawatt-hours) 的能源。相比之下,50 吉瓦時的能源理論上可以為 4,500 至 5,000 個美國一般家庭供電一年。現在,ChatGPT 估計每天消耗數百兆瓦時 (megawatt hours) 的能源來回應數百萬次查詢。隨著語言模型變得越來越大,對能源消耗與永續性的關注可能會變得更加迫切。因此,人工智慧公司正站在尋求替代能源以減少其碳足跡的最前沿。
Oracle 將 LLM 的強大功能交到企業手中,而且無需他們親自處理這項令人振奮的技術的細節問題 (或電力需求)。Oracle Cloud Infrastructure (OCI) 生成式 AI 是一項完全託管的服務,以客製化、高效且符合成本效益的方式簡化最新 LLM 的部署,同時避免管理複雜的基礎架構。企業可以從幾個基礎模型中進行選擇,然後使用其自有資料在專用 GPU 叢集上對其進行微調,產生最能滿足其業務需求的自訂模型。
希望對底層技術進行更多調整的企業,正在轉向使用 Oracle Database 中的機器學習。該平台透過簡化並自動化機器學習生命週期的關鍵元素,使資料科學家能夠快速建置模型,而無需從其 Oracle 資料庫遷移敏感資料。功能包括熱門的機器學習架構、API、自動化機器學習 (AutoML) 與無程式碼介面,以及超過 30 種高效能資料庫內演算法,用於產生應用程式中使用的模型。
許多領先組織也利用 Oracle AI infrastructure 來建置其自有的 LLM。AI 基礎架構是支撐更高階 AI 服務 (例如 OCI 生成式 AI) 的基礎,適用於對加速運算、網路和儲存體有著最嚴苛要求的 LLM。
LLM 推動企業營運與客戶互動方式轉型的潛力如此巨大,以至於該技術的新突破與投資可以推動全球市場,並撼動企業策略。然而,商業與 IT 領導者不能盲目跟風,而是必須瞭解 LLM 運作的基本原理,以及其限制與採用挑戰 - 即使他們正努力識別可能從該技術中獲得的許多實質效益。
LLM 是許多改變遊戲規則的技術背後的推手,這些技術正在改變我們的工作方式。
大型語言模型如何針對特定應用程式進行微調?
LLM 針對特定應用程式進行微調的方法,是在採用自我學習來開發基礎模型的初始預先訓練階段之後,使用較少量但更特定領域的標籤資料,進行監督式學習階段。
哪些產業從使用大型語言模型中獲益最多?
幾乎每個產業都在發掘 LLM 的優勢。從醫療照護、金融服務到零售業,各行各業都在探索各種圍繞改善客戶支援與自動化業務流程的使用案例。
大型語言模型可以與企業系統整合嗎?
大型語言模型通常透過以下方式與企業系統整合:使用企業資料微調基礎模型,並透過檢索增強生成以專有資料擴增這些模型。