什麼是大型語言模型?

Joseph Tsidulko | 資深撰稿人 | 2025 年 7 月 29 日

大型語言模型 (簡稱 LLM) 是一種日益普及的人工智慧類型,主要設計用於針對使用者透過文字、語音或其他方式提供的輸入,產生類似人類的回應。LLM 經過大量文字訓練,已學會根據提示提供的上下文預測下一個單字或字詞序列,甚至能夠模仿特定作者或體裁的寫作風格。

LLM 在 2020 年代初期走出實驗室,進入公眾視野並引發關注。從那時起,憑藉其詮釋使用者請求、並產生相關回應的驚人能力,它們已成為獨立產品及商務軟體中的內嵌增值功能,提供自然語言處理、機器翻譯、內容生成、聊天機器人、文件摘要等功能。

這項技術持續快速演進,整合更大的資料集,並增加更多訓練與調整層,使模型表現更佳。拜日益強大的運算基礎架構所支援的更廣泛且更深入的訓練所賜,其推理能力日益精細複雜,已可用於生成達成組織目標所需的計畫。這些推理能力也支撐著 AI 代理程式的功能,後者會利用進階 LLM 來完成人類操作員為其設定的任務。

什麼是大型語言模型?

大型語言模型是受過龐大資料集 (通常包含數十億個取自書籍、網路與其他來源的字詞) 訓練的 人工智慧系統,用於針對查詢產生類似人類、並與情境相關的回應。由於 LLM 的設計旨在理解問題 (在 LLM 術語中稱為「提示」) 並生成自然語言回應,因此可以執行回答客戶問題、摘要報告資訊、多國語言翻譯,以及創作詩歌、撰寫電腦程式碼與電子郵件初稿等任務。LLM 通常對其訓練語言的語法與語意有著深刻理解。它們可以設定為使用組織自有的資料,以提供該組織特有的回應。

儘管具備這些令人驚嘆的功能,使用者仍應留意 LLM 的限制。過時的資料與措辭不當的提示可能導致錯誤,例如聊天機器人對公司產品給出錯誤答案。資料不足則可能使 LLM 編造答案,或稱為「幻覺 (hallucinate)」。雖然 LLM 在預測方面表現出色,但歷來在解釋如何得出特定結論方面表現不佳。這些是較新型 LLM 尋求改進的領域。

儘管如此,LLM 仍標誌著自然語言處理領域的重大進展。其商業用途不計其數 - 新的應用程式正在迅速開發並獲得採用。

重點精華

  • 大型語言模型是自然語言處理領域的頂尖技術,也正被應用於開發可生成音訊與影像的多模態 AI。
  • 「大型」是一個相對詞彙,指的是模型在決定任何給定提示的輸出時,所評估的參數數目。
  • LLM 在 2022 年隨著 ChatGPT 的發佈而聲名大噪,這款應用程式讓 OpenAI 的 GPT-3.5 模型可供一般大眾使用。其他熱門模型包括 Llama、Gemini 和 Cohere Command R。

大型語言模型解析

自 1960 年代以來,自然語言處理一直是人工智慧研究的活躍領域,早期的語言模型甚至可以追溯到數十年前。大型語言模型透過部署深度學習推動了該領域的發展,也就是在神經網路上進行機器學習,以產生更精密複雜的模型。LLM 的另一個特性是,基礎模型的訓練是在沒有人為干預的情況下,以標籤資料的形式進行的,此過程稱為自我監督學習。

LLM 的現代概念誕生於 2017 年,Google 的一篇開創性論文描述了一種稱為轉換器網路 (Transformer networks) 的強大新架構。轉換器採用可實現平行處理的自我注意力機制 (Self-attention mechanism),從而加快了訓練與部署模型的速度,並降低了成本。OpenAI 採用此架構建立了 GPT-1,許多人將其視為第一個現代 LLM。

企業也注意到了這一點 - 他們正迅速發現 LLM 可以支援無數的使用案例,並提供巨大的潛力,協助其業務提高生產力、效率,並更靈活地回應客戶需求。

LLM 與其他 AI 模型的比較:效率和可擴充性

LLM 是透過機器學習流程開發的多種 AI 類型之一。然而,有幾個元素定義並區分了這些模型。其中最重要的,便是模型的大小。LLM 中的「大型」是指計算最終輸出結果的參數數量,以及透過調整這些參數來訓練模型所投入的資料量。

  • 大小與效能:LLM 是依模型大小定義的,這反映了決定其輸出的參數數量。領先的模型在短短幾年內呈指數級增長:GPT-1 僅有超過 1 億個參數;其最新的繼任者 GPT-4 據推測擁有超過 1.75 兆個參數,儘管 OpenAI 尚未透露其真實大小。

    通常情況下,模型的規模愈大、訓練集愈廣泛,其在產生獨特且相關回應方面的表現就愈好,更能熟練地模仿人類的理解與語言生成能力。效能可以透過困惑度 (Perplexity) 來衡量,這是一個量化模型在預測其輸出序列中的下一個單字時具備多少信心的指標。

    較大的模型越大,表現通常也越出色,但並非在各方面都如此。其潛在缺點可能包括較高的延遲 (即模型針對提示產出答案所需的時間),以及由於所需的運算基礎架構而導致難以擴展規模。對於特定的企業使用案例,這些模型也較難進行自訂。因此,目前已經有人投入顯著的努力開發較小型的 LLM,這些模型在部署上更經濟實惠,同時仍能保持良好的表現,至少在較有限的領域與使用案例中是如此。
  • 可擴充性與部署:LLM 可透過幾種不同方式部署。商業供應商 (如 OpenAI、Google 與 Cohere) 會透過瀏覽器、應用程式或 API 呼叫,以託管服務的形式提供其模型。然而,許多企業更傾向於在本機伺服器或其公有雲環境中部署自有的 LLM (通常是經過微調或利用專有業務資料增強的基礎模型,或兩者兼具),並在這些環境中執行模型的推論階段。個人與軟體隨後透過直接呼叫或 API 端點,與其進行互動。

    無論採用何種部署方法,LLM (特別是可供一般大眾或大量員工存取的模型) 都需要能夠擴展規模以滿足預期需求,同時又不會超出企業預算。這種擴充規模的經濟效益涉及權衡取捨。能夠改善可擴充性的措施 (例如更強大的推論基礎架構、分散式運算,以及有效的負載平衡與快取) 全都需要付出成本。若未能在成本和效益之間取得正確平衡,可能會導致延遲而損害即時執行應用程式的能力、效能不一致、員工採用速度緩慢,以及資料隱私權與安全性措施不足。
  • 領域適應性:最佳的基礎模型可整合高階抽象、抽象的資料,並在輸出中展現創意。一旦選擇了具備合適能力與功能的基礎模型,就可以透過微調進一步提升在專業領域與使用案例中的表現。此監督式學習階段能讓 LLM 適應預期的領域,而無需從根本上重新訓練基礎模型。

    在模型開發的初始訓練與微調階段,透過強調各領域間共有特性的資料來對齊特徵分布,也是一種提高領域適應性的有效方法。

    大型語言模型圖表
    此圖表展示了大型語言模型如何學習並進行預測。在訓練階段,模型會先學習模式。接著進入推論階段,模型會在此階段處理新資料,以產生洞察力或預測。
    LLM 是一種語言生成 AI,它會套用經過廣泛訓練的神經網路來評估並回應提示。所謂的「大型」並沒有明確定義的門檻 - 隨著模型變得更精細、運算能力 (特別是對 GPU 叢集的存取) 更強大,符合這項屬性的標準也會不斷提高。

    在訓練開始之前,語言會被轉換為符記,也就是電腦可以理解的單字、或部分字母與語音的數值表示。

    接著會選擇一種演算法 (包括廣泛的電腦神經網路) 與資料集,進行自我監督學習。在訓練階段,演算法會調整其數十億甚至數兆個參數,以準確預測序列中的下一個符記,直到模型對提示做出適當回應。因此,模型的參數會包含在訓練階段獲得的學習成果。
  • 核心轉換器架構:轉換器是概念上的一大躍進,並引領了目前圍繞 LLM 與生成式 AI的熱潮。「轉換器架構」由 Google 研究人員於 2017 年在一篇開創性論文中提出,它悖離了以往建立語言模型的方法。轉換器並非嚴格依賴稱為遞迴 (Recurrence) 的過程 (涉及一系列連續的輸入與輸出),而是實作了一種稱為「自我注意力」的機制,在處理句子時同時考慮多個字詞之間的關係 - 即使是那些在文字流中彼此相距甚遠的字詞。它透過建立三種不同的向量來實現這一點:一個用於考慮中的字詞,另一個用於周圍字詞以確立它們對於理解該字詞的重要性,第三個向量則代表該字詞包含的資訊。第三個向量會有不同的值,具體取決於該字詞的語境。例如,「blue」可能代表顏色,但也可能用來反映一個人的情緒,或可能表示一種靈光乍現的情況,如「the thought came to her out of the blue」(這個想法突然浮現在她腦海中)。

    以這段文字字串為例:
    「你感覺如何?」她問。

    「我不確定。」他回答。「今天我真的無法投入工作,而且這種情況已經持續一段時間了。我只是感到很 blue (憂鬱)。」

    在自我注意力成為過程的一部分之前,演算法無法捕捉到「感覺 (feeling)」與「憂鬱 (blue)」之間的關係,因此很可能產生誤解。自我注意力提供了一種方法來確定這兩個字詞之間連結的重要性,儘管它們在字詞序列中並不靠近。

    此外,透過使用自我注意力,模型可以同時針對大量資料進行平行訓練,基本上是一次處理整個句子,而不是逐字處理。如此便能進一步利用 GPU 的能力。轉換器還可以同時分析來自提示的符記,以更快地提供答案,並更好地解決歧義。
  • 訓練與微調:基礎模型是目前的主力 LLM,使用大量語料庫 (通常提取自網際網路與其他書面資訊儲存庫) 進行訓練。這種自我監督學習區間 (其中數十億個參數被迭代調整) 所產生的成功模型,通常擅長提供通用化的輸出:跨語境建立文字、理解不同語氣的語意,以及呈現複雜甚至抽象的概念。

    基礎模型可以透過微調來提高其準確度,並在最佳化其在特定的領域 (例如醫療照護或金融) 或使用案例 (例如翻譯或摘要) 中的表現。微調流程始於基礎模型,隨後使用更小、更精確的標籤資料集進一步訓練最終的 LLM,以磨練其處理對特定業務部門或應用程式有用之特定任務的能力。
  • 模型與可擴充性的重要性:最後,LLM 開發人員會決定要透過其演算法訓練的參數數量,以及有效執行訓練所需的資料量。參數數量愈多,產出的模型就越精密複雜,且通常越能提供獨特、準確且相關的輸出結果。然而,卓越的表現也伴隨著更高的訓練與營運成本 - 以及在模型訓練完成後,擴展規模以服務更多使用者所面臨的挑戰。

    任何 LLM 部署的可擴充性,部分取決於模型的品質。AI 開發人員選擇的訓練演算法、模型架構與資料集,皆會影響其基礎模型如何最佳化記憶體、處理器與能源等資源的耗用,以執行其預期功能。

    目前也湧現了多項新技術,用於縮減模型大小與訓練資料語料庫,這能在不顯著影響 LLM 表現的情況下,降低擴展規模的成本與難度,特別是當 LLM 用於較特定的使用案例時。

大型語言模型的優勢與應用

LLM 是許多先進類型應用程式的核心引擎。隨著 ChatGPT 問世 (OpenAI 的瀏覽器型 GPT-3.5 模型版本,以及包括 GPT-4o 與 GPT-4 在內的較新版本),普羅大眾已發現其令人驚嘆的功能。但 LLM 的優勢已延伸至整個企業範疇,目前正於金融服務、人力資源、零售、行銷與銷售、軟體開發、客戶支援及醫療照護等產業與業務部門中大展長才。

LLM 的熱門業務應用程式包括:客戶服務聊天機器人、客戶情緒分析,以及口語化且聽起來十分自然的情境式翻譯服務。LLM 也正在幕後執行更專業的任務,例如在藥物研究期間預測蛋白質結構、撰寫軟體程式碼,以及為企業爭相部署的代理程式提供支援,以實現業務流程自動化。

  • 跨應用程式的多功能性:LLM 是驅動多樣化且不斷增加的消費者端與企業級應用程式的核心技術。這種多功能性,源自於模型使用大型資料集進行自我訓練的過程。這讓 AI 變得十分擅長分析資料中的複雜模式,進而能夠生成相關且符合情境的輸出結果。

    先進的應用程式利用此特性執行各項任務,例如撰寫獨特的行銷文案與報告、衡量客戶情緒、摘要文件,甚至是產生與語言無關的輸出 (如影像與音訊)。AI 代理程式特別能體現 LLM 的多功能性,因為它們具備與環境互動的能力,且無需專業知識即可執行跨領域任務。

    透過監督式學習微調模型的過程,進一步擴展了可建置在生成式 AI 之上的業務應用程式範圍。此外,RAG 能讓 LLM 在企業環境中更具效益,因為它能整合可持續更新且無需變更底層模型的專有業務資料,進而提升輸出結果的準確度與相關性。
  • 強化客戶互動:LLM 很快就在客戶服務領域中證明了其實力。對任何體驗過 LLM 對話能力的人來說,這是一個顯而易見的使用案例 - 它能透過清晰、詳細且具參考價值的輸出結果,回答一個又一個微妙的問題。
    不過,
    LLM 還能透過聊天機器人以外的許多方式強化客戶互動。有些企業使用它們來產生發送給客戶的電子郵件、簡訊或社群媒體貼文,以解決產品、技術或銷售相關的問題。其他企業則讓 LLM 負責翻譯來自外語客戶的詢問。經過設定的 LLM 還可以協助銷售與支援專員 (包括人類與 AI 代理程式),為其提供具備行動參考價值的資訊與相關文件、摘要過往互動記錄、追蹤客戶並記錄互動過程。

    一家業務遍及 100 多個國家的全球頂尖專業服務公司,近期採用由 LLM 驅動的生成式 AI 應用程式,強化了其客戶關係管理能力。為了從客戶回饋問卷調查中獲得更多洞察,該公司部署了 LLM來分析這些回應中的情緒。現在,AI 可以突顯趨勢並提供廣泛的洞察結果,協助瞭解產品與服務的受歡迎程度以及如何改進。
  • 自動化和生產力:事實證明,LLM 在自動執行重複性任務方面極其有效,包括對早期 AI 模型而言,因決策過程過於複雜而無法處理的任務。這種自動化可以讓員工專注於需要創意與批判性思考的高階工作,進而提升生產力。

    代理程式是一項新興技術,處於利用 LLM 精密推理能力的前沿,能在極少的人力介入下引導工作流程。這些應用程式建置在基礎語言模型之上,旨在於企業環境中與人類及其他軟體互動時做出決策,並能自主執行各個領域的任務,產生需要審查或授權的行動通知,以確保監督到位。

    LLM 也正在以其他方式提升生產力,包括向企業領導者與其他決策者快速呈現相關資訊、為行銷人員建立文案草稿,以及與開發人員協作撰寫軟體程式碼。

大型語言模型的使用案例與範例

LLM 正被應用於不斷增加的業務使用案例中。例如,許多公司現在將聊天機器人作為其客戶服務策略的一部分。然而,得益於這些模型的多功能性,富有創意的企業軟體開發人員正在應用底層技術處理一系列廣泛的任務,而不僅僅是產生語言回應。

1. 客戶支援自動化

客戶支援是 LLM 在企業環境中最明顯的應用 - 特別是面向客戶的情境。由語言模型驅動的對話式使用者介面 (即聊天機器人) 可以全天候處理幾乎無限數量的諮詢。這能協助大幅縮短因客服中心人員負擔過重而產生的回應時間,而這正是客戶感到挫折的主要原因。

將聊天機器人與其他 LLM 驅動的應用程式整合,即可自動執行支援通話後的後續追蹤動作,例如寄送替換用的機器零件、文件或問卷調查。LLM 還可以直接協助人類專員,為其提供及時資訊、情感分析、翻譯及互動摘要。

一家在 50 多個國家、以 80 種語言運作的基金管理公司,已利用這些功能讓客戶更輕鬆地發掘並選擇最符合其需求的金融工具。這家專業的退休客戶管理公司透過自訂聊天機器人實現了客戶支援的現代化,使服務水準提升了 150%,且營運成本降低了 30%。現在,客戶可以隨時造訪該公司的網頁,以多種語言向聊天機器人詢問有關其帳戶的問題。

2. 內容生成與摘要

LLM 可以建立原創內容,也可以摘要現有內容。這兩種使用案例對於大型與小型公司都極其有用,這些公司正在利用生成式 AI 撰寫報告、電子郵件、部落格、行銷材料與社群媒體貼文,同時利用 LLM 的能力針對特定群體或個人客戶生成量身打造的內容。

摘要功能會對領域具有敏感性的情況下,將大量資訊濃縮成易於人類快速審閱與吸收的格式。LLM 達成此目標的方法有二:一是評估文字中各項概念的重要性,然後擷取關鍵段落;二是根據其認為原始文字中最相關且關鍵的資訊,產生簡單明瞭的概述。

LLM 有時會被批評為「摘要至平均水準」(summarizing to average),意指其摘要過於籠統,遺漏了原始材料的關鍵細節或強調重點。衡量摘要的可靠性,並據此對各個模型的表現進行排名,也十分具有挑戰性。儘管如此,企業仍熱情地採用這項功能。

一家領先的雲端通訊公司部署了 LLM,以自動摘要每天以近二十種語言產生的數百張支援工單與聊天記錄。這些摘要現在能協助支援工程師更快解決客戶挑戰,並提升整體體驗。

3. 語言翻譯

Google 開發轉換器的最初意圖,是讓機器在不同語言之間的翻譯表現得更好;直到後來,該模型廣泛的能力才讓開發人員印象深刻。這些開發人員對此架構的首次實作便達成了該目標,在英德翻譯方面有著無與倫比的表現,且模型所花費的時間與運算資源顯著低於其前代技術。

現代 LLM 已遠遠超越了這種有限的使用案例。儘管大多數 LLM 並未專門接受翻譯訓練,但當它們以兩種語言的資料集受過廣泛訓練時,便能精通於解譯一種語言的文字,並以另一種語言清晰地重述。這種打破語言障礙的突破性進展,對於跨境營運的企業極具價值。跨國公司利用進階語言服務來執行各項任務,例如為其產品與服務開發多語系支援;翻譯指南、教學課程與行銷資產;以及在擴展到新國家時,利用現有的教育資產來培訓員工。

LLM 的未來之路

多模態模型的進展

目前一個活躍的研究領域,是將 LLM 作為 AI 的基礎模型,以語言之外的模態產生輸出。LLM 具有令人印象深刻的多功能性,能夠使用標籤資料進行微調,進而解譯並建立音訊、影像,甚至影片。這些以語言之外的模態接收提示或產生輸出的模型,有時被稱為大型多模態模型 (Large Multimodal Models),簡稱 LMM。

環境考量

LLM 通常需要大量的運算能力,才能大規模開發與運作。在包含數百甚至數千個 GPU 的叢集上訓練單一模型數週,可能會消耗大量能源。一旦部署了成功的模型,執行推論的基礎架構會持續需要大量電力,用來處理持續的使用者查詢。

訓練 GPT-4 估計需要 50 吉瓦時 (gigawatt-hours) 的能源。相比之下,50 吉瓦時的能源理論上可以為 4,500 至 5,000 個美國一般家庭供電一年。現在,ChatGPT 估計每天消耗數百兆瓦時 (megawatt hours) 的能源來回應數百萬次查詢。隨著語言模型變得越來越大,對能源消耗與永續性的關注可能會變得更加迫切。因此,人工智慧公司正站在尋求替代能源以減少其碳足跡的最前沿。

使用 OCI 生成式 AI 建置 LLM 應用程式

Oracle 將 LLM 的強大功能交到企業手中,而且無需他們親自處理這項令人振奮的技術的細節問題 (或電力需求)。Oracle Cloud Infrastructure (OCI) 生成式 AI 是一項完全託管的服務,以客製化、高效且符合成本效益的方式簡化最新 LLM 的部署,同時避免管理複雜的基礎架構。企業可以從幾個基礎模型中進行選擇,然後使用其自有資料在專用 GPU 叢集上對其進行微調,產生最能滿足其業務需求的自訂模型。

希望對底層技術進行更多調整的企業,正在轉向使用 Oracle Database 中的機器學習。該平台透過簡化並自動化機器學習生命週期的關鍵元素,使資料科學家能夠快速建置模型,而無需從其 Oracle 資料庫遷移敏感資料。功能包括熱門的機器學習架構、API、自動化機器學習 (AutoML) 與無程式碼介面,以及超過 30 種高效能資料庫內演算法,用於產生應用程式中使用的模型。

許多領先組織也利用 Oracle AI infrastructure 來建置其自有的 LLM。AI 基礎架構是支撐更高階 AI 服務 (例如 OCI 生成式 AI) 的基礎,適用於對加速運算、網路和儲存體有著最嚴苛要求的 LLM。

LLM 推動企業營運與客戶互動方式轉型的潛力如此巨大,以至於該技術的新突破與投資可以推動全球市場,並撼動企業策略。然而,商業與 IT 領導者不能盲目跟風,而是必須瞭解 LLM 運作的基本原理,以及其限制與採用挑戰 - 即使他們正努力識別可能從該技術中獲得的許多實質效益。

LLM 是許多改變遊戲規則的技術背後的推手,這些技術正在改變我們的工作方式。

LLM 的常見問題

大型語言模型如何針對特定應用程式進行微調?

LLM 針對特定應用程式進行微調的方法,是在採用自我學習來開發基礎模型的初始預先訓練階段之後,使用較少量但更特定領域的標籤資料,進行監督式學習階段。

哪些產業從使用大型語言模型中獲益最多?

幾乎每個產業都在發掘 LLM 的優勢。從醫療照護、金融服務到零售業,各行各業都在探索各種圍繞改善客戶支援與自動化業務流程的使用案例。

大型語言模型可以與企業系統整合嗎?

大型語言模型通常透過以下方式與企業系統整合:使用企業資料微調基礎模型,並透過檢索增強生成以專有資料擴增這些模型。