Jeffrey Erickson | シニア・ライター | 2024年11月21日
さまざまなトピックについて話し合い、専門用語をもちいた論文を書くことができるため、広く普及しています。ただし、ビジネスシーンでの活用に、これらの汎用的なモデルによるアウトプットは適しません。特定のガジェットに対して技術サポートを提供することが予想される場合、LLMはその分野固有の知識を活用する必要があります。
現在、生成AI モデルがその種の専門知識を反映した応答を提供するために役立つ方法は 2 つあります。それは、ファインチューニングと、検索拡張生成(RAG)です。それぞれにメリットと課題があります。これらのオプションをさらに詳しく見て、どのように機能するか、どう使い分けるかを理解しましょう。
主なポイント
RAG(検索拡張生成の略称)は、Metaの研究者によって開発されたアーキテクチャ・フレームワークです。この手法は、大規模言語モデル(LLM)が組織にとって、より関連性が高く適切で有用なアウトプットを提供できるように設計されています。RAGの特徴は、大規模言語モデル(LLM)が内部ナレッジ・ベースへのアクセスへアクセスできる点にあります。これにより、元のトレーニング・データだけでなく、リアルタイムまたはドメイン特化の情報を活用して回答を生成することができます。その結果、LLM の言語能力とローカルデータを組み合わせ、ターゲットに合った、文脈に応じた応答を提供する AI システムが実現します。このアプローチは、AIモデルのファインチューニングとは異なり、基礎となるモデル自体を変更することなく機能します。
RAGは、生成AIの応答がLLMのトレーニングに含まれていない最新または組織固有のデータを提供することが重要な場合に使用します。たとえば、自社の製品や日常業務に関する信頼できる情報のコーパスが大きい場合、RAGアーキテクチャはそのデータを提供して、LLMを通過するプロンプトと応答を強化し、出力をより有用、検証可能、正確にします。これにより、ヘルプデスクの自動化、小売業における製品の在庫確認、さらには医療分野でも、医師の診察記録を患者や他の医療従事者に迅速に提供することが可能になります。
業界全体でRAGの一般的なメリットには、より完全で優れたデータ取得、カスタマー・サポートの強化、パーソナライズされたコンテンツを生成する機能などがあります。LLMに最新の情報を補足することで、組織はAIエージェントを導入して、ユーザー・クエリに対するリアルタイムで状況に即した回答を提供できるため、人的介入の必要性が最小限に抑えられます。RAGの汎用性により、次のような幅広いアプリケーションに適応できます。
生成AIモデルに対して、ドメイン特化型の少量データを使って追加学習を行い、その学習結果に基づいてモデルのパラメータを調整する手法です。具体的には、一般的な汎用の大規模言語モデル(LLM)をベースにして、医療やプログラミングなど特定の分野(=ドメイン)に関連する専門データを用いて再学習させることで、その分野特有の用語や言い回しに対応できるようにします。このようにファインチューニングを行うことで、生成AIが特定タスクにおいてより高い精度と一貫性を持ったアウトプットを出力できるようになるのです
特定のドメインでLLMを調整する必要がある場合に、ファインチューニングを選択します。追加のトレーニングにより、LLMはプロンプトをよりよく理解し、特定のフィールドのニュアンスと用語を反映した出力を提供できます。トレーニング・プロセスのためにキュレートされた大規模なデータ・セットまたはドキュメント・ストアハウスにアクセスする必要がありますが、ファインチューニングは、生成されたコンテンツのスタイル、トーンおよび方法をより詳細に制御できるため、労力がかかります。これは、マーケティング資料や顧客とのやり取りで支払うことができます。RAGなどのファインチューニングは、医療、コーディング、その他の専門性の高いドメインにも役立ちます。
一般的なAIモデルを特定のタスクまたはドメインに適応させるプロセスであるファインチューニングは、特にパーソナライズと専門が重要な場合に、さまざまな組織の結果を大幅に改善できる強力な手法です。特に効果的なユースケースをいくつかご紹介します。
ファインチューニングとRAG はどちらも汎用 LLM の有用性を高めますが、その方法は異なります。簡単な例えで説明すると、ファインチューニングはLLMに特定の分野(例:医療や教育など)の深い知識を与えるのに対し、RAGはLLMに最新かつローカルな情報源(社内データベースなど)へアクセスする力を与えるものです。
では、この2つを組み合わせれば、より深い理解とタイムリーな回答の両方を実現できるのではないでしょうか?実はこの組み合わせはすでに注目を集めており、「RAFT(Retrieval-Augmented Fine-Tuning)」という新たなアプローチとして知られています。まず特定分野の専門データでファインチューニングされたモデルを用意し、それをRAGアーキテクチャに組み込むことで、モデルが持つ専門知識を活かしながら、応答生成時にもっとも関連性の高い情報を検索・活用できるようになります。その結果、高精度で文脈に合った、かつ最新情報を反映したアウトプットが実現できるのです。その結果、非常に正確で関連性が高く、コンテキスト対応の出力になります。
RAFTについてはもう少し詳しく説明しますが、まずは2つのアプローチについて理解を深めましょう。
ファインチューニングは、RAGと同様に、LLMがもともと学習していた汎用的なデータセットから一歩進み、より専門的で実用的な応答ができるようにする手法です。この方法では、特定の分野に特化したデータセットや組織固有のデータセットを使ってLLMを追加学習させることで、特定業務に最適化されたモデルを構築します。
RAGは、LLM自体のパラメータを変更せずに、応答の内容を変えるアプローチです。具体的には、社内データベースや信頼できる文書コレクションを検索し、その情報をLLMが参照して応答を生成します。これにより、リアルタイムかつ正確な情報を反映した出力が可能になります。
この2つのアプローチにはそれぞれ限界と利点があるため、両者の強みを組み合わせる「RAFT(検索拡張ファインチューニング)」というハイブリッド型の手法が近年注目されています。
RAGアーキテクチャを使用するか、ファインチューニング体制を使用するかの選択肢は、所有しているリソースとLLMの使用方法によって異なります。以下の表にもある通り、多くのユースケースでは両者を組み合わせることで最も大きな効果が得られます。多くの企業にとって、ファインチューニングに取り組んだ後にRAGを導入するのは自然な流れと言えるでしょう。以下の6つの質問を自問することで、どちらを優先すべきか判断しやすくなります。
| ユースケース要件 | RAG | ファインチューニング | RAFT |
|---|---|---|---|
| レスポンスには、ローカルの最新の情報が含まれている必要があります。 | はい |
いいえ |
はい |
| 応答には、高度な説明可能性が含まれている必要があります。 | はい |
いいえ |
はい |
| レスポンスは、組織の深いドメイン知識を反映する必要があります。 | はい |
はい |
はい |
| 組織は、AIトレーニング用の強力なニューラル・ネットワークおよびGPUリソースにアクセスできます。 | いいえ |
はい |
はい |
| 応答は、組織のトーンとマーケティング言語を反映する必要があります。 | いいえ |
はい |
はい |
| 組織は、AIがその回答から引き出し、引用するための、大規模で組織化された最新のドキュメント・コレクションを所有しています。 | はい |
いいえ |
はい |
| AIシステムは、限られたランタイム・リソースにアクセスできます。 | いいえ |
はい |
はい |
| この組織には、AIのトレーニングと微調整を行うために、厳選された大規模なデータ・セットとドキュメント・ストアがあります。 | はい |
いいえ |
はい |
RAGを選択する場合でも、ファインチューニングを選択する場合でも、オラクルは、Oracle Cloud Infrastructure(OCI)Generative AI(OCIのパワーとオープン・ソースまたは独自のLLMの選択を含むフルマネージド・サービス)を活用して、お客様のような組織の生産性向上を支援することに特化しています。
オラクルは、お客様のLLMをRAGと簡単に組み合わせ、さまざまなナレッジベースに基づいた最新の応答を得られるようサポートします。ファインチューニング体制を実行するときには、オラクルのAIインフラストラクチャ が最適です。LLMレスポンス、コンピュータ・ビジョン、予測分析など、最も要求の厳しいトレーニングおよび推論ワークロードを実行するのに十分な65,536 GPUまで拡張できるスーパークラスタが見つかります。
汎用的なLLMは、Anthropic、Cohere、Google、Metaなどのように新しいバージョンの流れが絶えず向上し続けています。しかし、これらのAIモデルがどれだけ人間の言語を処理しても、そのスキルセットをビジネス・ユース・ケースの特定のニーズに接続する方法は常に必要です。これを行うには、現在、ファインチューニングとRAGが2つの最適な方法です。そして、AIモデル、ハードウェア、データアーキテクチャの進化に伴い、これらの手法も今後さらに進化していくでしょう。
AIセンター・オブ・エクセレンスは、RAGの展開において重要な役割を果たす必要があります。CoEの設立はまだですか?このeBookでは、今すぐ立ち上げて活動を開始する方法をご紹介します。
RAGはファインチューニングよりも優れていますか。
RAGとAIモデルのファインチューニングは異なりますが、それには独自のメリットとコストがあります。どちらも生成AIモデルの有用性を高める一般的な方法であり、各組織はニーズに最適な方法を選択する必要があります。もう1つの一般的なオプションは、RAFTと呼ばれる2つのアプローチを組み合せて、検索拡張ファインチューニングを行うことです。
RAGより優れた方法はありますか?
RAGは、LLMが会社のデータやドキュメントを参照することで、より優れた応答を提供できるよう支援する手法です。GraphRAGと呼ばれるメソッドは、RAGアーキテクチャが独自に実行できる以上のLLMレスポンスをさらに強化する方法として出現しましたが、アーキテクチャの複雑さが増し、一般的なユースケースはまだ出現していません。
AIモデルのファインチューニングは、LLMがよりターゲットを絞った応答または微妙な応答を提供するのに役立つ別の方法であり、LLMのパフォーマンスをさらに向上させるためにRAGと組み合わせることができます。
RAGとファインチューニングは併用できますか?
はい。このハイブリッド・アプローチは、特殊なドメイン・データに基づいてファインチューニングされたモデルを提供し、RAGアーキテクチャにデプロイすることで、そのレスポンスで最新または最も関連性の高い情報を提供できます。
RAGと転移学習の違いは何ですか?
RAGは、ローカルの最新のナレッジ・ベースにアクセスすることで、LLMの応答を改善します。転移学習は、特定のドメインで動作するように微調整された個別のAIモデルにアクセスすることで、汎用AIモデルの応答を改善します。
