RAGとファインチューニング: 検討のポイント

Jeffrey Erickson | シニア・ライター | 2024年11月21日

この記事の内容

検索拡張生成（RAG）とは
ファインチューニングとは
検索拡張生成（RAG）とファインチューニングの主な違い
RAGとファインチューニング、どちらを選ぶべきか
Oracle Cloud Infrastructureで生成AIからさらなるビジネス価値を引き出す
RAGとファインチューニングに関するFAQ

さまざまなトピックについて話し合い、専門用語をもちいた論文を書くことができるため、広く普及しています。ただし、ビジネスシーンでの活用に、これらの汎用的なモデルによるアウトプットは適しません。特定のガジェットに対して技術サポートを提供することが予想される場合、LLMはその分野固有の知識を活用する必要があります。

現在、生成AI モデルがその種の専門知識を反映した応答を提供するために役立つ方法は 2 つあります。それは、ファインチューニングと、検索拡張生成（RAG）です。それぞれにメリットと課題があります。これらのオプションをさらに詳しく見て、どのように機能するか、どう使い分けるかを理解しましょう。

主なポイント

RAGとファインチューニングの両方により、汎用AIモデルは特定の分野や特定のユース・ケースでより有用になります。
RAGは、会社の内部データ・ストアへのLLMアクセスを提供します。LLMは、より的を絞った応答を提供するのに役立ちます。これは、最新の情報に依存するユースケースにとって重要です。
RAGの一般的な用途には、技術サポート、在庫検索、小売推奨などがあります。
ファインチューニングでは、ドメイン固有のデータのコレクションを使用して、特定のタスクの汎用LLMをトレーニングします。医学やコーディングなど、独自の論理や専門用語がある分野を考えてみてください。
ファインチューニングとRAGを組み合せて、LLMに強力なドメイン知識と最新の情報を提供できます。

検索拡張生成（RAG）とは

RAG(検索拡張生成の略称)は、Metaの研究者によって開発されたアーキテクチャ・フレームワークです。この手法は、大規模言語モデル(LLM)が組織にとって、より関連性が高く適切で有用なアウトプットを提供できるように設計されています。RAGの特徴は、大規模言語モデル(LLM)が内部ナレッジ・ベースへのアクセスへアクセスできる点にあります。これにより、元のトレーニング・データだけでなく、リアルタイムまたはドメイン特化の情報を活用して回答を生成することができます。その結果、LLM の言語能力とローカルデータを組み合わせ、ターゲットに合った、文脈に応じた応答を提供する AI システムが実現します。このアプローチは、AIモデルのファインチューニングとは異なり、基礎となるモデル自体を変更することなく機能します。

RAGを使用するタイミング

RAGは、生成AIの応答がLLMのトレーニングに含まれていない最新または組織固有のデータを提供することが重要な場合に使用します。たとえば、自社の製品や日常業務に関する信頼できる情報のコーパスが大きい場合、RAGアーキテクチャはそのデータを提供して、LLMを通過するプロンプトと応答を強化し、出力をより有用、検証可能、正確にします。これにより、ヘルプデスクの自動化、小売業における製品の在庫確認、さらには医療分野でも、医師の診察記録を患者や他の医療従事者に迅速に提供することが可能になります。

RAGのユースケース

業界全体でRAGの一般的なメリットには、より完全で優れたデータ取得、カスタマー・サポートの強化、パーソナライズされたコンテンツを生成する機能などがあります。LLMに最新の情報を補足することで、組織はAIエージェントを導入して、ユーザー・クエリに対するリアルタイムで状況に即した回答を提供できるため、人的介入の必要性が最小限に抑えられます。RAGの汎用性により、次のような幅広いアプリケーションに適応できます。

ビジネス・インテリジェンス。企業は、RAGを使用して、生成AIモデルが関連する市場データを取得し、インサイトとレポートの自動生成を支援できます。このデータには、市場調査、競合他社分析、販売量、顧客フィードバックなどがあります。
コンテンツ推奨。RAGは、多くの場合、ベクトル・データベースと連動して、コンテンツ推奨システムを改善できます。RAGを使用すると、AIモデルでユーザー・レビュー、評価およびコンテンツの説明を取得および分析できます。これにより、ユーザーは、ユーザーのプロンプトに沿ってパーソナライズされた推奨を生成できます。
ジャーナリズムやその他のメディアにおける事実チェック。RAGは、組織が記事、レポートまたはソーシャル・メディアで行われたクレームを検証するために、ドキュメントをすばやく取得および相互参照するのに役立ちます。
医学的診断。ヘルスケアでは、診断と治療計画を支援することにより、医師や他の臨床医をサポートするためにRAGを適用することができます。これは、AIモデルが患者の症状や状態に関連する医療ケース・スタディ、研究論文、または臨床試験結果を取得するのに役立ちます。
テクニカル・ サポート。RAGを使用して、解決時間を短縮し、技術サポートのユーザー満足度を向上させることができます。システムは、関連するトラブルシューティング・ガイドやドキュメントを取得したり、フォーラム・スレッドをスキャンしたり、ユーザー問題の解決に役立つようにLLMに提供する場合があります。さらに、RAGは、顧客の最近のインタラクションのレコードを含むデータベースを参照して、よりカスタマイズされた個人用サービスを作成できます。

ファインチューニングとは

生成AIモデルに対して、ドメイン特化型の少量データを使って追加学習を行い、その学習結果に基づいてモデルのパラメータを調整する手法です。具体的には、一般的な汎用の大規模言語モデル（LLM）をベースにして、医療やプログラミングなど特定の分野（＝ドメイン）に関連する専門データを用いて再学習させることで、その分野特有の用語や言い回しに対応できるようにします。このようにファインチューニングを行うことで、生成AIが特定タスクにおいてより高い精度と一貫性を持ったアウトプットを出力できるようになるのです

ファインチューニングを使用するタイミング

特定のドメインでLLMを調整する必要がある場合に、ファインチューニングを選択します。追加のトレーニングにより、LLMはプロンプトをよりよく理解し、特定のフィールドのニュアンスと用語を反映した出力を提供できます。トレーニング・プロセスのためにキュレートされた大規模なデータ・セットまたはドキュメント・ストアハウスにアクセスする必要がありますが、ファインチューニングは、生成されたコンテンツのスタイル、トーンおよび方法をより詳細に制御できるため、労力がかかります。これは、マーケティング資料や顧客とのやり取りで支払うことができます。RAGなどのファインチューニングは、医療、コーディング、その他の専門性の高いドメインにも役立ちます。

ファインチューニングのユースケース

一般的なAIモデルを特定のタスクまたはドメインに適応させるプロセスであるファインチューニングは、特にパーソナライズと専門が重要な場合に、さまざまな組織の結果を大幅に改善できる強力な手法です。特に効果的なユースケースをいくつかご紹介します。

カスタマー・サポートの自動化。会社の製品、サービス、業務に関する大量かつきめ細かいデータやドキュメントを使用してLLMを微調整（ファインチューニング）することで、LLMはより有用な自動化されたカスタマー・サポート・システムになることができます。微調整されたLLMは、顧客とのやり取りにおける語彙とニュアンスをよりよく理解し、適切に対応できるようになります。
教材。LLMは、歴史や文法などの特定のドメイン内の教材を活用して微調整（ファインチューニング）を行うことができます。その後、LLMは、新しい学習コンテンツの作成、教科書の要約、クイズ質問の生成、さらには様々なサブジェクト領域での講師セッションの提供を支援できます。
医療情報処理。LLMは、医療文献、匿名化された患者記録、その他の医療テキストや画像で微調整（ファインチューニング）できるため、治療や診断の提案に役立ちます。

検索拡張生成（RAG）とファインチューニングの主な違い

ファインチューニングとRAG はどちらも汎用 LLM の有用性を高めますが、その方法は異なります。簡単な例えで説明すると、ファインチューニングはLLMに特定の分野（例：医療や教育など）の深い知識を与えるのに対し、RAGはLLMに最新かつローカルな情報源（社内データベースなど）へアクセスする力を与えるものです。

では、この2つを組み合わせれば、より深い理解とタイムリーな回答の両方を実現できるのではないでしょうか？実はこの組み合わせはすでに注目を集めており、「RAFT（Retrieval-Augmented Fine-Tuning）」という新たなアプローチとして知られています。まず特定分野の専門データでファインチューニングされたモデルを用意し、それをRAGアーキテクチャに組み込むことで、モデルが持つ専門知識を活かしながら、応答生成時にもっとも関連性の高い情報を検索・活用できるようになります。その結果、高精度で文脈に合った、かつ最新情報を反映したアウトプットが実現できるのです。その結果、非常に正確で関連性が高く、コンテキスト対応の出力になります。

RAFTについてはもう少し詳しく説明しますが、まずは2つのアプローチについて理解を深めましょう。

ファインチューニングとは

ファインチューニングは、RAGと同様に、LLMがもともと学習していた汎用的なデータセットから一歩進み、より専門的で実用的な応答ができるようにする手法です。この方法では、特定の分野に特化したデータセットや組織固有のデータセットを使ってLLMを追加学習させることで、特定業務に最適化されたモデルを構築します。

導入に必要な準備
ファインチューニングを行うには、ITチームやビジネス部門が連携して、大量の専門データを収集・クレンジング/整備・ラベリングする必要があります。さらに、この学習プロセスは非常に計算負荷が高く、GPUを搭載した高度なAIインフラやニューラルネットワークアーキテクチャが求められます。
得られる効果
こうしたプロセスを経ることで、特定の業界や業務領域の情報や用語に精通したLLMが完成し、医療、法律、教育、エンタープライズ用途など、特化領域で高精度な応答が可能になります。
潜在的なデメリット
RAGシステムとは異なり、LLMはファインチューニング・トレーニング体制に使用されるデータ・セットに完全に依存しており、更新された外部知識にアクセスできません。また、特定分野に特化することで、もともとの汎用性が一部失われる（忘却）こともあります。たとえば、医療専門データでチューニングされたモデルが、日常会話の自然さをやや損なうようなケースです。これは、専門職の人間にも見られる現象と言えるでしょう。

RAGとは

RAGは、LLM自体のパラメータを変更せずに、応答の内容を変えるアプローチです。具体的には、社内データベースや信頼できる文書コレクションを検索し、その情報をLLMが参照して応答を生成します。これにより、リアルタイムかつ正確な情報を反映した出力が可能になります。

長所
RAGは、データセキュリティとプライバシーの観点でファインチューニングよりも優れているとされています。なぜなら、機密情報を厳格なアクセス制御のある安全に保管された内部環境で管理でき、AIの応答に意図しない形で反映されるリスクを最小限に抑えられるからです。
短所
その分野に特有の言い回しや高度な専門知識に基づいた応答には限界があることがあります。あくまで汎用的な知識をベースにして動作するため、ファインチューニングと比べて専門性に欠ける出力になることもあります。

スキルセットとコスト比較

スキルセット
スキルセットに関しては、RAGの実装は簡単ですが、RAGとファインチューニングには、コーディングおよびデータ管理における専門知識の重複が必要です。ファインチューニングではさらに、自然言語処理（NLP）、深層学習（ディープラーニング）、モデル構成に関する高度な知識が求められます。
時間とコスト
ファインチューニングには先行作業として初期に多くの作業とコストが必要ですが、RAGは運用時により多くのリソースが必要です。ファインチューニングでは、モデルの運用開始前に計算負荷の高いトレーニングを複数回行うため、RAG よりも初期コストが高くなります。ただし、ファインチューニング済みのモデルが一度稼働すれば、その運用アーキテクチャは比較的シンプルです。この時点で、RAGシステムはLLMに複雑さの層を追加するため、チームはプロンプトごとに最新のデータベースと追加の計算リソースを維持する必要があります。

ハイブリッドアプローチ: RAFT

この2つのアプローチにはそれぞれ限界と利点があるため、両者の強みを組み合わせる「RAFT（検索拡張ファインチューニング）」というハイブリッド型の手法が近年注目されています。

RAGとファインチューニング、どちらを選ぶべきか

RAGアーキテクチャを使用するか、ファインチューニング体制を使用するかの選択肢は、所有しているリソースとLLMの使用方法によって異なります。以下の表にもある通り、多くのユースケースでは両者を組み合わせることで最も大きな効果が得られます。多くの企業にとって、ファインチューニングに取り組んだ後にRAGを導入するのは自然な流れと言えるでしょう。以下の6つの質問を自問することで、どちらを優先すべきか判断しやすくなります。

レスポンスにはローカルおよび最新のデータが含まれている必要がありますか。独自の最新データでLLMの応答を通知することは、RAGの強みであり、RAGが急速に注目を集めている理由のひとつです。
LLMは専門業界で使用されますか?ファインチューニングにより、LLMはプロンプトをより適切に解釈し、特定のタスクや医療などの業務分野の独自の言語で応答を提供できます。
データ・プライバシとセキュリティは最優先ですか。RAGアーキテクチャを使用すると、組織は機密データを十分に保護されたローカル・データベースに保持できます。
応答の「トーン」や「言葉づかい」は重要ですかファインチューニングを行うことで、LLMは特定の業界や組織にふさわしい専門的な言葉づかいやトーンで応答できるようになります。たとえば、医療、金融、教育など、それぞれの分野で業界用語や丁寧さ、プロフェッショナルな口調が求められる場合には、ファインチューニングが効果を発揮します。特に、顧客・取引先・一般ユーザーがLLMと直接対話するようなシーンでは、ブランドイメージや信頼感を高める手段としても有効です。
実行時のリソースは限られていますか。ファインチューニングされたLLMは、汎用のLLMと同様に軽量で、追加の実行時リソースを必要ありません。一方で、RAGは、LLMが応答時にローカルのデータベースやドキュメント群にアクセスして情報を取り出すため、レスポンスを強化する必要があります。
十分な計算インフラとAIスキルはありますか。ファインチューニングには、高性能なGPUなどの計算インフラと、自然言語処理（NLP）・モデル訓練に関する高度なAIスキルが求められます。一方で、RAGは実行時のデータインフラが必要ですが、モデル自体の再訓練は不要なため、AIスキル要件は比較的低くなります。

ユースケース要件	RAG	ファインチューニング	RAFT
レスポンスには、ローカルの最新の情報が含まれている必要があります。	はい	いいえ	はい
応答には、高度な説明可能性が含まれている必要があります。	はい	いいえ	はい
レスポンスは、組織の深いドメイン知識を反映する必要があります。	はい	はい	はい
組織は、AIトレーニング用の強力なニューラル・ネットワークおよびGPUリソースにアクセスできます。	いいえ	はい	はい
応答は、組織のトーンとマーケティング言語を反映する必要があります。	いいえ	はい	はい
組織は、AIがその回答から引き出し、引用するための、大規模で組織化された最新のドキュメント・コレクションを所有しています。	はい	いいえ	はい
AIシステムは、限られたランタイム・リソースにアクセスできます。	いいえ	はい	はい
この組織には、AIのトレーニングと微調整を行うために、厳選された大規模なデータ・セットとドキュメント・ストアがあります。	はい	いいえ	はい

Oracle Cloud Infrastructureで生成AIからさらなるビジネス価値を引き出す

RAGを選択する場合でも、ファインチューニングを選択する場合でも、オラクルは、Oracle Cloud Infrastructure(OCI)Generative AI(OCIのパワーとオープン・ソースまたは独自のLLMの選択を含むフルマネージド・サービス)を活用して、お客様のような組織の生産性向上を支援することに特化しています。

オラクルは、お客様のLLMをRAGと簡単に組み合わせ、さまざまなナレッジベースに基づいた最新の応答を得られるようサポートします。ファインチューニング体制を実行するときには、オラクルのAIインフラストラクチャが最適です。LLMレスポンス、コンピュータ・ビジョン、予測分析など、最も要求の厳しいトレーニングおよび推論ワークロードを実行するのに十分な65,536 GPUまで拡張できるスーパークラスタが見つかります。

汎用的なLLMは、Anthropic、Cohere、Google、Metaなどのように新しいバージョンの流れが絶えず向上し続けています。しかし、これらのAIモデルがどれだけ人間の言語を処理しても、そのスキルセットをビジネス・ユース・ケースの特定のニーズに接続する方法は常に必要です。これを行うには、現在、ファインチューニングとRAGが2つの最適な方法です。そして、AIモデル、ハードウェア、データアーキテクチャの進化に伴い、これらの手法も今後さらに進化していくでしょう。

AIセンター・オブ・エクセレンスは、RAGの展開において重要な役割を果たす必要があります。CoEの設立はまだですか？このeBookでは、今すぐ立ち上げて活動を開始する方法をご紹介します。

eBookを読む

RAGとファインチューニングに関するFAQ

RAGはファインチューニングよりも優れていますか。

RAGとAIモデルのファインチューニングは異なりますが、それには独自のメリットとコストがあります。どちらも生成AIモデルの有用性を高める一般的な方法であり、各組織はニーズに最適な方法を選択する必要があります。もう1つの一般的なオプションは、RAFTと呼ばれる2つのアプローチを組み合せて、検索拡張ファインチューニングを行うことです。

RAGより優れた方法はありますか？

RAGは、LLMが会社のデータやドキュメントを参照することで、より優れた応答を提供できるよう支援する手法です。GraphRAGと呼ばれるメソッドは、RAGアーキテクチャが独自に実行できる以上のLLMレスポンスをさらに強化する方法として出現しましたが、アーキテクチャの複雑さが増し、一般的なユースケースはまだ出現していません。

AIモデルのファインチューニングは、LLMがよりターゲットを絞った応答または微妙な応答を提供するのに役立つ別の方法であり、LLMのパフォーマンスをさらに向上させるためにRAGと組み合わせることができます。

RAGとファインチューニングは併用できますか?

はい。このハイブリッド・アプローチは、特殊なドメイン・データに基づいてファインチューニングされたモデルを提供し、RAGアーキテクチャにデプロイすることで、そのレスポンスで最新または最も関連性の高い情報を提供できます。

RAGと転移学習の違いは何ですか?

RAGは、ローカルの最新のナレッジ・ベースにアクセスすることで、LLMの応答を改善します。転移学習は、特定のドメインで動作するように微調整された個別のAIモデルにアクセスすることで、汎用AIモデルの応答を改善します。