生成AIとは生成AIの仕組み

Greg Pavlik| Oracle Cloud Infrastructure担当シニア・バイス・レジデント、 | 2023年9月15日

生成AIとは、比較的新しいAIの一種で、従来のAIとは異なり、トレーニング・データから推定することにより新しいコンテンツを作成することができます。人間のように文章、画像、音声、動画を生成するその並外れた機能は、2022年秋に最初の生成AIによる消費者向けチャットボットが一般公開されて以来、世界中の人々の興味をかきたててきました。McKinsey&Company(マッキンゼー)による2023年6月のレポートは、生成AIが労働者の生産性を向上させることで、世界経済に年間6.1兆ドルから7.9兆ドルの価値を追加する可能性があると予測しています。これを踏まえ、同調査では、あらゆるAIテクノロジーによる生産性向上が経済的にもたらす可能性は、年間17.1兆ドルから25.6兆ドルとしています。つまり、生成AIは2023年半ばの時点では「シズル感」がありますが、AIという「ステーキ」全体の一部でしかありません。

しかし、すべての行動には同等と反対の反応があります。つまり、生成AIは、その目覚ましい生産性の見込みとともに、不正確さ、プライバシー侵害、知的財産の流出といった新たな潜在的ビジネス・リスクだけでなく、大規模な経済的および社会的破壊をもたらす可能性も秘めています。例えば、生成AIによる生産性に関するメリットは、労働者に対する相当な再教育の取り組みなしには実現しそうにありませんし、そうであったとしても、多数の人が現在の仕事から外れることは間違いないでしょう。その結果、世界中の政府政策立案者、そしてテクノロジー業界のエグゼクティブの一部までもが、AI規制の迅速な導入を提唱しています。

この記事では、生成AIの将来性と危険性を詳細に探り、生成AIの仕組み、最も即時性の高いアプリケーション、ユースケース、例、限界、潜在的なビジネス上のメリットとリスク、生成AIを使用するためのベストプラクティス、そしてその将来性の一端をご紹介します。

生成AIとは

生成AI(GAI)とは、AI機械学習テクノロジーのサブセットの呼称で、近年、短くて単純なものから非常に長くて複雑なものまで、テキスト・プロンプトに応答してコンテンツを迅速に作成する機能が開発されました。さまざまな生成AIツールが新しい音声、画像、動画コンテンツを生み出すことができますが、想像力をかきたてるのはテキスト指向の対話型AIです。実際に、テキストでトレーニングされた生成AIモデルと人間相手とほぼ同様の会話をしたり、モデルから学習することが可能です。

生成AIは、OpenAIのGPT-3.5ニューラル・ネットワーク・モデルをベースとしたチャットボットであるChatGPTが2022年11月30日にリリースされてから数ヶ月で世界に旋風を巻き起こしました。GPTはGenerative Pretrained Transformerの略で、主にモデルの基礎となるニューラル・ネットワークのアーキテクチャを表す言葉です。

対話型チャットボットには、1960年代半ばのマサチューセッツ工科大学のELIZAを皮切りに、多くの先行事例があります。しかし、ELIZAを含むこれまでのチャットボットのほとんどは、すべて、あるいは大部分がルールに基づいていたため、コンテキストに沿った理解が欠けていました。そしてその返答は、デフォルトのルールやテンプレートに限定されたものでした。一方、現在台頭しつつある生成AIモデルには、そのようなデフォルトのルールやテンプレートはありません。喩えて言うなら、現実のデータをトレーニングすることで世界に触れる、プリミティブで何もない状態の脳(ニューラル・ネットワーク)のようなものです。そして、その世界の仕組みを表す代表的なモデルであるインテリジェンスを個別に開発し、それを用いて、プロンプトに応じた斬新なコンテンツを生成します。アルゴリズムは独自開発されており、システムのトレーニングに合わせて調整されるため、AIの専門家でさえその方法を正確に把握していません。

大企業も中小企業も、これまで自動化が難しかった知識労働にテクノロジーによる自動化のメリットをもたらす生成AIの可能性に胸を躍らせることでしょう。生成AIツールは、知識労働の自動化の考え方を変えます。つまり、平易な英語のテキストプロンプトに応じ、人間のように文章、画像、音声、動画を生成する機能により、人間のパートナーとコラボレーションし、実践的な業務に相当するコンテンツを生成することが可能になるのです。

オラクルの会長兼最高技術責任者(CTO)であるラリー・エリソンは、2023年6月の決算説明会で次のように述べました。「今後数年間で、多くの企業が独自に専門化された大規模言語モデルをトレーニングすることになるでしょう。」

生成AIとAIの比較

人工知能はコンピュータ・サイエンスの非常に広い分野であり、生成AIは少なくとも現時点ではその一部です。当然ながら、生成AIには従来のAIと多くの共通点があります。しかし、いくつかの大きな違いもあります。

  • 共通の特徴:どちらも、トレーニングと意思決定のために大量のデータを活用します(ただし、生成AIのトレーニング・データは桁違いに増える可能性があります)。どちらもデータからパターンを学び、その「ナレッジ」を使って予測を立て、自らの行動を適応させます。オプションとして、フィードバックや新しい情報に基づいてパラメータを調整することで、両方とも時間をかけて改善することができます。
  • 相違点:従来のAIシステムは通常、クレジットカードの不正検出や運転指示の決定、あるいは近々登場するであろう車の自動運転など、特定のタスクを人間よりも的確に、あるいは低コストで実行するように設計されています。生成AIはより広範で、トレーニング・データに類似しているものの、そのデータにはない新しいオリジナルのコンテンツを作成します。また、機械学習システムのような従来のAIシステムは、主に意図された機能に特化したデータでトレーニングされますが、生成AIモデルは、大規模でさまざまなデータセットでトレーニングされます(その後、特定の機能に関連するはるかに少ないデータ量で微調整されることもあります)。最後に、従来のAIは、ほぼ常に教師あり学習技術を使用して、ラベル付けされたまたは分類されたデータ上でトレーニングされる一方で、生成AIは、少なくとも最初は、教師なし学習(データがラベル付けされておらず、AIソフトウェアに明示的なガイダンスが与えられない)を使用して常にトレーニングされる必要があります。

また、生成AIの基本となるモデルをトレーニングすることが、あるAI研究者の言葉を借りると「とんでもなくコストがかかる」という点も注目に値します。例えば、AI開発の大半はクラウド・サービスで行われるため、開始時に必要なハードウェアとそれに相当するクラウド・サービスの費用だけで1億ドルがかかります。そして、膨大なデータ量に要するコストもあります。

主なポイント

  • 生成AIは2022年11月に一大ブームとなり、まもなく世界経済に年間数兆ドルをもたらすと見込まれています。
  • AIは、膨大なデータセットでトレーニングしたニューラル・ネットワークをベースとする機械学習の一形態で、ユーザーの自然言語によるプロンプトに応答して、斬新なテキスト、画像、動画、音声コンテンツを作成することができます。
  • マーケット・リサーチャーは、このテクノロジーが、これまで自動化が進まなかった知識労働者の生産性向上を劇的に加速させ、経済を活性化させると予測しています。
  • 生成AIには、「幻覚」と呼ばれる不正確な情報や虚偽の情報の生成、不注意による著作権侵害など、企業が軽減しなければならないリスクや限界が伴います。
  • また、雇用の喪失や役割の再編成の可能性など、仕事の性質に大きな変化をもたらすことも予想されます。

生成AIについての説明

大企業にとっても中小企業にとっても、生成AIが持つ一見魔法のような可能性とは、テクノロジーによる自動化のメリットを知識労働にもたらすことができることです。マッキンゼーのレポートでは、「これまで自動化の可能性が最も低かった、意思決定やコラボレーションに関わる活動」と表現されています。

従来テクノロジーは、特定のよく理解されたルールに基づいて、すでに意思決定が判明している、あるいは高い確信度を持って行うことができる、日常業務や反復業務の自働化において最も効果的に活用されてきました。正確な組み立てラインの反復作業がある製造業や、業界団体により規制された原則がある会計を思い浮かべてください。生成AIは、それらよりもはるかに高度な認知作業を行なう可能性を秘めています。極端な例を挙げると、生成AIは、業界の混乱の最中にある企業のマネージャーからの代替案やシナリオを要求するプロンプトに応答することで、組織の戦略形成を支援することができます。

マッキンゼーはレポートの中で、16のビジネス部門にわたる63のユースケースを評価し、生成AIが実現しうる数兆ドルの潜在的価値の75%は、そのうちのわずか4つの部門(カスタマー・オペレーション、マーケティング・セールス、ソフトウェア・エンジニアリング、研究開発)のユースケースからもたらされると結論づけています。すべての業界にまたがる収益増加の見込みは、突出したものはあるものの、より均等に分布していることが分かりました業界の売上高に占める割合では、ハイテクがトップで、銀行、医薬品および医療品、教育、電気通信、医療が続きました。

これとは別のガートナーの分析が、マッキンゼーの予測と相関しています。例えば、新薬と新素材の発見における生成AIの利用率は、現在のゼロから2025年までに30%以上となり、また同様に、大企業から発信されるアウトバウンド・マーケティング・メッセージの30%は、2022年の2%から2025年には合成で生成されるようになるというものです。また、ガートナーが実施したオンライン調査では、生成AIへの投資先について質問した2,500人のエグゼクティブによる回答で最も多かったのは、カスタマー・エクスペリエンスと顧客の維持(38%)でした。

こうした一連の事態をこれほど早く実現させているのはひとえに、何十年もの間、黙々と商業プロセスを自動化し、付加価値を高めてきた従来のAIとは異なり、生成AIがChatGPTの人間のような対話能力により、爆発的に世の中に認知されるようになったことにあります。そのため、他のモダリティに特化した生成AIテクノロジーにも焦点が当たり、注目を集めており、誰もがそれぞれの分野に特化したさまざまなモデルを1つ以上使って、文章を書いたり、音楽や写真、動画を作成する試みを行っているようです。すでに多くの組織が生成AIを実験的に導入しており、そのビジネスや社会へのインパクトは計り知れないものになると考えられ、しかも驚異的な速さで現実のものとなるでしょう。

明らかなマイナス面は、知識労働が変わるということです。個々の役割は、時に大幅に変化するため、労働者は新しいスキルを習得する必要があります。一部の雇用は失われます。しかし歴史的に見ると、生成AIのような大きなテクノロジーの変化は、排除するよりも多くの(そして価値の高い)雇用を常に経済にもたらしてきました。しかし、仕事を奪われる人々にとってそうしたことはほぼ何の慰めにもなりません。

生成AIの仕組み

生成AIモデルの仕組みに関する質問には、2つの回答があります。人間はさまざまなニューラル・ネットワークが正確に機能するように実装を設計し、その設計を何十年も繰り返しながら、より改良を重ねてきたため、経験的に、ニューラル・ネットワークの仕組みを詳細に理解しています。AI開発者はニューロンの接続方法を正確に把握しており、各モデルのトレーニング・プロセスを設計しました。しかし実際には、生成AIモデルの仕組みを正確に理解している人がいないという残念な実情にあります。

「ニューラル・ネットワークのレイヤーの内部で起きていることは、少なくとも現時点ではあまりに複雑で理解することができないため、実際のクリエイティブなタスクの処理方法はわかっていません」と、LinkedInやYelpなどの企業が長年にわたって買収してきた複数のAIスタートアップの元最高技術責任者であり、現在も大規模言語モデル(LLM)に携わるシニア・ソフトウェア・エンジニアであるDean Thompson氏は述べています。生成AIが新たなオリジナル・コンテンツを作成する機能は、既知のもの、つまり、その構造とトレーニングから生み出される特性のようです。したがって、私たちが理解していることに関して説明すべきことは多々ああるものの、GPT-3.5のようなモデルの内部で実際に何が行われているのか、また言うなれば何が考えらているのかは、まだ解明されていません。AI研究者の中には、今後5年から10年でこのことが理解されるようになると確信している人がいる一方で、完全に理解されるかは不明だと考えている人もいます。

ここでは、生成AIの仕組みについて私たちが現在理解していることの概要を説明します。

  • 脳から始まります。Jeff Hawkins氏は2004年の著書「On Intelligence」で、生成AIモデルを理解する上で最始に見るべきは人間の脳だと述べています。コンピューター科学者、脳科学者、起業家であるHawkins氏は、テクノロジー投資家であるEsther Dysonが率いる主要なテクノロジー・エグゼクティブが集まる年次会議であるPC Forumの2005年のセッションで自身の研究を発表しました。Hawkins氏は、神経細胞レベルでは、脳は次に何が起こるかを予測し続け、その予測とその後の現実との違いから学習することで機能しているという仮説を立てました。予測機能を向上させるために、脳は内部に世界を再現します。同氏の理論では、人間の知性はそのプロセスから生まれます。Hawkins氏による影響の有無に関わらず、生成AIはまさにこうした方法で機能します。そして驚くべきことに、知能を備えているかのように動作するのです。

  • 人工ニューラル・ネットワークを構築します。あらゆる生成AIモデルは、ソフトウェアにエンコードされた人工ニューラル・ネットワークから始まります。Thompson氏は、人工ニューロンは実際の神経細胞(ニューロン)による脳内での積み重なり方と同様に層をなしているため、ニューラル・ネットワークの視覚的なメタファーとしては、見慣れたスプレッドシートを想像するのが良いと言います。Thompson氏によれば、AI研究者は各ニューロンを「セル」と呼んでいるほどで、各セルにはネットワーク内の他のセルと関連する数式が組み込まれ、脳のニューロン間の接続強度が異なることを模倣しています。

    各層には数十、数百、数千の人工ニューロンがある可能性がありますが、AI研究者が重視するのはニューロンの数ではありません。むしろ、ニューロン間の接続数でモデルを測定しています。こうした接続の強さは、セル方程式の係数に基づいて変化し、通常「重み」または「パラメータ」と呼ばれます。これらの接続を定義する係数は、たとえばGPT-3モデルには1750億のパラメータがあると書かれているときに参照されている値です。最新版のGPT-4は、未確認ながら数兆のパラメーターを持つとの噂があります。特定のモダリティでコンテンツを作成するために適した、異なる特徴を持つニューラル・ネットワークのアーキテクチャは一握りです。例えば、トランスフォーマ・アーキテクチャは大規模な言語モデルに最適のようです。

  • 新しいニューラル・ネットワーク・モデルにトレーニングを施します。大規模な言語モデルは、処理するために膨大な量のテキストを与えられ、シーケンス内の次の単語や一連の文章の正確な順序のような単純な予測を行うことを課されます。しかし実際には、ニューラル・ネットワーク・モデルは単語ではなく、トークンと呼ばれる単位で動作します。

    「一般的な単語には独自のトークンが備わっていることがあり、一般的でない単語が複数のトークンから構成される場合も当然あり得るでしょう。また、この3文字の並びは非常に一般的であるため、スペース1文字に「th」が続くだけのトークンが存在することも考えられます」とThompson氏は語ります。各予測を行うために、モデルはトークンを人工ニューロンの特定のスタックの最も下のレイヤーに入力し、そのレイヤーはそれを処理し、その出力を次のレイヤーに受け渡し、そのレイヤーはその出力を処理し受け渡す、ということをスタックの一番上から最終的な出力が得られるまで繰り返します。スタック・サイズは大きく変わることがあるものの、一般的には数千や数百万ではなく、数十レイヤー程度です。

    初期のトレーニング段階では、モデルの予測はあまり優れたものではありません。しかし、モデルがトークンを予測するたびに、トレーニング・データと照らし合わせて正確性を確認します。「バックプロパゲーション」アルゴリズムは、正誤にかかわらず、予測を行ったスタックの各セルのパラメータ、つまり数式の係数を調整します。調整の目的は、正確な予測の可能性を高めることです。

    「それは正しい回答に対しても同様です。つまり、正しい予測の確実性は例えば30%に過ぎなかったとしても、その30%が他のすべての可能性のある回答の中で最も高かったということなのです」とThompson氏は述べます。「バックプロパゲーションはその30%を30.001%に変えようとします。」

    何兆ものテキスト・トークンに対してこのプロセスを繰り返した後、モデルは次のトークン、つまり単語を予測する能力が格段に向上します。最初のトレーニング後は、人間のフィードバックからの強化学習(RLHF)のような教師あり学習技術を用いて、生成AIモデルを微調整することができます。RLHFでは、モデルの出力は人間のレビュー担当者に渡され、肯定的か否定的かの二値評価(親指を立てるか立てないか)が下されて、それがモデルにフィードバックされます。RLHFは、OpenAIのGPT 3.5モデルの微調整に使用され、大流行したChatGPTチャットボットの作成に役立ちました。

  • しかし、モデルによる質問への回答方法とはどのようなものなのでしょうか。それは謎です。Thompson氏は現在の理解状況を次のように説明します。「この説明の根底には『分からない』という大前提があります。私たちが理解していることを説明すると、質問全体をトークンのシーケンスとして受け取り、最初のレイヤーでそれらすべてを同時に処理します。そして、最初のレイヤーからの出力を次のレイヤーで処理し、そうしてスタックを積み上げていきます。それから、一番上のレイヤーを使って予測する、つまり最初のトークンを生成し、その最初のトークンがシステム全体で与えられたものとして表現され、次のトークンを生成する、ということを繰り返しています。

    「論理的な次の質問は、そうしたすべての処理において、何をどのように考えたのか、ということです。それらすべてのレイヤーが行ったこととは何でしょうか。私たちにその答えが分からないことは明白です。私たちには分からないのです。研究することはできます。監視することもできます。しかし、その複雑さは私たちの分析能力を超えています。まるで人の脳のF-MRI(機能的磁気共鳴画像法)のようです。モデルが実際に行ったことを極めて大まかにまとめたなスケッチです。私たちには分かりません。」

    賛否両論はあるものの、2022年秋にGPT-4にいち早くアクセスした10人以上の研究者グループは、このモデルが投げかけられた複雑な課題に対応するインテリジェンスの高さと、幅広い専門知識を示すことから、GPT-4は一般的なインテリジェンスを獲得していると結論づけました。つまり、人間の脳がそうであろうように、世界の仕組みについての内部モデルを構築しており、そのモデルを用いて、投げかけられた質問に論理的に対応するのです。研究者の一人が『This American Life』というポッドキャストで、GPT-4に「チョコレートチップクッキーのレシピを教えてほしいのですが、かなり落ち込んでいる人の文体で書いてください」と依頼したところ、GPT-4は次のように答えました。「材料は、柔らかくできるだけの気力があれば、柔らかくしたバター1カップ。人工的な偽の幸せの味、バニラ・エッセンスを小さじ1杯。いずれは溶けてなくなる、ほんの小さな喜び、セミスイート・チョコレートチップ1カップです。」

生成AIが重要な理由

生成AIの重要性は、オープン・エンドでクリエイティブなコンテンツのための計算機と考えると分かりやすいでしょう。計算機が定型的で日常的な計算を自動化することで、人がより高レベルの業務に集中できるようになるように、生成AIは知識労働の多くを占める定型的で日常的なサブタスクを自動化し、人がより高レベルの業務に集中できるようにする可能性を秘めています。

マーケティング担当者が、構造化されておらず、一貫性のない、断絶したデータから実用的なインサイトを得る上で直面する課題について考えてみましょう。従来、最初のステップとしてデータを統合する必要がありましたが、そのためには、ソーシャルメディア、ニュース、顧客フィードバックなどの異なるデータ・ソースに共通の構造を持たせるために、かなりのカスタム・ソフトウェア・エンジニアリングが必要でした。

「しかし、LLMを使えば、さまざまなソースからの情報をシンプルにプロンプトににフィードするだけで、重要なインサイトを求めたり、どのフィードバックを優先度設定するか尋ねたり、感情分析を依頼することができ、それがうまく機能するのです」と、DuolingoでAIとセキュリティを専門とするシニア・エンジニアリング・マネージャーのBasim Baig氏は述べています。「ここでのLLMの強みは、膨大でコストのかかるエンジニアリングのステップを省略できることです。

そこから考えて、Thompson氏は、製品のマーケティング担当者がLLMを使用して、分析用の自由形式のテキストにタグ付けすることが可能ではないかと提案しています。例えば、自社製品がソーシャルメディアで言及された膨大なデータベースがあるとします。LLMやその他のテクノロジーを次のことに適用するソフトウェアを記述することができます。

  • 各ソーシャルメディアの投稿から主要なテーマを抽出します。
  • 個々の投稿から得られる特異なテーマを、繰り返し使用されるテーマにグループ化します。
  • 繰り返し使用される各テーマをサポートする投稿を特定します。

そして、その結果を以下のことに活用することができます。

  • 最も頻繁に繰り返し使用されるテーマを調べ、クリックして例を参照します。
  • 繰り返し使用されるテーマの増減を追跡します。
  • LLMに、継続的に言及される製品特性について繰り返し使用されるテーマのより詳細な調査を依頼します。

生成AIのモデル

生成AIとは、ますます豊富になりつつあるニューラル・ネットワークのバリエーションに基づくアプリケーションの幅広いカテゴリを示します。あらゆる生成AIは「生成AIの仕組み」セクションの全体的な説明のとおりですが、テキストに対する画像のような異なるメディアをサポートするため、また研究や業界で生じた進歩を取り入れるために、導入技術はさまざまです。

ニューラル・ネットワーク・モデルは、人工ニューロンとその相互接続の反復パターンを使用します。生成AIを含むあらゆるアプリケーションのニューラル・ネットワークの設計では、ニューロンの同じパターンを何百回、何千回と繰り返すことが多く、通常は同じパラメータを再利用します。これが「ニューラル・ネットワークのアーキテクチャ」と呼ばれるものの本質的な部分です。新しいアーキテクチャの発見は、1980年代以降のAIイノベーションにおける重要な分野であり、多くの場合、新しいメディアをサポートするという目的により推進されてきました。ただし、ひとたび新たなアーキテクチャが発明されると、それを予想外の方法で採用することにより、さらなる進歩がもたらされることも少なくありません。新たなイノベーションは、異なるアーキテクチャの要素を組み合わせることから生まれます。

最も初期から存在し、現在でも最も一般的なアーキテクチャは以下の2つです。

  • リカレント・ニューラル・ネットワーク(RNN)は1980年代半ばに登場し、現在も使用されています。RNNは、AIが学習能力を持つこと、そして、言語、株式市場の動向、ウェブのクリック・ストリームなど、シーケンシャル・データ、つまり、連続性が意味を持つ情報を活用するタスクの自動化に使用できることを実証しました。RNNは、音楽生成AIアプリケーションなど、多くのオーディオAIモデルの中核となっていますが、これは音楽のシーケンシャルな性質と時間に基づく依存関係を考えればわかることです。しかも、自然言語処理(NLP)にも長けています。RNNは、音声認識、筆跡解析、金融および天候の予測、エネルギー需要の変動予測など、他の多くのアプリケーションと同様に、従来のAI機能にも使用されています。
  • 畳み込みニューラル・ネットワーク(CNN)が登場したのは、それから約10年後のことです。グリッド状のデータに重点を置いているため、空間的なデータ表示に秀でているほか、画像の生成も可能です。MidjourneyやDALL-Eなどの代表的なテキストから画像への生成AIアプリケーションは、最終的な画像の生成にCNNを使用します。

RNNは現在でも頻繁に使用されていますが、RNNを改良するための継続的な努力が画期的な進歩をもたらしました。

  • トランスフォーマー・モデルは、RNNよりもはるかに柔軟で強力にシーケンスを表現する方法へと進化しました。これには、テキストなどのシーケンシャル・データを、シーケンスに対する理解を失うことなく大量に並列処理することを可能にする特性が複数あります。シーケンシャル・データの並列処理は、ChatGPTが分かりやすい対話型プロンプトにとても迅速かつうまく応答することを可能にする重要な特性のひとつです。

研究機関、民間業界、オープンソースの取り組みにより、ニューラル・ネットワークのアーキテクチャとアプリケーションのより高いレベルでのイノベーションを実現するインパクトのあるモデルが生み出されています。例えば、モデルを改善するためにトレーニングからのフィードバックの取り入れ方や、生成AIアプリケーションに複数のモデルを組み合わせる方法など、トレーニング・プロセスにおいて重要なイノベーションがありました。ここでは、特に重要な生成AIモデルのイノベーションをご紹介します。

  • バリエーション・オートエンコーダ(VAE)は、ニューラル・ネットワークのアーキテクチャとトレーニング・プロセスのイノベーションを利用しており、画像生成アプリケーションによく組み込まれています。エンコーダーとデコーダーのネットワークで構成され、それぞれがRNN、CNN、トランスフォーマーなど、異なる基本アーキテクチャを使用することがあります。エンコーダは画像の重要な機能と特徴を学習し、その情報を圧縮し、メモリに表現として保存します。そしてデコーダーは、その圧縮された情報を使用してオリジナルの再現を試みます。最終的に、VAEはトレーニング・データに類似した新しい画像の生成を学習します。
  • 敵対的生成ネットワーク(Generative Adversarial Network:GAN)は、さまざまなモダリティで使用されていますが、動画やその他の画像関連のアプリケーションには特に親和性があるようです。GANが他のモデルと異なる点は、トレーニングの過程で互いに競い合う2つのニューラル・ネットで構成されていることです。例えば画像の場合、「生成器」が画像を生成し、「識別器」がその画像が本物か生成されたものかを判断します。生成器は常に識別器を欺こうとし、識別器は常に生成器の行為を検知しようとします。ほとんどの場合において、競合する2つのニューラル・ネットはCNNアーキテクチャに基づいているものの、RNNやトランスフォーマの亜種である可能性もあります。
  • 拡散モデルは、全体的なフレームワークに複数のニューラル・ネットワークを組み込み、時にはCNN、トランスフォーマー、VAEなどの異なるアーキテクチャを統合することもあります。拡散モデルは、データの圧縮、そのデータに対するノイズの追加、ノイズ除去、そして元のデータの復元の試みを行うことにより学習します。一般的なStable Diffusionツールは、最初のステップと最後のステップでそれぞれVAEエンコーダーとデコーダーを使用し、ノイズ生成とノイズ除去のステップで2つのCNNバリエーションを使用します。

生成AIの活用方法とは

世界は生成AIが持つ潜在的な用途のほんの表面のみを捉え始めたに過ぎませんが、それを業務に適用することにより企業がいかに利益を得ることができるかは一目瞭然です。生成AIが、顧客とのやり取り、営業とマーケティング、ソフトウェア・エンジニアリング、研究開発の主要分野にもたらす可能性のある変化を考えてみましょう。

カスタマーサービスでは、初期のAIテクノロジーによりプロセスが自動化され、顧客のセルフサービスが導入されましたが、同時に新たな顧客の不満も引き起こしました。生成AIは、さまざまな言語や地域に適応できるチャットボットによって、顧客とサービス担当者の双方にメリットをもたらし、よりパーソナライズされた利用しやすいカスタマーエクスペリエンスを実現することが見込まれています。顧客の問題を解決するために人間の介入が必要な場合は、カスタマーサービス担当者が生成AIツールとリアルタイムでコラボレーションして実行可能な戦略を見出し、やり取りの速度と精度を向上させることができます。生成AIが大企業全体のナレッジ・ベースを活用して、顧客の苦情に対する新しい解決策を合成するスピードは、回答が見つかるまで、あるいは顧客が我慢の限界に達するまで、時代遅れの電話案内や電話転送に頼るのではなく、サービス・スタッフが特定の顧客問題を効果的に解決する機能を強化します。

マーケティングでは、生成AIは、異なるソースからのデータの統合と分析を自動化することができ、インサイトを得るまでの時間を大幅に短縮し、より十分な情報に基づいた意思決定と市場参入戦略の開発の迅速化に直接つながるものとなります。マーケティング担当者は、この情報を他のAIが生成したインサイトと併用して、よりターゲットを絞った新しい広告キャンペーンを作成することができます。これにより、スタッフは人口統計や購買行動データの収集に費やす時間を短縮し、結果の分析や新しいアイデアのブレーンストーミングにさらに多くの時間を割くことができます。

B2Bマーケティング・エージェンシー、Stein IASの会長兼チーフ・ブランド・オフィサーであるTom Stein氏は、当社を含むあらゆるマーケティング・エージェンシーがこのような機会を急速に探っていると述べます。しかし、代理店のバックエンド・プロセスには、よりシンプルで迅速な勝利もあるとStein氏は指摘します。

「RFI(情報提供依頼書)を受け取った場合、その企業の状況に特有のコンテキストの違いはあるかもしれませんが、通常、70%から80%は他のRFIと同じ情報を求めてきます」と、2023年Cannes Lions Creative B2B Awardsの審査委員長も務めたStein氏は語ります。「いくらでもAIツールを使って、そのような作業をこなせるポジションを確保することは、それほど複雑なことではありません。ですから、自分の時間の80%を取り戻し、その時間をRFIに付加価値を与えて魅力的なものにすることに費やすことができるのであれば、それはあらゆる意味で勝利なのです。また、そのようなプロセスはいくつもあります。」

生成AIとコラボレーションしているソフトウェア開発者は、計画から保守に至るまで、あらゆる段階でプロセスを効率化し、スピードアップすることができます。作成の最初の段階で、生成AIツールは大量のデータを分析および整理し、複数のプログラム構成を提案することができます。コーディングが始まると、AIはコードのテストやトラブルシューティング、エラーの検出、診断の実行、修正の提案を、ローンチの前後両方において行うことができます。Thompson氏は、多くの企業アプリケーション・プロジェクトには複数のプログラミング言語や専門分野が組み込まれていることから、同氏や他のソフトウェア・エンジニアはAIを使用することで、不慣れな分野の知識習得を以前より格段に高速化することができたと指摘します。同氏はまた、馴染みのないコードの説明と特定の問題の検出にも生成AIツールを使用しました。

研究開発において、生成AIは製品設計の初期段階における市場調査の速度と深度を向上させることができます。AIプログラム、特に画像生成機能を備えたAIプログラムは、シミュレーションやテストを行う前に製品候補の詳細設計を作成することができ、研究開発サイクル全体を通じて迅速かつ効果的な調整を行うために必要なツールを従業員に提供することができます。

オラクル創業者のエリソンは6月の決算発表で、「専門化したLLMは救命新薬の発見を加速させる」と指摘しました。創薬は、生成モデルが幻覚により不正確もしくは検証不可能な情報を作り出す傾向をうまく利用して、斬新な医療治療の発見を支援するために新しい分子やタンパク質配列を特定するという研究開発における適用方法です。これとは別に、オラクルの子会社であるCerner Envizaは、米国食品医薬品局(FDA)およびJohn Snow Labsと提携し、「大規模集団に対する医薬品効果の理解」という課題にAIツールを適用しています。オラクルのAI戦略は、クラウド・アプリケーションとクラウド・インフラストラクチャ全体にわたる人工知能の浸透です。

生成AIのユースケース

生成AIは、さまざまなタスクのスピードアップや完全自動化を実現する広範囲な可能性を秘めています。企業は、事業運営にもたらすメリットを最大限に生かすために、計画的かつ具体的な方法を講じる必要があります。次に具体的なユースケースをいくつか紹介します。

  • ナレッジ・ギャップの解消:生成AIツールは、チャットベースのわかりやすいユーザー・インターフェイスにより、従業員が極めて単純なクエリから複雑な運用までと、あらゆることで行き詰まったときに、一般的な質問にも具体的な質問にも回答し、適切な方向性を示すことができます。例えば、営業担当者はターゲットとなるアカウントに関するインサイトを尋ねることができ、コーディング担当者は新しいプログラミング言語を学ぶことができます。
  • エラーのチェック:生成AIツールは、日常的なEメールから専門的な文章のサンプルまで、あらゆるテキストに含まれるミスを検出することができます。また、エラーを修正するだけではとどまらず、ユーザーの学習と作業の改善を支援するために行うことの内容と理由を説明することができます。
  • コミュニケーションの強化:生成AIツールは、テキストの異なる言語への翻訳、トーンの調整、異なるデータセットに基づく独自のメッセージの作成などを行うことができます。マーケティング・チームは生成AIツールを使用して、より関連性の高い広告キャンペーンを作成し、社内スタッフはそれを用いて過去のコミュニケーションを検索し、他の従業員の邪魔をすることなく、関連情報や質問への回答を素早く見つけることができます。Thompson氏は、従業員が抱く可能性のある疑問やアイデアについて、組織内の知識を統合するこの機能は、大規模な組織内での人々のコミュニケーション方法を根本的に変え、ナレッジの発見を加速させるだろうと考えています。
  • 事務負担の軽減:医療コーディングおよび請求業務など、管理業務が多い企業は、生成AIを使用することで、ドキュメントの適切なファイリングや医師のメモの分析など、複雑なタスクを自動化することが可能です。これにより、スタッフは患者ケアやカスタマーサービスなど、より実践的な業務に集中することができます。
  • 異常を検出するための医療画像スキャン:医療提供者は、生成AIを使用して医療記録や画像をスキャンし、注目すべき問題にフラグを立て、患者の病歴を背景に考えられる副作用を含む医薬品に関する推奨事項を医師に伝えることができます。
  • コードのトラブルシューティング:ソフトウェア・エンジニアは生成AIモデルを使用することで、コードを一行ずつ調べるよりも迅速かつ確実にトラブルシューティングと微調整を行うことができます。そして、将来のコーディングに役立てたり、プロセスを改善したりするために、ツールにより詳しい説明を求めることができます。

生成AIのメリット

生成AIがビジネスにもたらすメリットは、知識の統合、人間とAIのコラボレーション、そしてスピードという3つの包括的な属性からもたらされます。以下に挙げるメリットの多くは、過去に初期のAIモデルや自動化ツールに期待されたものと類似していますが、これら3つの属性のうち1つ以上があることで、ビジネス・モデルはより迅速、簡単、効果的にメリットを実現することができます。

生成AIを使用すると、組織は、独自の組織内の知識や知的財産(IP)でトレーニングされたカスタム・モデルを構築することができ、その後、知識労働者はソフトウェアに、同僚に使用できるものと同じ言語によるタスクのコラボレーションを依頼することができます。このような専門的な生成AIモデルは、企業全体のナレッジ・ベースから驚異的なスピードで情報を合成して対応することができます。こうしたアプローチでは、複雑で、多くの場合、有効性が低く、よりコストのかかるソフトウェア・エンジニアリングの専門知識を駆使して、こうしたタスクに特化したプログラムを作成する必要性を低減または排除できるだけでなく、これまでのアプローチでは得られなかったアイデアや関連性を明確にすることも可能です。

  • 生産性の向上:知識労働者は生成AIを使用することで、今後のプロジェクトで急に必要になった新たな分野の知識の習得、データの整理や分類、インターネットでの該当する調査の検索、Eメールの下書きなど、日常的なルーチン作業に費やす時間を短縮することができます。生成AIを活用することにより、以前は大規模なチームや何時間もの作業を必要としていたタスクを、少ない従業員がわずかな時間で達成することができます。例えば、プログラマーのチームは、不具合を解決するために欠陥のあるコードの解析に何時間も費やすことがありますが、生成AIツールは瞬時にエラーを検出し、修正案とともにレポートすることができる可能性があります。生成AIモデルの中には、知識労働能力の広範囲にわたり、ほぼ平均以上のスキルを持つものもあるため、生成AIシステムとコラボレーションすることで、人間のパートナーの生産性を飛躍的に向上させることができます。例えば、ジュニア・プロダクト・マネージャーも、AIコーチが傍らにあれば、少なくとも平均的なプロジェクト・マネージャーの役割を果たすことができます。これらの機能はすべて、知識労働者によるプロジェクトの完了を格段に加速させるでしょう。

  • コストの削減:生成AIツールは、その速さにより、プロセスを完了するためのコストを削減し、タスクにかかる時間が半分になれば、タスクにかかるコストも半分になります。また、生成AIはエラーを最小限に抑え、ダウンタイムをなくし、冗長性やその他のコストのかかる非効率性を特定することができます。しかし、そうしたことを相殺する要素もあります。生成AIは幻覚を起こす傾向があるため、依然として人間による監督と品質管理が必要なのですしかし、人間とAIのコラボレーションは、人間のみで行うよりもはるかに多くの作業量を短時間で、AIツールのみで行うよりもより適切かつ正確にこなし、結果的にコストを削減することが見込まれています。例えば新製品をテストする際、生成AIは従来のツールよりも高度で詳細なシミュレーションを作成する上で役立ちます。これにより、最終的に新製品のテストにかかる時間とコストを削減することができます。

  • 顧客満足の向上:生成AIベースのセルフサービスや、生成AIツールがナレッジを顧客サービス担当者に「耳元でささやいて」リアルタイムに提供することで、顧客はより優秀でパーソナライズされたエクスペリエンスを得ることができます。今日、AIによるカスタマーサービス・チャットボットは、時にその限界をもどかしく感じさせることもありますが、今日ChatGPTで交わされる会話のレベルに基づいて、企業が特別にトレーニングした生成AIモデルにより、より質の高いカスタマー・エクスペリエンスが実現することは容易に想像することができます。

  • より十分な情報に基づく意思決定:特別にトレーニングされた企業固有の生成AIモデルは、シナリオ・モデリング、リスク評価、およびその他の高度なアプローチによる予測分析を通じて、詳細なインサイトを提供することができます。意思決定者は、これらのツールを活用することで、アナリスト達や旧来のテクノロジーが単独で生成するよりも、より広範囲なデータと迅速な分析から得た情報に基づく、パーソナライズされた推奨事項と実行可能な戦略を通じて、業界とその中での企業の立ち位置をより深く理解することができます。

    例えば、意思決定者は、エンタープライズ・リソース・プランニング(ERP)システムにより収集された内部データと、その後専用の生成AIモデルを用いて分析される包括的な外部市場調査の組み合わせにより可能となる、より正確な需要予測を通じて、繁忙期前の在庫配分をより適切に計画することができます。この場合、より適切な配分を決定することで、過剰購入や在庫切れを最小限に抑えつつ、売上の可能性を最大化することができます。

  • 製品発売の迅速化:生成AIは、製品のプロトタイプと最初のドラフトの迅速な作成、仕掛かり品に対する微調整の支援、および既存のプロジェクトのテストおよびトラブルシューティングを行い、従来よりもはるかに迅速に改善点を検出することができます。

  • 品質管理:企業に特化した専門的な生成AIモデルは、企業が一般に提供するユーザー・マニュアルや動画、その他のコンテンツにおけるギャップや矛盾を明らかにすることが見込まれます。

具体的な生成AIのメリットの例
  ナレッジの統合 人間とAIのコラボレーション 迅速
改善された生産性 データを整理、調査を迅速化し、最初のドラフトを作成します。 従業員に新しい分野についての教育を行い、問題解決のための斬新な方法を提案します。 知識労働者が新規プロジェクトを完遂するための能力を促進します。
コストの削減 ワークフローを改善するために冗長性や非効率性を特定します。 コラボレーションによる監視でヒューマンエラーを最小限に抑え、ダウンタイムを削減します。 タスクの完了を迅速化します(タスクにかかる時間が半減すれば、コストも半減します)。
顧客満足度の向上 お客様のアカウント情報を迅速に整理および取得し、問題解決を早めます。 チャットボットの改善により、シンプルなやり取りが自動化され、人間による支援が必要な場合の担当者への情報提供が改善されました。 顧客とサービス担当者の両方に、アカウントの最新情報と情報をリアルタイムで提供します。
より十分な情報に基づく意思決定 シナリオ・モデリングやリスク評価などの予測分析を仲介することで、インサイトの取得を迅速化します。 意思決定者にパーソナライズされた推奨事項と実用的な戦略を提供します。 アナリスト達や旧来のテクノロジーよりも、より広範囲なデータから迅速な分析を生成します。
製品発売の迅速化 プロトタイプと「実用最小限の製品」(MVP)を作成します。 既存プロジェクトのテストやトラブルシューティングを行い、改善点を見つけます。 調整が実行可能になるまでの速度を高めます。

生成AIの限界

教育や研究のために生成AIツールを使ったことがある人なら誰でも、その最もよく知られた限界を経験したことがあるでしょう。それは、生成AIによる作り話です。モデルは次の単語を予測しているだけなので、トレーニング・データから推測して、真実と同様に堂々と虚偽を述べることがあります。これがAI研究者が幻覚と呼ぶものであり、現在の生成AIツールが人間とのコラボレーションを必要とする主要な理由です。企業は、生成AIを導入する際に、これに加えて他の限界に備え、管理するよう注意する必要があります。ビジネスで非現実的な期待を設定したり、テクノロジーの効果的な管理を行わない場合、結果的に企業のパフォーマンスや評判が損なわれる可能性があります。

  • 監視の必要性:生成AIモデルは、誤った情報や誤解を招くような情報を、多くの場合、エキスパートでさえも騙されてしまうような詳細で信頼性の高い論調で紹介することがあります。同様に、出力にモデルをトレーニングしたデータセットから学習した偏見や不快な言語が含まれている可能性もあります。このような欠陥のある出力が広まり、顧客に伝わったり、企業の方針に影響を与えることを防止する上で、人間がワークフローの重要な一部を担うことに変わりはありません。
  • 処理能力と初期投資:生成AIモデルは、トレーニングと運用の両方に膨大な処理能力を必要とします。多くの企業では、こうしたシステムを自社で構築および維持するために必要なリソースや専門知識が不足しています。これが、生成AI開発の多くにクラウド・インフラストラクチャが使われている理由の1つです。
  • 多様化ではなく、収束する可能性:独自の専門モデルを構築せず、公共の生成AIツールを活用する組織は、画一的な存在になる可能性があります。多くの場合、同一のトレーニング・データに基づいていることから、他社と同じ結論に至ることがわかります。このような企業は、人間によるイノベーションを業務に取り入れない限り、現在のベストプラクティスに効果的に適応することはできても、競争における差別化要因の特定に苦戦することになりかねません。
  • 従業員および顧客からの抵抗:従業員、特にプロトコルと方法が定着している長年の従業員は、生成AIへの適応に苦労する場合があり、その適応中に生産性が低下する可能性があります。同様に、スタッフが職を失うことを恐れてテクノロジーに抵抗することもあります。マネージャーやビジネス・リーダーは、このような不安を解消し、テクノロジーによりビジネス構造がどのように変化するのか、あるいは変化しないのかについて、オープンで透明性のある態度を取る必要があります。

生成AIのリスクと懸念点

生成AIはリスクスペクトルの両側で極端な反応を引き起こしてきました。人類の絶滅につながると懸念するグループもあれば、世界を救うと主張するグループもあります。そうした極端なことは、この記事では取り上げません。しかし、AIテクノロジーを導入するビジネス・リーダーが、潜在的な悪影響を軽減するための対策を講じることができるように、理解しておく必要がある重要なリスクや懸念事項をいくつかご紹介します。

  • 信頼と信頼性:生成AIモデルは、不正確な請求をしたり、完全に捏造された情報を幻覚として作り出すこともあります。同様に、多くのモデルは過去のデータでトレーニングされており、特定の日付までに公開された情報のみを参照することが一般的であることから、昨年の市場に適合していたものが、もはや関連性や有用性を失っている可能性があります。例えば、サプライチェーン運用の改善を目指す企業は、モデルが提案する内容が時代遅れで、刻々と変化するグローバル経済には適切でないことを実感する可能性があります。利用者は、正確性と妥当性を確保するために、行動する前にすべての請求内容を検証する必要があります。

  • プライバシーと知的財産:生成AIモデルは、多くの場合、プロンプトの一部として提供された情報入力から継続的に学習します。企業、特に医療行為など、顧客から機微な個人情報を収集する企業は、保護されたIPや機密データが漏洩しないように注意しなければなりません。モデルがこの情報にアクセスすれば、露出の可能性が高まる可能性があります。

  • ソーシャル・エンジニアリングの強化:脅威アクターはソーシャル・エンジニアリングやその他のサイバー攻撃をより本物らしく見せることで、パーソナライズの強化を支援するために、すでに生成AIを使用しています。

    DuolingoのAIおよびセキュリティ・エンジニアであるBaig氏は述べます。「すでに、オンラインで話している相手がボットなのか人間なのかを区別することが、とても難しくなっています。「一儲けしようとする犯罪者にとって、人々を欺くことができるコンテンツを大量に作り出すことが格段に容易になりました。」

  • 出力の品質と独創性の低下:生成AIは製品やコンテンツの構築をより簡単かつ迅速にすることはできますが、結果の品質向上を保証するものではありません。人間のコラボレーションなしにAIモデルを活用すると、標準化された創造性に欠ける製品になる可能性があります。

  • 先入観:生成AIモデルが、見解の相違から有害で偏見に満ちた内容まで、偏ったデータに基づいてトレーニングされた場合、その先入観は出力に反映されます。例えば、ある企業が歴史的に同じタイプの従業員しか採用してこなかった場合、モデルは新しい応募者を「理想的な」従業員と照合し、たとえ組織がそうした型を廃止するつもりであったとしても、型にはまらないという理由で有能な候補者を排除してしまうかもしれません。

  • シャドーAI:従業員が組織の正式な許可や承知なしに生成AIを使用することで、企業が不用意に誤った情報を発信したり、他の組織の著作権を侵害する可能性があります。

  • モデルの崩壊:AI研究者は、生成AIモデルの有用性が時間とともに低下する可能性のある、モデルの崩壊と呼ばれる現象を特定しました。基本的に、AIが生成したコンテンツの増加に伴い、その合成データ(必然的にエラーを含む)でトレーニングされたモデルは、元々トレーニングされた人間が生成したデータの特徴を最終的に「忘れ」ます。この懸念は、インターネット上にAIコンテンツが増えるにつれて、モデルを劣化させるフィードバック・ループを生み出し、限界に達する可能性があります。

  • AI規制:生成AIは非常に新しいため、適用できる規制はあまりありません。それでも、世界中の政府が規制の方法を調査しています。中国のように、モデルのトレーニング方法や作成を許可する内容に関して、すでに規制措置を提案している国もあります。規制を課す国が増えるにつれ、企業、特に国際企業は、新規および変更される法律をモニターしてコンプライアンスへの準拠を確保し、テクノロジーの不正使用による罰金や刑事責任を回避する必要があります。

倫理と生成AI

10年以上前にビッグ・データ分析が台頭し、そのツールにより、それまで明かされることのなかった、また明かされることを望まなかった人々の個人情報や機密情報を推測することが可能になったため、新たな倫理的疑問や議論が巻き起こりました。企業は、そうした情報を所有する機能をどのように扱うべきでしょうか。

そのデータ分析を加速させる可能性から、生成AIは新たな倫理的問題を提起するとともに、古い問題を再浮上させています。

  • 生成AIが労働者に与える影響とは生成AIはすでに多くの労働者に長期的な雇用の見通しについて不安を感じさせていますが、それは当然のことです。テクノロジーの発展は、それにより失われる仕事よりも、より多くの、より価値の高い仕事を生み出してきたことは歴史が示していますが、AIが不要にする可能性のある職務により、現在、生活を支えられている人々がいます。
  • 潜在的な先入観を排除する方法オラクルは、あらゆるAIモデルに偏見のある結果を生み出す可能性があることを理解しています。組織は、企業リスクと倫理の両方の観点から、この課題の管理方法を先行的に選択することが求められます。
  • 悪質な行為者がGAIモデルを利用して、大衆に危害と大混乱を与え得る理由無数にある生成AIの潜在的な利用法には、残念ながら犯罪行為や有害行為も含まれ、特に生成モデルが一般に利用されるようになるにつれて、その可能性が高まります。個人の声や画像を使用したディープフェイク動画、サイバー攻撃を強化するハッキング・ツール、広範に及ぶ誤報、ソーシャル・エンジニアリング・キャンペーンは、悪意のある行為者が生成AIを使用する可能性のある方法のほんの一部に過ぎません。現在、多くのモデルには安全装置が設置されていますが、そのガードレールは最適とはみなされません。独自のモデルを導入する企業は、システムの機能を理解し、責任ある使用を保証するための措置を講じる必要があります。
  • AIにより生成された業務の所有者企業が自社のデータでモデルを微調整する場合でも、生成AIモデルは膨大な量の外部データでモデルをトレーニングします。そのため、モデルの出力に他の組織の業務の要素が含まれる可能性があり、盗作や著作権侵害など、倫理的および法的な問題が発生する可能性があります。これは特に画像生成AIモデルに当てはまり、あらゆるクリエイティブ分野のアーティストが、自分たちの作品がこれらのプログラムに取り込まれないようにする方法を模索しています。規制当局が徐々に新たなルールを策定する可能性があるため、生成AIを使用する場合は、自社のコンテンツとして公開する前に、そのコンテンツの出所と使用方法を検討する必要があります。

生成AIの例

米軍からCoca-Colaまで、あらゆる規模や業界の企業が生成AIの実験を活発に行なっています。ここでは、このテクノロジーの幅広い可能性と迅速な導入を示す、一部の例をご紹介します。

Snapchatの運営会社であるSnap Inc.は、OpenAIのGPTテクノロジーを実装した「My AI」と呼ばれるチャットボットを発表しました。Snapchatのトーンやスタイルに合わせてカスタマイズされたMy AIは、フレンドリーで親しみやすくなるようにプログラムされています。ユーザーは、アバター、壁紙、名前で外観をカスタマイズすることができるほか、1対1または複数のユーザー間でのチャットに使用が可能で、スナップチャットユーザーの典型的な友人とのコミュニケーション方法をシミュレーションします。ユーザーは、個人的なアドバイスを求めたり、食べ物、趣味、音楽などのトピックについてカジュアルな会話を交わすことができ、ボットはジョークを言うことも可能です。SnapchatのMy AIは、ユーザーが拡張現実レンズなどのアプリケーションの機能を調べたり、地元の地図でお勧めの場所を紹介するなど、通常Snapchatを利用することがないような情報の取得を支援します。

Bloombergが発表したBloombergGPTは、世界に関する一般的なデータと、独自のBloombergデータまたはクリーン化された金融データのどちらかを半分ずつトレーニング・データ化したチャットボットです。これは、適切な記事の見出しを書くような簡単なタスクや、平易な英語のプロンプトを、多くの金融業界の企業にとって必需品である同社のデータ端末で要件となっているBloombergクエリ言語に変換するような専門的なトリックを実行することができます。

オラクルは、AI開発企業Cohereと提携して、企業が自社の企業データで微調整した内部モデルを構築するのを支援することで、企業に特化した生成AIツールの普及を目指します。

「Cohereとオラクルは、トレーニング・データのプライバシーを保護しながら、企業顧客が独自の専門的な大規模言語モデルをトレーニングすることを極めて容易にするために協力しています」と、オラクルのエリソン氏は2023年6月の決算発表で金融アナリストに対し述べました。オラクルは、生成AIサービスをビジネス・プラットフォームに組み込み、多くの企業が独自のモデルを一から構築してトレーニングする必要性を省きつつ、ビジネスの既存プロセス全体の生産性と効率性を向上させる計画です。そのため、同社は最近、生成AI機能を人事ソフトウェアであるOracle Fusion Cloud Human Capital Management(HCM)に組み込むことも発表しました。

追加事項:

  • Coca-Cola は、テキストと画像の生成機能を使用して、広告コピーをパーソナライズし、高度にカスタマイズされた顧客エクスペリエンスを構築しています。
  • American Expressは、クレジットカードの不正検出におけるAI活用の最前線に長年立っており、Amex Digital Labsの子会社で消費者向けとB2B向けの機能を開発しています
  • 国防総省のデジタルおよびAIオフィスは、5つの生成AIモデルを実験的に使用し、機密データをフィードして、人間の軍事指導者が考えもしなかった創造的な選択肢を提案するための使用方法を探るためにそれらをテストしています。
  • Duolingoは、外国語学習者を支援するためにChatGPTを搭載したボットを使用しています。これは、模擬テストの解答の正誤理由について詳細な説明を提供し、ユーザーが人間のチューターとやりとりする方法を模倣します。
  • Slackは、各顧客のSlackチャンネルに存在する組織のナレッジのコーパスから、顧客の従業員によるインサイトやアドバイスの抽出を支援することを目的としたチャットボットをリリースしました。

生成AIツール

ChatGPTは一大ブームとなったツールですが、モダリティごとにさまざまな生成AIツールが提供されています。例えば、文章を書くだけなら、Jasper、Lex、AI-Writer、Writerなどがあります。画像生成では、Midjourney、Stable Diffusion、Dall-Eが現在最も人気があるようです。

音楽生成ツールには、AIVA、Soundful、Boomy、Amper、Dadabots、MuseNetなど数十種類があります。ソフトウェア・プログラマーがChatGPTとコラボレーションすることは知られていますが、Codex、codeStarter、Tabnine、PolyCoder、Cogram、CodeT5など、専門的なコード生成ツールも豊富にあります。

生成AIの歴史

おそらく驚くべきことに、今日使用されている生成AIモデルに至る道のりの最初の一歩は1943年、つまり第二次世界大戦中に暗号化されたメッセージを解読するために英国で使用された最初の電気式プログラム可能コンピューター「Colossus」の実演が実施されたのと同じ年に踏み出されました。AIの段階となったのは、精神科医でイリノイ大学医学部教授のWarren McCullochと独学の計算神経科学者であるWalter Pittsによる研究論文「A Logical Calculus of Ideas Immanent in Nervous Activity」でした。

明らかに数学の天才であったPittsは、15歳で家を出てホームレスになっていたところを、Pittsを自分の家族のもとに引き取ったMcCullochに出会いました。Pittsが持っていた唯一の学位は、人工ニューロンが「1」を出力するか「0」を出力するかを「決定」する基本的な数学を確立した重要な論文を発表した後にシカゴ大学から授与された準学士号でした。

第2段階は、北東へと移動し、ニューヨーク州バッファロー、コーネル航空研究所の研究心理学者、Frank Rosenblattが担います。1957年7月、コーネル大学のPARA(Perceiving and Recognizing Automaton)プロジェクトの一環として、米国海軍研究所からの助成金を受けて活動したRosenblattは、McCullochとPittsの数学に基づき、入力層と出力層の間に単一の「隠れ」層を持つニューラル・ネットワークのパーセプトロンを開発しました。現在スミソニアン博物館に保管されているMark I Perceptronを構築する前に、Rosenblattと海軍は1958年7月にIBM 704メインフレーム・コンピューター上でシミュレーションを行い、公開デモンストレーションを実施しました。しかし、パーセプトロンは非常にシンプルなニューラル・ネットワークであったため、マサチューセッツ工科大学のコンピュータ科学者で、MITのAI研究室の共同創設者であるMarvin Minskyから批判さ れました。MinskyとRosenblattは、パーセプトロンの長期的な見通しについて公開討論会で議論し、その結果、AIコミュニティは1960年代から1980年代までニューラル・ネットワークの研究を大幅に放棄していたと伝えられています。

この時期は「AIの冬」と呼ばれるようになりました。

ニューラル・ネットワーク研究の状況は、パーセプトロンを再発見したPaul Werbos、Geoffrey Hinton、Yoshua Bengio、Yann LeCunをはじめとする数名の研究者の貢献により、1980年代に好転しました。彼らの共同研究は、大規模な多層ニューラル・ネットワークの実行可能性を実証し、そのようなネットワークがバックプロパゲーション・アルゴリズムによる単位割り当てを通じた、正解と不正解からの学習方法を明らかにしました。RNNとCNNが登場したのはこの頃です。しかし、このような初期のニューラル・ネットに限界があったことに加え、そうした限界と当時の計算能力の状況により達成されることのなかった初期の過大な期待も相まって、1990年代から2000年代初頭にかけて第二のAIの冬が訪れました。

しかし今回は、多くのニューラル・ネット研究者が、Hinton、Bengio、LeCunなどのコースに留まりました。「AIのゴッドファーザー」とも呼ばれるこの3人は、1980年代の業績とその後のたゆまぬ努力、そして現在も続く貢献が評価され、2018年チューリング賞を受賞しました。2010年代半ばまでに、生成AIモデルのセクションで説明したように、新しいさまざまなニューラル・ネットが迅速に出現していました。

生成AIの未来

生成AIがビジネスや人々の働き方にどのような影響を与えるかはまだわかりません。しかし、より明確ひなっていることは、人間による取り組みの複数の側面にわたり、生成AIに大規模な投資が行われていることです。ベンチャーキャピタル、大企業、そしてその中間に位置するほぼすべての企業が、猛烈なスピードで生成AIのスタートアップに投資しています。LLMの普遍的な「魔法」は、人とビッグ・データとのやり取りを仲介し、情報をシンプルかつ明確に、そして驚異的な速さで説明することで、人々による情報の理解を支援する非常に優れた機能です。このことは、生成AIが既存の様々なアプリケーションに組み入れられるようになり、新しいアプリケーションの第二波の発明を引き起こすことを示唆しています。

例えばガートナーは、2024年までに企業アプリケーションの40%に対話型AIが組み込まれ、2025年までに企業の30%がAIを拡張した開発およびテスト戦略を導入し、2026年までに1億人以上の労働者が「ロボコリーグ」とコラボレーションすると予測しています。

もちろん、生成AIのリスクや限界が、この快進撃を頓挫させる可能性もあります。生成モデルの微調整によりビジネスに独自性を持たせるニュアンスを理解することが難解すぎることが判明する可能性、そのような計算集約的なモデルの実行にはコストがかかりすぎることが判明する可能性、さらに取引上の機密の不用意な漏洩により企業を敬遠させる可能性があります。

また、そのすべてが起こりはするものの、そのペースは現在多くの人が予想しているよりも緩やかなものになる可能性があります。思い起こせば、インターネットは期待されていた通りのものとなりました。ただし第一世代の愛好家たちの予想よりも10年長くかかり、その間に必要なインフラストラクチャの構築や発明が行われ、人々は新しいメディアの可能性に行動を適応させていきました。多くの意味で、生成AIもまた新たなメディアです。

インフルエンサーたちは、ビジネスにおける生成AIの未来について幅広く考えています。

「このことは、私たちが将来、これまでとは異なる方法で企業を設立することを意味している可能性があります」と、ベンチャー・キャピタリストであり、Carnegie Mellon University's Tepper School of Businessのアントレプレナーシップの著名なサービス教授兼CMUのコーポレート・スタートアップ・ラボの共同設立者のSean Ammirati氏は語ります。インターネットの台頭後、「デジタルネイティブ」企業が優位性を得たことと同様に、Ammirati氏は、生成AIによる自動化に基づいて基礎から構築された将来の企業が主導権を握ることができると考えています。

「このような企業は自動化が先立っているため、自動化された方法で行っているはずの作業を手作業で行うのをやめる方法を再学習する必要はありません。」と同氏は語ります。「結果的に、大きく異なる形の企業となる可能性があります。」

オラクルによる生成AIの容易な導入

オラクルは、人工知能機能に取り組み、自社製品に組み込んできた長い実績があるだけでなく、生成AIに関する開発と活動の最前線にいます。Oracle Cloud Infrastructureは、主要な生成AI企業に使用されています。この次世代クラウドは、企業がそれぞれの組織や事業部門に特化した生成AIモデルを構築および導入するための最適なプラットフォームを提供することができます。オラクルのエリソンは次のように説明します。「オラクルのすべてのクラウド・データセンターには、高帯域幅、低レイテンシ、RDMA(リモート・ダイレクト・メモリ・アクセス)ネットワークがあり、生成大規模言語モデルをトレーニングするために使用される大規模GPUクラスタの構築に完璧に最適化されています。オラクルのGen 2クラウドで生成AIワークロードを実行することによる極めて高いパフォーマンスと関連コストの削減により、オラクルは最先端のAI開発企業の間で一番の選択肢となっています。」

オラクルとCohereの提携により、生成AIクラウド・サービスが新たに提供されることになりました。「この新サービスは企業顧客のトレーニング・データのプライバシーを保護するもので、企業顧客は自社のプライベート・データを安全に使用して、自社専用の大規模言語モデルをトレーニングすることができます」とエリソンは述べています。

生成AIの話は、80年前に10代の家出人の数学から始まり、昨年末のChatGPTのリリースで一大ブームとなりました。生成AIのイノベーションは、あらゆる規模や業界の企業がその機能を試用し、投資することで、急速に加速しています。しかし、生成AIは仕事と生活を大きく向上させる機能とともに、失業から、破滅論者の言葉を信じるなら人類滅亡の可能性まで、大きなリスクをもたらします。確実に分かっていることは、魔法の瓶は開け放たれており、もう後戻りはできないということです。

オラクルが生成AIに最適な理由

オラクルは最新のデータ・プラットフォームと低コストで高性能なAIインフラストラクチャを提供します。さらに、強力で高パフォーマンスなモデル、比類のないデータ・セキュリティ、組み込みAIサービスといった要素が、オラクルのAI製品とサービスが実際に企業向けに構築されたものである理由を示しています。

生成AIに関するFAQ

生成AIテクノロジーとは何かを教えてください。

生成AIテクノロジーは、人間の脳の仕組みと考えられているものを模倣したニューラル・ネットワークのソフトウェア・アーキテクチャに基づいて構築されています。これらのニューラル・ネットは、比較的小さなサンプルで膨大な量のデータを入力し、シーケンス内の次の単語や、一連の文章の正しい順序など、単純な予測をAIにさせることによりトレーニングされます。ニューラル・ネットは、正解と不正解に対して評価や非評価が与えられるので、適切な予測ができるようになるまで、そのプロセスから学習します。最終的には、このテクノロジーはトレーニング・データと学習に基づいて、質問やその他のプロンプトに対して人間のような方法で応答します。

生成AIの例を教えてください。

現在、生成AIの最もよく知られた例は、人間のような会話や、さまざまなトピックに関する文章を書くことができるChatGPTです。他にも、画像を生成するMidjourneyやDall-Eなど、テキスト、画像、動画、音声を生み出すことのできるさまざまなツールを挙げることもできます。

生成AIとAIの違いを教えてください。

生成AIは従来のAIとは根本的に異なるテクノロジーではなく、スペクトルの異なる位置に存在するものだということを認識しておくことが重要です。従来のAIシステムは、クレジットカードの不正検出など、特定のタスクを実行することが一般的でした。生成AIは通常、より幅広く、新しいコンテンツを生み出すことができます。これは、生成AIツールが従来のAIよりも大規模で多様なデータセットでトレーニングされるためでもあります。さらに、従来のAIは教師あり学習でトレーニングされることが通常であるのに対し、生成AIは教師なし学習でトレーニングされます。

生成AIの危険性について教えてください。

生成AIがもたらす可能性のあるリスクについて、社会で大きな議論が起きています。議論の対極にある過激派はそれぞれ、このテクノロジーは最終的に人類を絶滅に導くかもしれない、もう一方は、世界を救うかもしれないと言っています。より可能性が高いのは、AIにより既存の多くの仕事がなくなることです。企業は、生成AIが業務プロセスや職務の役割に変化を生じさせる方法だけでなく、個人情報や機密情報の不注意な暴露や著作権侵害の可能性についても懸念する必要があります。

生成AIが力を発揮できることを教えてください。

生成AIは、人間とのコラボレーションにより、例えば、新しいアイデアのブレーンストーミングや、隣接する分野の従業員の教育などを支援するために、大いに活用することができます。また、非構造化データのより迅速な分析を支援する優れたツールでもあります。より一般的には、生産性の向上、コストの削減、顧客満足の向上、意思決定のためのより適切な情報の提供、製品開発ペースの加速などを通じて、ビジネスに利益をもたらすことができます。

生成AIにできないことを教えてください。

生成AIは、トレーニング・データでこれまでに示されていない、あるいは少なくともそのデータから推定されたことのない、本質的に新しいアイデアを持つことはできません。またそれは、単独で任せるべきことでもありません。生成AIは人間の監視を要件とし、人間とAIのコラボレーションにおいてのみ最大限の力を発揮します。

生成AIを使用している業界を教えてください。

生成AIはその幅の広さから、事実上あらゆる産業で役立つことになるでしょう。

生成AIが働き方の未来に与える影響について教えてください。

生成AIは知識労働、つまり人間が共同作業やビジネス上の意思決定を行う活動に大きな影響を与えることが予想されます。少なくとも、知識労働者の役割は生成AIツールとの連携に適応させる必要があり、一部の仕事は淘汰されるでしょう。しかし、歴史は、生成AIから期待されるようなテクノロジーの変化が、常に失われる以上の雇用の創出につながることを示しています。