AIスタートアップによくある11の課題と対処法

Jeffrey Erickson | コンテンツ・ストラテジスト | 2024年1月12日

OpenAIが同社の大規模言語モデル(LLM)であるChatGPTを2022年11月にリリースしたところ、わずか2ヶ月で1億人のユーザーを獲得しました。これにより、ChatGPTはこれまでで最も急速に成長したコンシューマ・アプリケーションの1つになりました。

投資家はこれに注目しました。

それ以来、ForbesのAI企業トップ50にランクインした企業は、合計で272億ドル以上を調達しています。その中には、設立1年未満、従業員数が20人未満の企業もあります。魅力的なアイデアを持つAIスタートアップには、資金が流入しています。

しかし、調達した資金が成功を保証するわけではありません。AIスタートアップは、通常の気概、市場のタイミング、成長の管理以上のものを必要とする独自の課題を担っています。ChatGPTやMidjourneyのAI画像生成のようなサービスを動かすLLMのトレーニングは、人類が考え出した中で最もコンピューティング集約的なタスクのひとつです。投資会社は、AIスタートアップが調達した資本のほとんどは、そのままコンピューティング・リソースに使われると述べています。

それ以上に、AIスタートアップは、市場シェアを獲得するために迅速に動いている既存の大手企業との競争に奔走しながらも、自社のモデルが取り込むトレーニング・データの山に潜む機密情報のセキュリティとプライバシーに対する責任を負っています。

Microsoftの創業者であるBill Gates氏は、AIを、AppleのMacintoshや、それ以来人気のあるオペレーティング・システムやアプリケーションを立ち上げたグラフィカル・ユーザー・インターフェース以来の、コンピューティングにおける最も重要な開発と呼んでいます。ですから、起業家がこの動きに一石を投じたいと考えることは、当然です。それでは、AIスタートアップが競争に参入する際に注意すべき要因を見てみましょう。

AIスタートアップとは

生成AIスタートアップには3つの種類があります。OpenAIやCohereのようなLLMプラットフォームを構築するもの、MosaicMLのようなLLMの構築とトレーニングのための新しいツールを提供するもの、そしてオープンソースのLLMを利用し、特定のビジネスの問題を解決するためにそれらをトレーニングするもの、たとえばビジネスプレゼンテーションを改善するためにAIを適用するTomeなどがあります。

すべてのAIスタートアップは、ニューラル・ネットワークと呼ばれる強力なコンピューティング・アーキテクチャと機械学習アルゴリズム使用して、人間のようなテキスト、ビジュアル・コンテンツ、コンピュータ・コードを生成し、他の多くのタスクを実行できる使いやすい自然言語インタフェースを構築した、ChatGPT、Googleなどの企業の後に続いています。

主なポイント

  • AIプラットフォームは長年使用されてきましたが、2022年にLLMが一般向けにリリースされたことで、新しいスタートアップの登場が相次いでいます。
  • 投資家は、こうしたスタートアップを次々に発掘し、吟味し、資金提供しています。
  • AIスタートアップは、プライバシーおよび規制への懸念、コンピューティング容量の競争、既存企業の脅威など、移り変わる状況の中で活動しています。

AIスタートアップ11の課題

十分な資金を調達した新鋭からブートストラップで創業した新興企業まで、これらのスタートアップはAIベースのサービスを提供する企業特有のつまずきに直面しています。以下に挙げる11の課題から、待ち構えている可能性のある障壁の概要をご覧ください。

1 セキュリティとプライバシー

AIスタートアップは、標準的な企業のデータ・プライバシーとデータ保護の取り組みを超えるセキュリティとプライバシーの責任を担っています。ゼロトラスト・モデル採用、自動応答やアラートを発する悪意のある行為に対するネットワーク・モニタリングなど、多くのセキュリティ対策はよく知られています。しかし、新しい課題もあります。たとえば、AIモデルは、トレーニングに使用したデータから詳細を漏らす可能性があります。これらのデータセットは、さまざまなソースから取得され、数百ギガバイト、あるいは数テラバイトのサイズになることもあります。これらのデータには、名前、住所、その他の個人を特定できる情報を含む、機密データが含まれている可能性があります。そうしたデータを使用してトレーニングしているモデルは、その出力に個人情報を映し出す可能性があるののではないでしょうか。

スタートアップにとって、トレーニング・セットにどのようなデータが含まれているかを把握し、機密情報や規制情報に関わるリスクを最小限に抑える計画を立てることは重要です。そうした企業は、投資家にこれらの懸念が払拭されていることを説明し、万が一の事態に備えたコミュニケーション対応計画を策定する必要があります。

2. データ量

AI企業は、自然言語処理(NLP)や画像作成など、あらゆる種類のユースケース向けに、幅広いデータセットと数十億のパラメータを持つ大規模言語モデル(LLM)をトレーニングし、導入しています。また、コンピュータ・ビジョン、フォーキャストと予測、異常検知などのAIモデルも開発しています。特にLLMは、正確で一貫性のある出力結果を生成するために、膨大なデータセットを必要とします。

AIスタートアップであれば、データ管理はビジネスの中核となります。

しかし、主な課題は、AIトレーニングのニーズに合ったデータセットを見つけ出し、巨大なのデータウェアハウスやデータレイクハウスにアップロードすることです。そして、それらを見つけ出したら、グラフィック・プロセッシング・ユニット(GPU)サーバーのスーパクラスタを使用して、ニューラルネットワークや機械学習アルゴリズムによってデータが安全に流れている必要があります。

巨大チップ

GPUは、中央演算処理装置(CPU)よりも多くのコアを備えたチップです。この設計は、NVIDIAのCUDA(コンピュート・ユニファイド・デバイス・アーキテクチャの略)に見られるように、AIのトレーニングなどのタスクに必要となる大規模な並列処理を実現します。

3. コンピューティング容量

テレビ番組や映画、一般メディアで「AIは世界を破壊する」という主張を何度も目にします。その反論の一つとして、「悪質なAIはGPUをどこで調達するのか」という意見があります。

AIモデルが構築されるニューラルネットワークを実行するために、GPUはコンピューティング作業を分割します。すると、システムはクエリを複数のGPUで並列処理します。これによってコンピューターのCPUの負荷が軽減され、ネットワークが複雑な計算を極めて迅速に処理することが可能になります。AIモデルのトレーニングと実行は非常に多くの処理能力が必要となり、世界のチップメーカーとクラウド・プロバイダーは需要への対応に苦慮しています。チップを購入するためには順番待ちをしたり、クラウド・プロバイダーに自身のAIスタートアップが貴重なGPUを使うに値すると説得する必要があるかもしれないことを認識する必要があります。

4. カスタマイズ

大半のAIスタートアップは、他の企業が開発したLLMをもとに企業を構築すると言っても過言ではありません。それは、ほとんどの場合、OpenAIやCohereのようなAIモデルをカスタマイズする方が、AIモデルを最初から設計、構築、トレーニングするよりも効率的だからです。

特定の業界やユースケース向けのLLMのカスタマイズには、ファインチューニングと取得拡張生成(RAG)という2つの一般的なアプローチがあります。AIシステムの出力結果をファインチューニングするには、特定の要因に固有の大量のデータでAIをトレーニングし、AIが応答においてその情報をより重視するように指示します。もう1つのオプションであるRAGでは、関連性の高いドキュメントをデータベースに組み込み、AIが受け取った書面や口頭のプロンプトにコンテキストを与えるために使用します。RAGでは、これらのドキュメントによって、AIは出力内容に関連する技術的な詳細を追加することができ、さらに情報の入手元まで示すことができます。たとえば、医療業界のスタートアップが、LLMが医療プロフェッショナルからのプロンプトの意図をよりよく理解し、専門的な言語に関連する言語で出力結果を提供することを支援するドキュメントや記事を埋め込む場合があります。

それぞれの方法には、速度、品質、コストの面で利点と欠点があります。LLMのカスタマイズのアプローチは、業界やユースケースに固有のサービスの提供を希望するAIスタートアップにとって重要な決定事項です。

5. クラウド・コスト

変化の激しいスタートアップ期の企業にとって、既製のクラウド・インフラストラクチャを利用しないことは困難です。すべてのハイパースケール・クラウド・プロバイダーは、高帯域幅ネットワークで連携されたコンピュート・インスタンスのクラスタや高パフォーマンス・ファイルシステムなど、大規模な言語モデルのトレーニングやカスタマイズに必要なものを提供しています。また、これらのサービスは消費ベースであるため、オンプレミスのインフラストラクチャを構築するよりも低コストなことが多く、通常はるかに高速です。

これらのシステムは消費ベースであるため、速度と効率はコストと天秤にかける必要があります。AIスタートアップは、可能な限り複雑さを抑えたアルゴリズムと最小限のデータで必要なことを実行するLLMを実行することで、支出を低く保つことができます。予算の計算ができたら、モデルを効率的に処理できるクラウド・インフラストラクチャを選択します。たとえば、ベアメタル・サーバー上で実行すれば、仮想化インスタンスの間接費を回避し、より優れたパフォーマンスを提供します。これは、LLMで一般的なクラスタリングワークロードになると、さらに重要になります。

また、ジョブの実行速度が速いほど、料金は安くなることをご留意ください。

6. 効率性

LLMのトレーニングには大量のギガワット時のエネルギーが必要な場合があります。参考までに、投資会社The Carbon Collectiveによると、1ギガワットで874,000世帯もの電力を1年間供給することが可能です。LLMベースのサービスを提供するためにVCの資金調達を求めるスタートアップは、その資金を有意義に使用していることを証明する必要があります。たとえば、すべてのAIタスクに同レベルのモデルの高度さや処理能力が必要なわけではありません。OpenAI、Cohere、Anthropicなどの企業が提供するLLMには、さまざまな種類や サイズがあります。選択したLLMがニーズおよび予算に合っている理由をすぐに説明できる状態にしておく必要があります。

モデルとデータセットを選択したら、使用していないコンピュート・リソースの代金を支払うことがないように、効率的な並列処理とダイナミック・スケーリングを備えたインフラストラクチャを慎重に選択します。投資家に対して、パフォーマンスと低コストのバランスが取れていることを示すことができるように備えておく必要があります。

7. スケール

LLMの出力の質や速度を向上させるために、LLMをスケーリングする主な手法には、トレーニング・データの量の増加、より大きく複雑なモデルの使用、コンピューティング容量の追加、の3つがあります。

モデルが大きくなると、ニューラルネットワークのアーキテクチャのレイヤーとパラメータの数が増え、データの複雑なパターンを学習して表現する容量が増えます。その結果、LLMはより詳細でニュアンスのある回答を返すようになります。より多くのギガバイトのトレーニング・データを加えることで、AIスタートアップはより正確で完全な回答を提供することが可能になります。どちらの場合でも、モデルのパフォーマンス維持には高価なコンピュート・リソースをスケールアップすることも必要です。

8. データ品質

これは、人工知能に固有の課題ではありません。ビジネス・アナリストは何十年もの間、使用するデータの品質に頭を悩ませてきました。AIスタートアップは、データ・サイエンティストと対象分野のエキスパートの専門知識を活用し、アルゴリズムのトレーニングとLLMに使用しているデータセットから冗長な情報、無関係なコンテンツ、その他の「ノイズ」を除去する必要があります。

「ゴミを入れればゴミが出る」は、AIスタートアップが共感するであろう格言です。

9.KPIと測定

AIスタートアップにとって、成功に向けた定量的な指標と定性的な指標の両方を設定することは重要です。定量的指標には、テクノロジー投資に対するROIや、異常値を特定する平均二乗誤差(MSE)などの技術的な主要業績評価指標(KPI)が含まれます。

それ以上に、AIスタートアップは、AIモデルが新しいデータまたは過去に見たことのないデータに対してどの程度のパフォーマンスを発揮するか、ターゲット・オーディエンスにとってどの程度関連性のある結果か、議論されている分野のコンテキストにおいてどの程度包括的な結果か、といった定性的な結果の測定が可能である必要があります。

10. 資金調達

AIスタートアップの資金調達にはさまざまな方法があります。MidjourneyやSurge AIなどのLLMの例に倣って、投資資金を得ることなく顧客基盤を徐々に成長させることができます。もしAIスタートアップのブートストラップ成長を待つことができない場合、賢明な頭脳と優れたアイデアを持つAI創業者を募集するエンジェル投資家、アクセラレーター、インキュベーターなどが活用できます。インキュベーターとアクセラレータの利点は、AIサービスを構築するための関係、市場機会へのアクセス、ビジネス・アドバイス、さらにはテクノロジー・プラットフォームを提供することです。

11. 営業およびマーケティング

最先端の営業およびマーケティング・プラットフォームは、カスタマー・ジャーニーのあらゆる段階でAIを活用しており、市場シェアの拡大を目指すAIスタートアップならば、AIの支援を受けることを望むでしょう。可能な場合は、変更方法を教えてください。AIは、リアルタイム・のジオロケーション・データを含む詳細なデータを使用して、潜在顧客にパーソナライズされた製品やサービスを提供することができます。そして、AIアシスタントは、アップセルやクロスセルの機会を生成したり、購入者がカートにアイテムを入れたら取引を完了するように促すことができます。このような戦術はコンバージョン率を高め、スタートアップが売上を伸ばすことを熱望する投資家を喜ばせることが証明されています。

販売後のAI対応サービスは、クエリに対応し、コンテキストを理解して推薦事項を提供する一方で、スケジュールや納期に関する具体的な詳細を共有し、より複雑なクエリは人間のエージェントが対応するように誘導することができます。これらのAI支援サービスが機能する仕組みを確認することにより、自社のAIスタートアップが提供するサービスのベンチマークを支援できます。

オラクルを活用したビジネスの拡張

AIベースのビジネスを構築するのであれば、モデルの大規模なトレーニングとサービス提供のために堅牢なインフラストラクチャを提供するOracle Cloud Infrastructure(OCI)をご検討ください。オラクルはNVIDIAとのパートナーシップを通じて、最新のGPUを搭載し、超低レイテンシRDMA over Converged Ethernet(RoCE)ネットワークで連携したスーパークラスターをお客様に提供することが可能です。このアーキテクチャは、生成AIモデルを大規模にトレーニングするための高パフォーマンスでコスト効果の高い方法を提供します。AdeptMosaicMLを含む多くのAIスタートアップが、OCI上に直接製品を構築しています。

オラクルでは、一部のAlways Free クラウド・サービスを含む OCIサービスを簡単に開始できます。スタートアップは、Kubernetesクラスタの導入など、一般的なソフトウェアの開発者サンドボックスまたはパッケージ化された導入で学習できます。

オラクルは、スタートアップの意思決定を支援するために、コスト計算ツール、サードパーティ・アナリストのレビュー、OCIと他のクラウドプラットフォームの詳細な比較などの探索ツールを提供しています。

人工知能は10年以上前から私たちの生活の中に存在し、何百万もの銀行取引の中で不正をモニタリングしたり、顧客サービスとのやりとりの最前線に立ち入ったり、夜間配送のロジスティクスをスピードアップするために迅速な意思決定を行うなど、背後で働いています。そして今、最新世代のLLMによって、AIの繊細で、強力で、驚異的な機能は、自然な話し言葉や書き言葉というユーザー・インターフェースを獲得しました。

その結果、LLMは画像生成、文章作成、翻訳、さらにはコーディング生成で一般社会の想像力をかきたてています。課題は山積していますが、今こそAIスタートアップは投資家を見つけ、新しい顧客にサービスを提供し、1999年のようにスケールアップする時です。

企業独自のトレーニングを開始する前にAIセンター・オブ・エクセレンスを整備することで、AIプロジェクトの成功率が高まります。当社のeBookでは、その理由と、効果的なCoEを構築する方法について説明します。

AIとスタートアップに関するFAQ

AIスタートアップによくある課題について教えてください。

AIスタートアップは、トレーニングに適したLLMの選択、適切なトレーニング・データの検索、そしてニューラルネットワークをトレーニングするために必要となる膨大なコンピューティング能力の組み立てにおいて困難に直面しています。また、データ・プライバシーやデータ・セキュリティの問題、規制の変更などにも対処する必要があります。

AIスタートアップが提供するサービスの種類を教えてください。

AIスタートアップは、医療、製造、国防など、あらゆるビジネス・セクターに登場しています。消費者に製品を提供するスタートアップもあれば、他のAI企業がモデルを構築しトレーニングするために使用するツールを構築するスタートアップもあります。

AIスタートアップが資金調達を行う方法を教えてください。

投資家を探しているスタートアップは、チャンスに目を光らせているエンジェル投資家を迅速に検索することができます。他の選択肢としては、テクノロジー・インキュベーターやアクセラレーターがあり、これらはスタートアップの創業者にガイダンスやテクノロジー支援を提供することができます。