AI 스타트업의 11가지 공통 도전 과제 및 해결 방법

Jeffrey Erickson | Content Strategist | 2024년 1월 12일

OpenAI는 2022년 11월 대규모 언어 모델(LLM)인 ChatGPT를 공개한 뒤 단 2달 만에 1억 명의 사용자를 확보했습니다. 결과적으로 ChatGPT는 역사상 가장 빠르게 성장하는 소비자용 앱 중 하나가 되었습니다.

이는 투자자들의 눈길을 끌었습니다.

ChatGPT의 성공적인 출시 이래로 Forbes의 상위 50개 AI 기업 리스트에 포함된 기업들은 총 272억 달러 이상의 자금을 조달했습니다. 해당 기업 중 일부는 직원 수 20명 미만, 설립된 지 1년 미만의 기업입니다. 흥미로운 아이디어를 가진 AI 스타트업에 자금이 모여들고 있습니다.

그러나 자금이 성공을 보장하는 것은 아닙니다. AI 스타트업은 일반적인 스타트업이 마주하는 근성, 마켓 타이밍, 성장 관리를 넘어선 독특한 도전 과제들에 직면하고 있습니다. ChatGPT 또는 Midjourney의 AI 이미지 생성기와 같은 서비스를 제공하는 LLM을 훈련하는 것은 인류가 고안해 낸 역사상 가장 계산 집약적인 작업들 중 하나입니다. 투자 회사에 따르면 AI 스타트업은 자금을 조달하는 즉시 컴퓨팅 리소스에 대부분을 투입합니다.

또한 AI 스타트업들은 자사의 모델이 수집하는 방대한 학습 데이터에 포함된 민감한 정보 및 개인정보를 보호하기 위한 조치를 취하면서도, AI 시장 점유율을 확보하기 위해 발빠르게 움직이고 있는 기존의 대기업들과 경쟁하기 위해 분주히 움직여야만 합니다.

Microsoft의 창립자 Bill Gates는 Apple의 Macintosh 및 그 이후 출시된 모든 유명 운영 체제 및 애플리케이션에 사용되어 온 그래픽 사용자 인터페이스 이래로 컴퓨팅 분야의 가장 중요한 발전은 AI라고 평했습니다. 기업가들이 이 기술을 활용하고 싶어하는 것도 당연한 일입니다. AI 스타트업이 경쟁에 뛰어들 때 고려해야 할 요소들을 함께 살펴보겠습니다.

AI 스타트업이란 무엇인가요?

생성형 AI 스타트업의 유형은 크게 3가지로 나뉩니다. OpenAI나 Cohere와 같이 LLM 플랫폼을 구축하는 기업, MosaicML과 같이 LLM 구축 및 훈련을 위한 새로운 도구를 제공하는 기업, 특정한 비즈니스 문제를 해결하기 위해 오픈 소스 LLM을 훈련하는 기업(예: 비즈니스 프리젠테이션을 개선하기 위해 AI를 활용하는 기업인 Tome) 등이 그것입니다.

모든 AI 스타트업들은 신경망과 머신러닝 알고리즘이라는 강력한 컴퓨팅 아키텍처를 사용해 인간과 유사한 텍스트, 시각적 콘텐츠, 컴퓨터 코드 등을 생성하고 그 외에도 많은 작업을 수행할 수 있는 친숙한 자연어 인터페이스를 구축한 ChatGPT, Google과 같은 기업들의 선례를 뒤따르고 있습니다.

핵심 요점

  • AI 플랫폼은 이미 오랫동안 사용되어 왔지만, 2022년 소비자용 LLM들이 출시되어 대중의 주목을 받으면서 새로운 AI 스타트업들이 다수 등장하고 있습니다.
  • 투자자들은 유망한 AI 스타트업을 찾아내고, 검증하고, 투자하기 위해 열을 올리고 있습니다.
  • AI 스타트업은 개인정보 보호 및 규제 문제, 컴퓨팅 용량 경쟁, 기존 대기업과의 경쟁 등 빠르게 변화하는 환경 속에서 운영되고 있습니다.

AI 스타트업의 11가지 도전 과제

자금력이 풍부한 유니콘 기업부터 바닥부터 시작하는 스타트업까지, 모든 스타트업들은 AI 기반 서비스 제공업체 특유의 걸림돌을 직면하고 있습니다. AI 스타트업이 해결해야 하는 11가지 도전 과제는 다음과 같습니다.

1. 보안 및 개인정보 보호

AI 스타트업에는 일반적인 기업보다 더욱 철저한 데이터 보안 및 개인정보 보호 책임이 부과됩니다. 제로 트러스트 모델 채택, 악의적인 활동에 자동으로 대응하고 경고를 발송하는 모니터링 네트워크 사용 등의 다양한 보안 조치가 일반화될 것입니다. 그에 더해 새로운 도전 과제들도 해결해야 합니다. 예를 들어, AI 모델의 훈련에 사용한 데이터로부터 세부 정보가 유출될 가능성이 있습니다. AI 훈련에는 다양한 소스로부터 가져온 수백 기가바이트, 심지어 테라바이트급의 대용량 데이터세트가 사용됩니다. 개중 이름, 주소 및 기타 개인 식별 정보를 포함한 민감한 데이터들이 포함될 수 있습니다. 개인 정보가 포함된 데이터를 학습한 모델의 출력물에도 동일한 개인 정보가 포함될 가능성은 없을까요?

스타트업은 자사의 학습 세트에 어떤 데이터가 포함되어 있는지 파악하고, 민감하거나 규제 대상인 정보와 관련된 위험을 최소화하기 위한 계획을 세워야만 합니다. 데이터 보안 및 프라이버시 관련 우려를 해소할 수 있다는 사실을 투자자들에게 납득시켜야 하고, 문제가 발생할 경우를 대비한 커뮤니케이션 대응 계획을 수립해야 합니다.

2. 데이터 용량

AI 기업은 자연어 처리(NLP), 이미지 생성 등 모든 종류의 사용 사례를 지원하고자 광범위한 데이터세트와 수십억 개의 매개변수로 대규모 언어 모델(LLM)을 훈련 및 배포합니다. 또한 컴퓨터 비전, 포캐스팅 및 예측, 이상 감지 등을 위한 AI 모델을 개발하기도 합니다. 특히 LLM은 정확하고 일관적인 결과물을 생성하기 위해 엄청나게 많은 양의 데이터를 필요로 합니다.

AI 스타트업 비즈니스의 핵심은 데이터 관리입니다.

그러나 AI 훈련에 필요한 데이터 세트를 찾아 대규모 데이터 웨어하우스 또는 데이터 레이크하우스에 업로드한다는 큰 도전 과제를 함께 해결해야만 합니다. 다음으로는 그래픽 처리 장치(GPU) 서버의 슈퍼클러스터를 사용해 신경망과 머신러닝 알고리즘을 통해 데이터가 안전하게 흐르도록 해야 합니다. 그러한 하드웨어를 확보하는 것은 또다른 도전 과제입니다.

빅 칩

GPU는 중앙 처리 장치(CPU)보다 훨씬 더 많은 코어가 탑재된 칩입니다. Nvidia의 CUDA(compute unified device architecture) 등을 통해 확인할 수 있는 이같은 설계는 AI 훈련과 같은 작업에 필요한 대규모 병렬 처리를 지원합니다.

3. 컴퓨팅 용량

TV 프로그램, 영화, 대중 매체 등을 통해 인공지능이 세상을 파괴할 것이라는 주장을 반복적으로 접할 수 있습니다. 이렇게 반론해 볼 수 있을 것입니다. '악한 AI를 구동하기 위한 GPU는 어디에서 구해야 할까요?'

GPU들은 AI 모델이 구축된 신경망을 실행하기 위한 계산 작업을 분할합니다. 이후 다수의 GPU를 통해 병렬로 쿼리를 실행합니다. 이같은 방식을 활용하면 컴퓨터 CPU 부하가 줄어들고 네트워크가 복잡한 계산을 매우 빠르게 처리할 수 있습니다. 전 세계의 칩 제조업체와 클라우드 제공업체는 AI 모델 훈련 및 실행을 위한 컴퓨팅 성능 수요를 따라잡기 위해 큰 노력을 기울이고 있습니다. AI 스타트업은 필요한 칩을 구매하기 위해 오래 대기하거나, 우리의 모델이 귀중한 GPU를 사용할 만한 가치가 있다고 클라우드 제공업체를 설득해야 할 수도 있다는 사실을 유념해야 합니다.

4. 커스터마이징

대부분의 AI 스타트업은 타사의 LLM을 활용해 설립된다고 보아도 무방할 것입니다. 많은 경우 AI 모델을 처음부터 설계, 구축, 훈련하는 것보다 OpenAI나 Cohere 등의 기업들이 이미 개발한 AI 모델을 커스터마이징하는 것이 더 효율적이기 때문입니다.

특정 산업 또는 사용 사례에 맞춰 LLM을 커스터마이징하기 위해 일반적으로 사용되는 2가지 방법은 미세 조정 및 검색 증강 생성(RAG)입니다. 특정 목적에 부합하는 대량의 데이터를 훈련시키고, 해당하는 정보에 더 많은 가중치를 부여하도록 AI에 지시함으로써 AI 시스템의 출력물을 미세 조정할 수 있습니다. 또다른 옵션인 RAG는 특정 목적과 관련성이 높은 문서들을 데이터베이스에 포함시켜 AI가 수신하는 서면 또는 구두 프롬프트에 대한 컨텍스트를 제공하는 것입니다. RAG를 사용하면 AI가 해당 문서들을 참고해 출력물에 기술적 세부 정보를 추가하고, 정보의 출처를 함께 제공할 수도 있습니다. 예를 들어, 헬스케어 스타트업은 LLM이 의료 전문가가 입력한 프롬프트의 의도를 더 잘 이해하고, 의료 전문가의 전문 분야와 관련된 출력 언어를 제공할 수 있도록 도와 주는 문서나 기사를 데이터베이스에 포함시킬 수 있습니다.

각 방법마다 속도, 품질, 비용 측면에서 고유한 장단점이 있습니다. LLM 커스터마이징 방식을 선택하는 것은 산업별 또는 사용 사례별 서비스를 제공하고자 하는 모든 AI 스타트업에게 매우 중요한 결정입니다.

5. 클라우드 비용

빠르게 성장하는 스타트업 기업의 경우 기성품 클라우드 인프라를 사용하는 것이 일반적입니다. 모든 하이퍼스케일 클라우드 제공업체는 고대역폭 네트워크와 고성능 파일 시스템으로 연결된 컴퓨팅 인스턴스 클러스터를 비롯해 대규모 언어 모델의 훈련 또는 커스터마이징에 필요한 다양한 기능을 제공합니다. 또한 클라우드 서비스 비용은 사용량 기반으로 청구되므로 일반적으로 온프레미스 인프라를 직접 구축하는 것보다 저렴하고, 시스템 구축 속도도 훨씬 빠릅니다.

클라우드 서비스는 사용량을 기반으로 사용료를 청구하므로 반드시 속도와 효율성을 비용과 비교해 보아야 합니다. AI 스타트업은 가능한 한 간단한 알고리즘과 최소한의 데이터만으로 필요한 작업을 수행하는 LLM을 사용해 클라우드 관련 지출을 최소화할 수 있습니다. 예산 계산이 완료되면 모델을 가장 효율적으로 처리할 수 있는 클라우드 인프라를 선택합니다. 예를 들어, 베어메탈 서버를 사용하면 가상화된 인스턴스를 사용할 때의 오버헤드를 피하고 더 나은 성능을 활용할 수 있습니다. 이는 LLM에 흔히 사용되는 클러스터화된 워크로드의 경우 더욱 중요하게 고려해 보아야 하는 요소입니다.

작업 실행 속도가 빨라질수록 비용도 줄어든다는 점을 기억해야 합니다.

6. 효율성

LLM 훈련에는 많은 기가와트 시간이 소요될 수 있습니다. 참고로, 투자 회사인 The Carbon Collective에 따르면 1기가와트는 874,000가구에 1년 동안 공급할 수 있는 전력량입니다. LLM 기반 서비스를 제공하기 위해 VC 투자를 받고자 하는 스타트업은 자금을 현명하게 사용하고 있음을 증명해야 합니다. 예를 들어, 모든 AI 작업에 동일한 수준의 모델 정교성 또는 계산 능력이 필요한 것은 아닙니다. OpenAI, Cohere, Anthropic 등의 기업들이 제공하는 LLM의 종류 및 규모는 갈수록 다양해지고 있습니다. 선택한 LLM이 귀사의 요구 사항 및 예산에 부합하는 이유를 설명할 수 있어야 합니다.

모델 및 데이터세트를 선택한 후에는 사용하지 않는 컴퓨팅 리소스에 대한 불필요한 비용을 지불하지 않도록 효율적인 병렬 처리와 동적 확장이 가능한 인프라를 신중하게 선택합니다. 투자자들에게 성능과 경제성을 모두 잡은 인프라를 선택했음을 입증할 수 있어야 합니다.

7. 확장성

LLM을 확장해 LLM의 출력 품질 및/또는 속도를 높이기 위한 3가지 기법이 있습니다. 학습 데이터의 양을 늘리거나, 더 크고 복잡한 모델을 사용하거나, 컴퓨팅 용량을 추가하는 것입니다.

모델이 클수록 신경망 아키텍처의 레이어 및 매개변수 수가 증가하고, 데이터의 복잡한 패턴을 학습 및 표현하기 위한 더 많은 용량을 확보할 수 있습니다. 결과적으로 LLM은 더욱 상세하고 깊은 함의가 담긴 답변을 제공할 수 있게 됩니다. 또는 더 큰 용량의 학습 데이터를 추가해 LLM이 더 정확하고 완전한 답변을 제공하도록 만들 수도 있습니다. 두 가지 경우 모두 모델 성능을 유지하기 위해서는 값비싼 컴퓨팅 리소스를 함께 확장해야 합니다.

8. 데이터 품질

데이터 품질은 인공지능에만 국한된 문제가 아닙니다. 비즈니스 분석가들은 수십 년 간 사용하는 데이터의 품질을 향상시키기 위해 노력해 왔습니다. AI 스타트업은 데이터 과학자 및 분야별 전문가의 전문 지식을 활용해 알고리즘을 훈련시키고 LLM에 공급하기 위한 데이터세트로부터 중복 정보, 관련 없는 콘텐츠 및 기타 '노이즈'를 제거해야 합니다.

'콩 심은데 콩 나고, 팥 심은데 팥 난다'는 것는 AI 스타트업도 유념해야 하는 격언입니다.

9. KPI 및 측정

AI 스타트업은 성공 여부를 측정하기 위한 정량적, 정성적 측정 방식을 모두 수립해야만 합니다. 정량적 측정 방식으로는 기술 투자에 대한 ROI와 이상값을 식별하는 평균 제곱 오차(MSE)와 같은 기술적 핵심 성과 지표(KPI)가 있습니다.

또한 AI 스타트업은 AI 모델이 이전에 접해본 적이 없거나 새로운 데이터를 얼마나 잘 활용하는지, 타깃 고객과 얼마나 관련성이 있는 결과물을 도출하는지, 논의 중인 분야와 관련해 얼마나 포괄적인 결과를 도출하는지 등의 정성적인 결과를 측정하기 위한 수단도 마련해야 합니다.

10. 자금 조달

AI 스타트업은 다양한 방식으로 자금을 조달할 수 있습니다. 투자금을 받지 않고 점진적으로 고객 기반을 성장시킨 Midjourney 및 Surge AI와 같은 LLM의 사례를 따를 수도 있습니다. 바닥부터 성장하는 것을 기다릴 수 없는 AI 스타트업은 예리한 두뇌와 좋은 아이디어를 가진 AI 창업자를 찾고 있는 엔젤 투자자, 액셀러레이터, 인큐베이터의 도움을 구할 수도 있습니다. 인큐베이터 및 액셀러레이터의 장점은 인맥, 시장 기회에 대한 접근법, 비즈니스적 조언, 나아가 AI 서비스 구축을 위한 기술 플랫폼 등을 두루 제공한다는 점입니다.

11. 영업 및 마케팅

최첨단 영업 및 마케팅 플랫폼은 고객 여정의 모든 단계에 AI를 활용하고 있으며, 시장 점유율을 높이기 위해 노력하는 모든 AI 스타트업은 해당 과정에서 AI를 활용할 방법을 찾고 있습니다. 구체적인 활용법으로는 어떤 것들이 있을까요? AI는 이동 경로를 매핑하고 추적하기 위한 실시간 지리적 위치 데이터 등의 상세한 데이터를 바탕으로 잠재 고객에게 맞춤화된 제품이나 서비스를 제안할 수 있습니다. 이후 AI 어시스턴트는 상향 판매 및 교차 판매 기회를 창출하거나, 구매자가 장바구니에 담은 품목의 구매를 완료하도록 유도할 수 있습니다. 이같이 AI를 활용하는 전략은 고객 전환율을 높이고, 스타트업의 매출 성장을 기다리는 투자자들을 만족시킬 수 있음이 입증되었습니다.

판매 완료 후에는 AI 지원 서비스를 사용해 고객의 관련 문의를 처리할 수 있습니다. AI 지원 서비스는 고객 문의의 맥락을 이해하고 관련 제안을 제공함과 더불어 일정, 배송 시간 등에 대한 세부 정보를 제공하고, 복잡한 질문은 인간 상담원에게 연결할 수 있습니다. AI 스타트업은 AI 지원 서비스의 작동 방식을 벤치마킹해 자사의 AI 서비스에 응용할 수도 있습니다.

Oracle 솔루션으로 비즈니스 확장하기

대규모 모델 훈련 및 서비스를 위한 강력한 인프라를 제공하는 Oracle Cloud Infrastructure(OCI)는 AI 기반 비즈니스를 구축하려는 기업을 위한 탁월한 선택지입니다. Oracle은 NVIDIA와의 파트너십을 바탕으로 최신 GPU로 구동되고 지연 시간이 매우 짧은 RDMA over Converged Ethernet(RoCE) 네트워크로 연결된 슈퍼클러스터를 제공할 수 있습니다. 해당 아키텍처는 생성형 AI 모델의 대규모 훈련을 위한 고성능의, 비용 효율적인 방법을 제공합니다. AdeptMosaicML을 비롯한 여러 AI 스타트업들이 OCI 상에서 직접 자사의 AI 제품을 개발하고 있습니다.

Oracle은 Always Free 클라우드 서비스를 비롯해 OCI 서비스를 간단히 사용할 수 있는 많은 방법을 지원합니다. 스타트업은 Kubernetes 클러스터 배포 등 널리 사용되는 소프트웨어의 개발자용 샌드박스 또는 패키지 배포를 통해 학습할 수 있습니다.

Oracle은 스타트업의 선택을 지원하기 위해 비용 계산기, 타사 분석가 리뷰, OCI와 다른 클라우드 플랫폼 간의 상세 비교를 비롯한 다양한 탐색 도구를 제공합니다.

인공지능은 수백만 건의 은행 거래 중에서 사기 거래를 모니터링하고, 고객 서비스와 관련된 상호작용을 처리하고, 야간 물류 배송을 가속화하기 위한 신속한 결정을 지원하는 등 10년 넘게 다양한 분야에서 눈에 띄지 않는 방식으로 사용되어 왔습니다. 그리고 이제 상세하고, 강력하고, 어떤 의미로는 불안감이 들 정도의 능력을 갖춘 최신 세대 LLM이 자연스러운 음성 또는 문장이라는 새로운 사용자 인터페이스와 결합되었습니다.

결과적으로 LLM은 이미지 생성, 텍스트 작성 및 번역, 심지어 코드 작성까지 다양한 능력을 선보이며 대중의 상상력을 사로잡았습니다. 비록 많은 도전 과제들이 산적해 있기는 하지만, 지금이야말로 AI 스타트업이 투자자를 찾고, 새로운 고객에게 서비스를 제공하고, 급속도로 확장할 수 있는 최적의 시기입니다.

조직별 학습을 시작하기 전에 AI 우수 센터를 구축하면 성공 가능성이 높아집니다. 이 e-book에는 그에 대한 이유와, CoE를 효과적으로 구축하기 위한 팁이 담겨 있습니다.

AI 및 스타트업 FAQ

AI 스타트업의 일반적인 도전 과제는 무엇인가요?

AI 스타트업은 훈련에 적합한 LLM을 선택하고, 적절한 훈련용 데이터를 찾고, 자사의 신경망을 지원하기 위한 엄청난 컴퓨팅 성능을 확보하는 데 어려움을 겪고 있습니다. 데이터 프라이버시, 데이터 보안, 데이터 관련 규제의 변화 등과 관련된 문제도 해결해야 합니다.

AI 스타트업은 어떤 서비스를 제공하나요?

보건의료, 제조, 국방을 비롯한 모든 비즈니스 분야에서 AI 스타트업이 등장하고 있습니다. 소비자에게 직접 AI 제품을 제공하는 스타트업도 있고, 다른 AI 기업이 모델을 구축하고 훈련하는 데 사용하는 도구를 개발하는 스타트업도 있습니다.

AI 스타트업은 어떻게 자금을 조달하나요?

투자자를 찾고 있는 스타트업은 투자 기회를 찾고 있는 엔젤 투자자들과 협업할 수 있습니다. 다른 옵션으로는 스타트업 창업자에게 지침 및 기술 지원을 제공할 수 있는 기술 인큐베이터 또는 액셀러레이터가 있습니다.