죄송합니다. 검색 내용과 일치하는 항목을 찾지 못했습니다.

원하시는 정보를 찾는 데 도움이 되도록 다음을 시도해 보십시오.

  • 검색에 사용하신 키워드의 철자가 올바른지 확인하십시오.
  • 입력한 키워드에 동의어를 사용하십시오. 예를 들어 “소프트웨어” 대신 “애플리케이션”을 사용해 보십시오.
  • 새로운 검색을 시작하십시오.
문의하기 Oracle Cloud에 로그인

데이터 과학이란 무엇인가?

데이터 과학의 정의

데이터 과학은 통계, 과학적 방법, 인공지능(AI), 데이터 분석 등 다양한 분야를 결합해 데이터로부터 가치를 추출합니다. 데이터 과학을 수행하는 사람들을 데이터 과학자라고 부르며, 이들은 다양한 기술을 결합하여 웹, 스마트폰, 고객, 센서 및 기타 소스로부터 수집한 데이터를 분석해 실행 가능한 인사이트를 도출합니다.

데이터 과학은 분석을 위해 데이터를 정제, 집계, 조작하는 데이터 준비 과정에서부터 고급 데이터 분석을 수행하는 작업까지 모든 과정을 총칭하는 용어입니다. 분석 애플리케이션 및 데이터 과학자들은 분석 결과를 검토해 패턴을 발견하고, 비즈니스 리더들이 정보를 기반으로 통찰력을 얻을 수 있도록 지원합니다.

데이터 과학: 머신러닝을 위한 무한한 가능성의 보고

데이터 과학은 오늘날 가장 주목받는 분야 중 하나입니다. 데이터 과학이 이토록 중요한 이유는 무엇일까요?

그건 지금 기업들이 데이터라는 보물 창고를 깔고 앉아있기 때문이죠. 모던 기술로 점점 더 많은 양의 정보를 생성 및 저장할 수 있게 되자 데이터의 양도 폭발적으로 증가했습니다. 전 세계에 존재하는 데이터의 90%가 지난 2년간 생성된 것으로 추정됩니다. Facebook의 경우만 해도 사용자들이 매시간마다 1,000만 장의 사진을 업로드하니까요.

하지만 이와 같은 데이터는 데이터베이스 및 데이터 레이크에 저장된 후, 대부분 방치되어 버립니다.

모던 기술을 통해 수집 및 저장된 풍부한 데이터는 전 세계 조직 및 사회에 혁신적인 이점을 가져다줄 수 있습니다. 하지만 그건 우리가 그 데이터를 해석할 수 있을 때 얘기죠. 바로 이 시점에 데이터 과학이 중요한 역할을 수행할 수 있습니다.

데이터 과학은 트렌드를 볼 수 있게 해줍니다. 기업이 더 나은 의사결정을 내리고, 보다 혁신적인 제품과 서비스를 만드는 데 사용할 수 있는 인사이트도 제공하죠. 무엇보다 중요한 건, 비즈니스 분석가가 데이터에서 무언가를 발견하길 막연히 기다려야 했던 과거와 달리, 데이터 과학은 머신러닝(ML) 모델이 방대한 양의 데이터를 학습할 수 있게 한다는 점입니다.

데이터는 혁신의 기반입니다. 하지만 데이터 과학자가 데이터로부터 정보를 얻어내고, 이를 기반으로 조치가 이행될 때야 비로소 데이터의 가치가 빛을 발합니다.

데이터 과학, 인공지능, 머신러닝은 각각 어떻게 다른가요?

데이터 과학의 정의와 사용법을 제대로 이해하려면, 인공지능(AI), 머신러닝 등 이 영역과 관련된 용어들을 알아야 합니다. 이 용어들이 동일한 의미로 사용될 때도 있지만, 각 용어 사이에는 미묘한 차이가 있습니다.

세부 내용을 아래와 같이 간단히 정리했습니다:

  • AI는 컴퓨터가 어떤 식으로든 인간의 행동을 모방하게 만드는 것을 의미합니다.
  • 데이터 과학AI의 하위 개념으로 통계, 과학적 방법, 데이터 분석과 겹치는 면이 많은 영역입니다. 모두 데이터로부터 의미와 인사이트를 추출하는 데 활용되는 기술들이죠.
  • 머신러닝은 AI의 또 다른 하위 개념이며, 컴퓨터가 데이터로부터 무언가를 파악할 수 있게 하고, AI 애플리케이션을 제공할 수 있게 만드는 다양한 기술로 구성됩니다.
    추가로 한 가지 용어를 더 살펴보도록 하겠습니다.
  • 딥 러닝은 머신러닝의 하위 개념으로, 컴퓨터가 보다 복잡한 문제를 해결할 수 있게 해줍니다.

데이터 과학이 비즈니스를 변화시키는 방법

조직은 데이터 과학을 활용해 제품과 서비스를 개선함으로써 데이터를 경쟁우위로 전환해 나가고 있습니다. 데이터 과학 및 머신러닝의 사용 사례는 다음과 같습니다:

  • 콜 센터에서 수집한 데이터를 분석해 고객 이탈률을 파악하여 마케팅 팀이 고객 유지를 위한 조치를 취할 수 있게 합니다
  • 물류 회사가 배송 속도를 개선하고 비용을 절감할 수 있도록 교통 패턴, 기상 조건 등 다양한 요인을 분석하여 업무 효율성을 높입니다
  • 의사가 질병을 조기에 진단하고 환자를 보다 효과적으로 치료할 수 있도록 의료 검사 데이터 및 보고된 증상을 분석하여 환자 진단을 개선합니다
  • 장비 고장 시기를 예측하여 공급망을 최적화합니다
  • 의심스러운 행동과 비정상적인 활동을 인지하여 금융 서비스 사기를 감지합니다
  • 이전 구매 내역을 기반으로 고객에게 상품을 추천하여 매출 향상에 기여합니다

많은 기업들이 데이터 과학의 중요성을 인지하고, 엄청난 투자를 하고 있습니다. 3,000명 이상의 CIO가 참여한 Gartner의 최근 설문조사 결과, 응답자들은 분석 및 비즈니스 인텔리전스를 조직을 남들과 차별화해 줄 가장 중요한 기술로 꼽았습니다. 설문조사에 참여한 CIO들은 이 기술들을 자사 전략에 가장 중요한 요소로 보고 해당 기술에 투자하고 있습니다.

데이터 과학의 수행 방식

데이터를 분석하고, 분석 내용에 따라 조치를 취하는 과정은 선형적이라기 보다 반복에 가깝습니다. 그리고 이와 같은 과정은 데이터 모델링 프로젝트에서 데이터 과학 수명 주기가 진행되는 전형적인 방식이기도 합니다:

계획 수립: 프로젝트와 해당 프로젝트의 잠재적 결과를 정의합니다.

데이터 모델 구축: 데이터 과학자들은 종종 다양한 오픈 소스 라이브러리 또는 인데이터베이스 도구를 사용해 머신러닝 모델을 구축합니다. 많은 사용자들이 데이터 수집, 데이터 프로파일링 및 시각화 또는 기능 엔지니어링에 도움이 되는 API를 원합니다. 이들에게는 적절한 도구와, 적절한 데이터 그리고 컴퓨트 파워와 같은 기타 리소스도 필요합니다.

모델 평가: 데이터 과학자들은 반드시 높은 확률의 정확도를 달성한 이후에 구축 모델에 대한 배포 결정을 내려야 합니다. 일반적인 모델 평가 과정에서는 포괄적인 평가 측정 지표 및 시각화 모음이 생성되며, 이를 활용해 신규 데이터에 대한 모델의 성능을 평가합니다. 또한 시간 경과에 따른 평가를 진행해 생성된 모델이 최적의 행동을 수행할 수 있게 합니다. 모델 평가는 단순한 원시 성능 평가를 넘어 예상되는 기본 동작을 고려하는 단계까지 진행합니다.

모델 설명: 머신러닝 모델의 내부 매커니즘을 인간의 언어로 설명하는 게 늘 가능했던 건 아닙니다. 하지만 설명 가능성의 중요성은 점점 더 커지고 있습니다. 데이터 과학자들은 예측 생성에 투입된 요소들의 상대적 가중치 및 중요성에 대한 자동 설명과 각 모델 예측에 대한 모델별 상세 설명을 원하고 있습니다.

모델 배포: 훈련된 머신러닝 모델을 선택해 이를 적합한 시스템에 적용하는 일은 종종 어렵고 힘든 과정을 수반합니다. 이 과정은 모델을 확장 가능하고 보안성 뛰어난 API로 조작할 수 있게 하거나, 인데이터베이스 머신러닝 모델을 사용하면 한결 단순해질 수 있습니다.

모델 모니터링: 모델을 배포했다고 끝난 것은 아닙니다. 모델이 제대로 작동하는지 확인하기 위해 배포 후에는 항상 모델을 모니터링해야 합니다. 모델이 학습했던 데이터는 일정 기간이 지난 후에는 더 이상 미래 예측에 도움이 되지 않을 수도 있습니다. 사기 탐지를 예로 들자면, 범죄자들은 늘 계정 해킹을 위한 새로운 방법을 시도하니까요.

데이터 과학용 도구

머신러닝 모델을 구축, 평가, 배포, 모니터링하는 과정은 복잡한 일일 수 있습니다. 데이터 과학 도구의 수가 증가한 이유가 바로 여기에 있죠. 데이터 과학자들은 여러 유형의 도구를 사용하지만, 가장 흔히 사용하는 도구는 오픈 소스 노트북입니다. 동일한 환경에서 코드를 작성 및 실행하고, 데이터를 시각화하고, 결과를 확인하는 데 사용되는 웹 애플리케이션이죠.

가장 널리 쓰이는 노트북은 Jupyter, RStudio, Zeppelin입니다. 노트북은 분석을 수행하는 데 매우 유용하지만 여러 데이터 과학자가 팀으로 작업해야 하는 경우 한계가 있습니다. 이 문제를 해결하기 위해 데이터 과학 플랫폼이 구축되었습니다.

어떤 데이터 과학 도구가 적절한지 선택하려면 다음과 같은 질문들을 던져볼 필요가 있습니다: 귀사의 데이터 과학자가 사용하는 언어는 무엇인가? 그들은 어떤 종류의 작업 방법을 선호하는가? 그들은 어떤 종류의 데이터 소스를 사용하는가?

예를 들어 오픈 소스 라이브러리를 사용하는, 데이터 소스에 구애받지 않는 서비스를 선호하는 사람들이 있습니다. 인데이터베이스 머신러닝 알고리즘의 속도를 선호하는 사람들도 있죠.


데이터 과학 프로세스는 누가 감독하나요?

대부분의 조직에서 데이터 과학 프로젝트는 일반적으로 세 가지 유형의 관리자가 감독합니다:

비즈니스 관리자: 이 유형의 관리자는 데이터 과학 팀과 협력하여 문제를 규정하고 분석 전략을 세웁니다. 마케팅, 재무, 영업 등 LOB 책임자가 여기에 해당되며 데이터 과학 팀이 이들에게 보고하는 체계로 구성됩니다. 이 유형의 관리자는 데이터 과학 및 IT 관리자들과 긴밀히 협력하여 프로젝트가 제대로 수행되도록 합니다.

IT 관리자: 선임 IT 관리자들은 데이터 과학 운영을 지원할 인프라 및 아키텍처를 책임집니다. 이들은 데이터 과학 팀이 효율적이고 안전하게 운영될 수 있도록 운영 및 리소스 사용을 지속적으로 모니터링합니다. 이들은 또한 데이터 과학 팀을 위한 IT 환경 구축 및 업데이트를 담당하기도 합니다.

데이터 과학 관리자: 이 유형의 관리자들은 데이터 과학 팀과 그들의 일과를 감독합니다. 이들은 프로젝트 계획 및 모니터링을 통해 팀의 균형적인 발전을 유지하는 팀 빌더입니다.

그러나 전체 프로세스에서 가장 중요한 역할은 데이터 과학자들이 맡습니다.

데이터 과학자는 누구인가요?

전문 분야로서 데이터 과학은 아직 젊은 분야라고 할 수 있습니다. 통계 분석 및 데이터 마이닝 분야에 그 뿌리를 두고 있죠. 2002년에 창간된 The Data Science Journal은 국제 과학 위원회: CODATA(Committee on Data for Science and Technology)에서 발간했습니다. 2008년에 이르러 데이터 과학자라는 직함이 생겨났고 이후 데이터 과학 분야는 빠르게 성장했습니다. 점점 더 많은 대학에서 데이터 과학 학위를 제공하기 시작했지만, 아직까지도 데이터 과학자가 부족한 상황입니다.

데이터 과학자의 임무에는 데이터 분석 전략 개발, 분석용 데이터 준비, 데이터 탐색, 분석 및 시각화, Python 및 R과 같은 프로그래밍 언어를 사용하여 데이터로 모델 구축하기, 애플리케이션에 모델 배포하기 등이 포함될 수 있습니다.

데이터 과학자는 혼자 일하지 않습니다. 실제로 가장 효과적인 데이터 과학은 팀웍을 통해 이루어지죠. 데이터 과학자 외에도 데이터 과학 팀에는 문제를 정의하는 비즈니스 분석가, 데이터를 준비하고 데이터 액세스 방법을 설정하는 데이터 엔지니어, 기본 프로세스 및 인프라를 감독하는 IT 아키텍트, 분석 모델 또는 출력을 애플리케이션 및 제품에 배포하는 애플리케이션 개발자가 포함될 수 있습니다.

데이터 과학 프로젝트 구현의 과제

데이터 과학이 주는 약속과 데이터 과학 팀에 대한 막대한 투자에도 불구하고 많은 기업이 데이터의 가치를 온전히 실현하지 못하고 있습니다. 일부 기업들은 인재 유치전 및 데이터 과학 프로그램 생성 경쟁에서 팀 워크플로의 비효율성을 경험했습니다. 다양한 팀원이 서로 다른 도구 및 프로세스를 사용해 공동 작업이 제대로 이루어지지 않았기 때문이죠. 보다 체계적이고 중앙화된 관리가 이루어지지 않는다면 경영진은 투자에 대한 최대의 수익을 얻지 못할 수 있습니다.

이 혼란스러운 환경은 다양한 문제를 시사합니다.

데이터 과학자가 효율적으로 일할 수 없습니다. 데이터에 대한 접근 권한은 IT 관리자가 부여해야 하기 때문에 데이터 과학자가 데이터 및 데이터 분석에 필요한 리소스를 얻게 되기까지 오래 기다려야 하는 경우가 많습니다. 접근 권한을 얻게 되었더라도 데이터 과학 팀원들은 다양한 도구(높은 확률로 서로 호환되지 않는 도구)를 사용해 데이터를 분석할 가능성이 높습니다. 예를 들어 한 과학자가 R 언어를 사용해 모델을 개발했는데, 해당 모델이 사용될 애플리케이션은 다른 언어로 작성된 경우가 있죠. 모델을 유용한 애플리케이션에 배포하는 데 몇주, 심지어 몇 개월이 걸리기도 하는 이유가 바로 여기에 있습니다.

애플리케이션 개발자가 가용한 머신러닝에 액세스할 수 없습니다. 개발자가 애플리케이션에 배포될 준비가 되지 않은 머신러닝 모델을 받게되는 경우가 종종 발생합니다. 게다가 액세스 지점이 유연하지 않을 수 있기 때문에, 해당 모델을 모든 시나리오에 배포하는 게 불가능하고, 확장성 자체도 애플리케이션 개발자의 손에 맡겨지는 경우가 있습니다.

IT 관리자가 지원에 너무 많은 시간을 할애합니다. 오픈 소스 도구가 확장되면서 IT 팀은 그 어느 때보다 긴 '지원해야 할 도구 목록'을 손에 쥐기도 합니다. 예를 들어 마케팅 분야의 데이터 과학자는 재무 분야의 데이터 과학자가 쓰는 것과는 다른 도구를 사용할 수 있습니다. 각 팀의 워크플로가 다를 수도 있습니다. 즉 IT 팀이 계속해서 새로 환경을 구축하고 업데이트해야 한다는 뜻이죠.

비즈니스 관리자가 데이터 과학 업무에서 지나치게 배제되어 있습니다. 데이터 과학 워크플로가 비즈니스 의사결정 프로세스 및 시스템에 늘 통합되는 건 아닙니다. 그 결과 비즈니스 관리자가 데이터 과학자들과 협업하는 데 필요한 충분한 지식을 얻지 못하는 경우가 발생하죠. 통합 환경이 개선되지 않으면, 비즈니스 관리자는 시제품이 제품이 되기까지 이토록 오랜 시간이 걸리는 이유가 무엇인지 이해하지 못하고, 자신이 판단하기에 '프로세스가 지나치게 느린' 프로젝트에 대한 투자를 지원하지 않을 가능성이 있습니다.

새로운 역량을 선사하는 데이터 과학 플랫폼

많은 기업이 통합 플랫폼 없이 진행되는 데이터 과학 작업이 비효율적이고, 불안정하며, 확장이 어렵다는 사실을 깨달았습니다. 이와 같은 깨달음은 데이터 과학 플랫폼을 탄생시켰죠. 이 플랫폼들은 모든 종류의 데이터 과학 작업이 이루어지는 소프트웨어 허브입니다. 좋은 플랫폼은 데이터 과학 구현 과정의 문제를 대부분 완화하고, 기업이 보다 빠르고 효율적으로 데이터를 인사이트로 전환할 수 있도록 지원합니다.

중앙형 머신러닝 플랫폼을 활용하면, 데이터 과학자는 자신이 즐겨 쓰는 오픈 소스 도구를 사용해 협업 환경에서 작업할 수 있으며, 이들의 모든 작업은 버전 제어 시스템에 의해 동기화됩니다.

데이터 과학 플랫폼의 이점

데이터 과학 플랫폼은 팀이 코드, 결과 및 보고서를 공유할 수 있게 하여 중복을 줄이고 혁신을 유도합니다. 또한 관리를 단순화하고 모범 사례를 통합하여 작업 흐름상의 병목 현상을 제거합니다.

일반적으로 최고의 데이터 과학 플랫폼은 다음을 목표로 합니다:

  • 데이터 과학자가 모델 개발 속도를 높이고 오류를 줄일 수 있도록 지원하여 생산성을 높입니다
  • 데이터 과학자가 다양한 종류의 대용량 데이터를 보다 쉽게 다룰 수 있게 지원합니다
  • 편견으로부터 자유롭고 감사 및 재현 가능한, 신뢰할 수 있는 엔터프라이즈급 인공지능(AI)을 제공합니다

데이터 과학 플랫폼은 전문 데이터 과학자, 일반인 데이터 과학자, 데이터 엔지니어, 머신러닝 엔지니어 또는 전문가를 포함한 다양한 사용자 간의 협업을 위해 구축되었습니다. 예를 들어 데이터 과학 플랫폼을 사용하면 데이터 과학자가 모델을 API로 배포하여 해당 모델이 다른 애플리케이션에 쉽게 통합되도록 할 수 있습니다. 데이터 과학자는 IT 팀의 지원 없이도 각종 도구, 데이터 및 인프라에 액세스할 수 있습니다.

데이터 과학 플랫폼에 대한 시장의 수요가 폭발적인 증가 추세를 보이고 있습니다. 실제로 플랫폼 시장의 연평균 성장률이 향후 몇 년간 39% 이상을 달성할 것으로 예상되며, 시장 규모가 2025년까지 3,850억 달러에 이를 것으로 예상됩니다.

데이터 과학자에게 필요한 플랫폼

데이터 과학 플랫폼의 기능을 살펴볼 준비가 되었다면, 다음의 주요 기능들을 고려해야 합니다:

협업을 권장하는 프로젝트 기반 UI를 선택하는 게 좋습니다. 플랫폼은 개념이었던 것이 최종 제품이 되는 모든 과정에서 해당 모델에 대한 팀원 간의 협업을 지원해야 합니다. 이 플랫폼은 팀의 각 구성원에게 데이터 및 리소스에 대한 셀프 서비스 액세스 권한을 부여해야 합니다.

통합 및 유연성에 중점을 두어야 합니다. 플랫폼이 최신 오픈 소스 도구 사용, GitHub, GitLab, Bitbucket 등 공통 버전 제어 공급자 및 기타 리소스와의 긴밀한 통합을 지원하는지 확인하세요.

엔터프라이즈급 기능이 포함되어 있어야 합니다. 팀의 성장 속도에 따라 비즈니스에 필요한 확장을 플랫폼이 지원할 수 있는지 확인하세요. 플랫폼은 고가용성과 강력한 액세스 제어 기능을 보유해야 하며 다수의 동시 사용자를 지원할 수 있어야 합니다.

데이터 과학을 셀프 서비스로 이용할 수 있어야 합니다 . IT 및 엔지니어링 팀의 부담을 덜어주고, 데이터 과학자가 환경을 즉시 생성하고, 모든 작업을 추적하고, 모델을 운영 환경에 손쉽게 배포할 수 있게 해주는 플랫폼을 선택해야 합니다.

손쉬운 모델 배포를 보장해야 합니다. 모델 배포 및 연산화는 머신러닝 수명 주기에서 가장 중요한 단계 중 하나이지만, 이 과정이 종종 간과되곤 합니다. 선택한 서비스가 보다 손쉬운 모델 연산화를 지원하는지 확인해 보세요. API를 제공하는 방식일 수도, 사용자가 손쉬운 통합 과정을 거쳐 모델을 구축하게 하는 방식일 수도 있습니다.

데이터 과학 플랫폼의 도입 시기

다음과 같은 상황이라면, 귀사에 데이터 과학 플랫폼이 필요한 것일 수 있습니다:

  • 생산성 및 협업 과정이 압력을 받고 있습니다
  • 머신러닝 모델을 감사하거나 재현할 수 없습니다
  • 모델을 단 한 번도 제품화하지 못했습니다

데이터 과학 플랫폼은 비즈니스에 진정한 가치를 제공할 수 있습니다. Oracle의 데이터 과학 플랫폼에는 모델 배포 속도를 높이고 데이터 과학의 결과를 개선하기 위해 설계된 포괄적인 E2E 경험을 제공하는 광범위한 서비스가 포함됩니다.