검색 결과가 없습니다

검색어와 일치하는 결과가 없습니다

데이터 과학이란?

데이터 과학은 과학적 방법, 프로세스, 알고리즘, 시스템을 사용하여 데이터에서 가치를 추출하는 통합 학문 분야입니다. 데이터 과학자는 통계, 컴퓨터 과학, 비즈니스 지식을 포함한 다양한 기술을 결합하여 웹, 스마트 폰, 고객, 센서 및 기타 소스에서 수집한 데이터를 분석합니다.

데이터 과학을 통해 추세를 파악하고 분석 정보를 도출함으로써 기업은 더 나은 의사 결정을 내리고 보다 혁신적인 제품과 서비스를 제작할 수 있습니다. 데이터는 혁신의 기반이 되지만, 그 가치는 데이터 과학자들이 수집하여 실행 근거가 될 수 있는 정보 데이터에서 나옵니다.

 

데이터 과학자를 위한 툴

데이터 과학자들은 여러 유형의 툴을 사용하지만, 가장 공통적인 것은 오픈 소스 노트북이며 이것은 코드를 작성 및 실행하고, 데이터를 시각화하며, 결과를 확인하는 웹 어플리케이션으로 모두 동일한 환경에서 작동합니다. 가장 인기 있는 노트북에는 Jupyter, RStudio, Zepplin이 있습니다. 노트북은 분석을 수행하는 데 매우 유용하지만 데이터 과학자가 팀으로 작업해야 하는 경우에는 몇 가지 제약이 있습니다. 이 문제를 해결하기 위해 데이터 과학 플랫폼이 등장했습니다.

데이터 과학과 데이터의 증가

데이터 과학과 데이터의 증가

최첨단 기술 덕분에 날로 증가하는 정보를 생성하고 저장할 수 있게 되면서 데이터 양이 급증했습니다. 지난 2년 동안 전세계 데이터의 90%가 생성된 것으로 추정됩니다. 예를 들어 Facebook 사용자는 매시간 사진 1,000만장의 사진을 업로드합니다. 전 세계에서 연결된 장치 즉, 사물인터넷(IoT)의 수는2025년까지 750억 개가 넘을 것으로 예상됩니다.

이러한 기술로 수집되고 저장되는 수많은 데이터는 전 세계 조직과 사회에 혁신적인 이점을 가져다 줄 수 있지만 이 데이터를 해석할 수 있는 경우에만 가능합니다. 여기서 등장하는 것이 데이터 과학입니다.

데이터 및 데이터 과학에 대한 자세한 정보는 이 인포그래픽을 살펴보십시오.

데이터 과학자의 등장

데이터 과학자의 등장

전문 분야로서 데이터 과학은 아직 초기 단계입니다. 데이터 과학은 통계 분석 및 데이터 마이닝 분야에서 발전했습니다. 2002년에 첫선을 보인 Data Science Journal은 국제과학위원회(International Council for Science): 과학 및 기술 데이터위원회(Committee on Data for Science and Technology)에서 출간되었습니다. 2008년에 데이터 과학자라는 직책이 생겨났고 이 분야는 빠른 성장을 거뒀습니다. 데이터 과학 학위를 제공하는 대학이 늘어나고 있지만, 데이터 과학자가 부족한 실정입니다.

데이터 과학자의 업무에는 데이터 분석을 위한 전략 개발, 분석할 데이터 준비, 데이터 탐색, 분석 및 시각화, Python 및 R과 같은 프로그래밍 언어를 사용한 데이터로 모델 구축, 여러 모델을 어플리케이션으로 배포하는 작업이 포함됩니다.

데이터 과학자는 단독으로 일하지 않습니다. 사실, 가장 효과적인 데이터 과학 업무는 팀 단위로 수행됩니다. 이 팀에는 데이터 과학자 외에도 문제를 정의하는 비즈니스 분석가, 데이터와 데이터 액세스 방법을 준비하는 데이터 엔지니어, 기본 프로세스와 인프라를 감독하는 IT 설계자, 데이터를 배포하는 어플리케이션 개발자, 분석 모델이나 출력을 어플리케이션 및 제품에 배포하는 어플리케이션 개발자가 있습니다.

비즈니스를 혁신하고 있는 데이터 과학

조직에서는 데이터 과학 팀을 통해 제품 및 서비스를 개선함으로써 데이터를 경쟁력으로 바꾸고 있습니다. 예를 들어 회사는 콜센터에서 수집한 데이터를 분석하여 이탈 가능성이 있는 고객을 식별하므로 마케팅을 통해 이들을 유지할 조치를 취할 수 있습니다. 물류 회사는 교통 패턴, 기상 조건 및 기타 요인을 분석하여 배달 속도를 개선하고 비용을 절감합니다. 그리고 건강 관리 회사는 의료 검사 데이터를 분석하고 증상을 보고함으로써 의사가 질병을 조기에 진단하고 효과적으로 치료할 수 있도록 돕습니다.

대부분의 회사는 데이터 과학을 우선 순위에 두고 여기에 상당한 투자를 감행하고 있습니다. 가트너에서 최근 CIO 3,000명 이상을 대상으로 실시한 조사에 따르면 응답자들은 분석 및 비즈니스 인텔리전스를 조직의 가장 차별화된 기술로 꼽았습니다. 설문 조사에 참여한 CIO들은 이 기술을 자신의 회사에 가장 전략적인 기술로 보고 있습니다. 따라서 이들은 신규 투자를 유치하고 있습니다.

데이터 과학의 절차

데이터 과학의 절차

데이터를 분석하고 그에 따라 실행하는 프로세스는 선형이 아닌 반복적인 작업이며, 데이터 모델링 프로젝트에서 일반적으로 작업이 진행되는 방식입니다.

  • 계획: 프로젝트와 잠재적인 출력 규정
  • 준비: 작업 환경을 구축하여 데이터 과학자가 최적의 툴을 사용하는 것은 물론 컴퓨팅 기능과 같은 기타 리소스에 액세스하도록 보장
  • 수집: 데이터를 작업 환경에 로드
  • 탐색: 데이터를 분석하고, 살펴보고, 시각화
  • 모델링: 모델을 구축하고, 훈련하고, 검증하여 필요에 따라 수행
  • 배포: 모델을 실제 업무 환경에 배포

데이터 과학 프로세스를 감독하는 담당자는?

데이터 과학 프로세스를 감독하는 담당자는?

데이터 과학 프로세스는 일반적으로 다음 세 가지 관리자가 감독합니다.

  • 비즈니스 관리자: 이러한 관리자는 데이터 과학 팀과 협력하여 문제를 규정하고 분석 전략을 세웁니다. 마케팅, 재무 또는 영업 사업부의 책임자이거나 데이터 과학 팀을 총괄할 수도 있습니다. 이들은 데이터 과학 및 IT 관리자와 긴밀히 협력하여 프로젝트가 이행되도록 보장합니다.
  • IT 관리자: 선임 IT 관리자는 데이터 과학 작업을 지원하는 인프라 계획 및 아키텍처를 담당합니다. 이들은 데이터 과학 팀이 효율적이고 안전하게 운영되도록 보장하기 위해 운영 및 리소스 활용률을 지속적으로 모니터링합니다. 또한 데이터 과학 팀을 위한 환경을 구축하고 업데이트할 책임이 있기도 합니다.
  • 데이터 과학 관리자: 이 관리자는 데이터 과학 팀과 일상 업무를 감독합니다. 이들은 팀 개발과 프로젝트 계획 및 모니터링의 균형을 유지할 수 있는 팀 빌더입니다.

데이터 과학 구현에 따른 과제

데이터 과학의 장미빛 전망과 데이터 과학 팀에 대한 대대적인 투자에도 불구하고 많은 기업들이 데이터의 전체 가치를 실현하지 못하고 있습니다. 인재를 채용하고 데이터 과학 프로그램 제작하는 경쟁에서 일부 회사는 비효율적인 팀 워크플로우를 경험했고, 팀마다 서로 잘 작동하지 않는 다른 툴과 프로세스를 사용했습니다. 보다 체계적인 중앙 관리 없이는 임원진들은 투자에 대한 완전한 수익을 실현할 수 없습니다. 이 혼란스러원 환경은 많은 과제를 안겨줍니다.

데이터 과학자는 효율적으로 작업할 수 없습니다. IT 관리자는 데이터에 대한 액세스 권한을 부여해야 하기 때문에 데이터 과학자들은 흔히 데이터뿐 아니라 데이터를 분석하는 데 필요한 리소스를 오래 기다려야 합니다. 액세스할 수 있게 되면, 데이터 과학 팀은 호환되지 않는 서로 다른 툴을 사용하여 데이터를 분석할 수 있습니다. 예를 들어 과학자는 R 언어를 사용하여 모델을 개발할 수 있지만 사용되는 어플리케이션은 다른 언어로 작성됩니다. 그렇기 때문에 유용한 어플리케이션에 모델을 배포하는 데에는 수 주나 수 개월이 걸리기도 합니다.

어플리케이션 개발자는 사용 가능한 머신 러닝에 액세스할 수 없습니다. 때로는 개발자가 받는 머신 러닝 모델이 기록되어야 하거나 어플리케이션에 배포할 준비가 되어 있지 않습니다. 또한 액세스 포인트가 유연하지 않을 수 있기 때문에 모든 시나리오에서 모델은 배포될 수 없고 확장성은 어플리케이션 개발자에게 남겨집니다.

IT 관리자는 지원에 너무 많은 시간을 할애합니다. 오픈 소스 툴이 확산된 탓에 IT 부서에서 지원해야 하는 툴 목록이 계속 늘어납니다. 예를 들어 마케팅 분야의 데이터 과학자는 재무 분야의 데이터 과학자와 다른 툴을 사용할 수도 있습니다. 팀마다 워크플로우가 다르기도 하여 IT 부서는 지속적으로 환경을 다시 구축하고 업데이트해야 합니다.

비즈니스 관리자도 데이터 과학에서 분리됩니다. 데이터 과학 워크플로우는 비즈니스 의사 결정 프로세스 및 시스템에 항상 통합되는 것은 아니므로, 비즈니스 관리자가 데이터 과학자와 지식을 공유하기가 어려워집니다. 통합이 개선되지 않으면, 비즈니스 관리자는 프로토타입에서 생산에 이르기까지 오래 걸리는 이유를 이해하기 어렵고, 너무 느리다고 인식되는 프로젝트에 대한 투자를 회수할 가능성이 낮습니다.

기업들은 통합 플랫폼 없이는 데이터 과학 작업이 비효율적이고 안전하지 않으며 확장하기 어렵다는 것을 깨달았습니다. 이러한 깨달음 덕분에 데이터 과학 플랫폼이 등장하게 되었습니다. 이 플랫폼은 모든 데이터 과학 작업이 이뤄지는 소프트웨어 허브입니다. 우수한 플랫폼을 통해 데이터 과학 구현에 따른 많은 과제가 완화되고 기업들은 데이터를 보다 빠르고 효율적으로 분석 정보로 전환할 수 있습니다.

중앙집중식 플랫폼을 통해 데이터 과학자는 자신이 선호하는 오픈 소스 툴를 사용하여 협업 환경에서 작업하고 모든 작업을 버전 제어 시스템과 동기화할 수 있습니다.

자급 자족을 지원하는 데이터 과학 플랫폼에 영향을 줍니다.

데이터 과학 플랫폼의 이점

데이터 과학 플랫폼의 이점

데이터 과학 플랫폼은 팀이 코드, 결과 및 보고서를 공유할 수 있도록 지원하여 중복을 줄이면서 혁신을 유도합니다. 관리를 단순화하고 오픈 소스 툴, 프레임워크, 인프라를 사용하여 작업 흐름에서 병목 현상을 제거합니다.

예를 들어 데이터 과학 플랫폼을 사용하면 데이터 과학자가 모델을 API로 배포할 수 있으므로 다양한 어플리케이션에 쉽게 통합할 수 있습니다. 데이터 과학자는 IT를 기다리지 않고 툴, 데이터, 인프라에 액세스할 수 있습니다.

시장에서 데이터 과학 플랫폼에 대한 수요가 폭발적으로 증가했습니다. 사실상, 플랫폼 시장은향후 몇 년 동안 연평균 성장률 39% 이상으로 성장할 것으로 예상되며 2025년까지 3,850억 달러에 이를 것으로 예상됩니다.

데이터 과학 플랫폼의 기능을 살펴볼 준비가 되면 다음 핵심 기능을 고려해야 합니다.

  • 협업을 장려하는 프로젝트 기반 UI를 선택합니다. . 플랫폼을 통해 개념에서부터 최종 개발에 이르기까지 직원들이 하나의 모델에서 협력할 수 있습니다. 각 팀 구성원에게 데이터 및 리소스에 대한 셀프 서비스 액세스 권한을 부여해야 합니다.
  • 통합 및 유연성 우선 순위를 지정합니다. 플랫폼에 최신 오픈 소스 툴에 대한 지원, GitHub, GitLab, Bitbucket과 같은 공통 버전 제어 제공업체, 다른 리소스와의 긴밀한 통합이 포함되어 있는지 확인합니다.
  • 엔터프라이즈급 기능을 포함합니다. 팀이 성장하면서 플랫폼을 비즈니스에 따라 확장할 수 있는지 확인합니다. 플랫폼은 가용성이 우수하고, 견고한 액세스 제어 기능을 갖추고, 많은 동시 사용자를 지원해야 합니다.
  • 데이터 과학에 셀프 서비스를 강화합니다. IT 및 엔지니어링 부담을 덜어주고 데이터 과학자가 즉시 환경을 스핀업할 수 있는 플랫폼을 찾고, 모든 작업을 추적하며, 모델을 실제 업무 환경에 쉽게 배포합니다.

데이터 과학 인재를 찾는 데 어려움을 겪고 있는 기업들

인재를 찾고 채용하는 일은 기업들이 경쟁력 확보를 위해 데이터 과학을 사용하려고 할 때 직면하는 가장 큰 장벽입니다. McKinsey & Company의 최근 조사에 따르면 여러 지역과 산업 전반의 임원진 중 절반이 다른 종류의 기술보다도 분석 인재를 채용하는 데 더 많은 어려움이 있다고 보고했습니다. 조사 대상자의 40%에 따르면 인재 유지도 문제입니다.

McKinsey는 데이터 과학자 외에도 다른 분석 범주의 인재도 부족하다고 보고했습니다. 특히, 비즈니스 문제를 적절한 데이터 과학 어플리케이션으로 변환할 수 있는 숙련된 직원과 데이터 시각화에 능숙한 직원도 부족합니다.

Indeed.com, Glassdoor, Bloomberg는 데이터 과학 인재에 대한 수요가 상당히 높다는 것을 추가로 입증해 주고 있습니다.

  • Bloomberg에 따르면 Indeed.com의 데이터 과학자 채용 공고는 2015년 1월부터 2018년 1월 사이에 75% 증가했고 데이터 과학자 역할에 대한 구직 횟수는 65% 증가했습니다.
  • Glassdoor는 2018년에 데이터 과학자에 대한 수요가 공급을 50% 초과했다고 추정합니다.
  • Glassdoor는 3년 연속 데이터 과학자를 미국 최고의 직업으로 평가했습니다.

인공 지능 학습 라이브러리

인공 지능이란?
인공 지능에 대해 자세히 알아보기

AI(인공 지능)를 통해 기술과 기계가 데이터를 처리하여 인간의 작업을 학습하고, 발전시키며 실행할 수 있습니다.

머신 러닝에 대해 자세히 알아보기
머신 러닝에 대해 자세히 알아보기

AI(인공 지능)의 부분 집합인 머신 러닝은 의사 결정 과정을 자동화하고 단축하며 가치 실현 시간을 단축한다는 목표 아래 데이터 학습 시스템을 구축하는 데 중점을 둡니다.

뉴스 및 의견
뉴스 및 의견

머신 러닝과 인공 지능 및 데이터 과학을 통해 기업이 복잡한 문제에 접근하는 방식이 변화하면서 각 산업의 궤도가 수정되고 있습니다. 최신 기사를 읽고 업계 및 동료들이 이러한 기술에 어떻게 접근하고 있는지 살펴보십시오.