검색 결과가 없습니다

검색어와 일치하는 결과가 없습니다.

원하시는 정보를 찾는 데 도움이 되도록 다음을 시도해 보십시오.

  • 검색에 사용하신 키워드의 철자가 올바른지 확인하십시오.
  • 입력한 키워드에 동의어를 사용하십시오. 예를 들어 “소프트웨어” 대신 “애플리케이션”을 사용해 보십시오.
  • 아래에 표시된 인기 검색어 중 하나를 사용해 보십시오.
  • 새로운 검색을 시작하십시오.
인기 질문
태블릿에서 아래를 보고 있는 여자

데이터 과학

다음은 데이터 과학에 대한 간단한 정의입니다.

데이터 과학은 통계, 과학적 방법 및 데이터 분석을 포함한 여러 분야를 결합하여 데이터에서 가치를 추출합니다.

데이터 과학을 실천하는 사람들을 데이터 과학자라고 하며, 그들은 웹, 스마트폰, 고객, 센서 및 기타 소스에서 수집된 데이터를 분석하기 위해 다양한 기술을 결합합니다.

데이터: 머신 러닝을 위한 미개발 리소스

데이터 사이언스은 오늘날 가장 흥미로운 분야 중 하나입니다. 그러나 그렇게 중요한 이유는 무엇일까요?

기업은 데이터의 보물 창고에 앉아 있기 때문입니다. 현대 기술로 인해 증가하는 정보의 생성 및 저장이 가능해지면서 데이터 양이 폭발적으로 증가했습니다. 전 세계 데이터의 90%가 지난 2년 동안 생성된 것으로 추정됩니다. 예를 들어 Facebook 사용자는 매시간 1,000만 장의 사진을 업로드합니다.

그러나 이 데이터는 대개 데이터베이스와 데이터 레이크에 남아 있으며 대부분은 그대로 유지됩니다.

이러한 기술에 의해 수집되고 저장되는 풍부한 데이터는 전 세계의 조직과 사회에 혁신적인 이점을 가져올 수 있지만 우리가 그것을 해석 할 수 있을 때만 그렇습니다. 그곳이 데이터 과학이 들어오는 곳입니다.

데이터 과학은 추세를 보여주고 기업이 더 나은 결정을 내리고 더 혁신적인 제품과 서비스를 만드는 데 사용할 수 있는 통찰력을 제공합니다. 아마도 가장 중요한 점은 머신 러닝(ML) 모델이 데이터에서 무엇을 발견할 수 있는지 확인하기 위해 주로 비즈니스 분석가에게 의존하는 대신 제공되는 방대한 양의 데이터에서 학습할 수 있도록 한다는 것입니다.

데이터는 혁신의 기반이지만, 그 가치는 과학자가 데이터를 수집하여 조치를 취할 수 있는 정보에서 비롯됩니다.

데이터 사이언스, 인공 지능 및 머신 러닝의 차이점은 무엇입니까?

데이터 사이언스, 인공 지능 및 머신 러닝의 차이점은 무엇입니까?

데이터 과학이 무엇이고 데이터 과학을 활용하는 방법을 더 잘 이해하려면 인공 지능(AI) 및 머신 러닝과 같은 분야와 관련된 다른 용어를 아는 것도 똑같이 중요합니다. 종종 이러한 용어는 같은 의미로 사용되지만 미묘한 차이가 있습니다.

다음은 간단한 분석입니다.

  • AI는 컴퓨터가 어떤 식으로든 인간의 행동을 모방하게 하는 것을 의미합니다.
  • 데이터 사이언스는 AI의 하위 집합이며 통계, 과학적 방법 및 데이터 분석의 중첩 영역을 더 많이 나타내며 모두 데이터에서 의미와 통찰력을 추출하는 데 사용됩니다.
  • 머신 러닝은 AI의 또 다른 하위 집합이며 컴퓨터가 데이터에서 사물을 파악하고 AI 애플리케이션을 제공할 수 있도록 하는 기술로 구성됩니다.

그리고 좋은 측정을 위해 다른 정의를 내릴 것입니다.

  • 딥 러닝, 컴퓨터가 더 복잡한 문제를 해결할 수 있도록 하는 머신 러닝의 하위 집합

데이터 과학이 비즈니스를 변화시키는 방법

데이터 과학과 데이터의 성장

조직은 데이터 과학을 사용하여 제품과 서비스를 개선하여 데이터를 경쟁 우위로 전환하고 있습니다. 데이터 사이언스 및 머신 러닝 사용 사례는 다음과 같습니다.

  • 콜센터에서 수집한 데이터를 분석하여 고객 이탈을 파악하여 마케팅이 이를 유지하기 위한 조치를 취할 수 있음
  • 물류 회사가 배송 속도를 개선하고 비용을 절감할 수 있도록 교통 패턴, 기상 조건 및 기타 요인을 분석하여 효율성을 개선
  • 의사가 질병을 조기에 진단하고 보다 효과적으로 치료할 수 있도록 의료 검사 데이터 및 보고된 증상을 분석하여 환자 진단을 개선
  • 장비가 고장날 때를 예측하여 공급망 최적화
  • 의심스러운 행동과 비정상적인 행동을 인식하여 금융 서비스 사기를 탐지
  • 이전 구매를 기반으로 고객을 위한 추천을 생성하여 매출 향상

많은 기업은 데이터 과학을 우선 순위로 삼고 여기에 많은 투자를 하고 있습니다. Gartner의 최근 설문 조사에 참여한 3,000 명 이상의 CIO 중 응답자들은 분석 및 비즈니스 인텔리전스를 조직에서 가장 차별화된 기술로 꼽았습니다. 설문 조사에 참여한 CIO는 이러한 기술을 회사에 가장 전략적인 것으로 보고 그에 따라 투자하고 있습니다.

데이터 과학이 수행되는 방식

데이터 과학이 수행되는 방식

데이터를 분석하고 처리하는 프로세스는 선형이 아니라 반복적이지만 데이터 모델링 프로젝트에서 일반적으로 데이터 사이언스 수명 주기가 흐르는 방식입니다.

  • 계획: 프로젝트와 잠재적인 결과물을 정의합니다.
  • 데이터 모델 구축: 데이터 과학자는 종종 다양한 오픈 소스 라이브러리 또는 데이터베이스 내 도구를 사용하여 머신 러닝 모델을 구축합니다. 종종 사용자는 데이터 수집, 데이터 프로파일링 및 시각화 또는 기능 엔지니어링에 도움이 되는 API를 원할 것입니다. 적절한 도구는 물론 컴퓨팅 성능과 같은 올바른 데이터 및 기타 리소스에 대한 액세스가 필요합니다.
  • 모델 평가: 데이터 과학자는 모델 배포에 대한 확신을 갖기 전에 모델에 대한 높은 정확도를 달성해야 합니다. 모델 평가는 일반적으로 새로운 데이터에 대한 모델 성능을 측정하기 위한 포괄적인 평가 측정 지표 및 시각화 모음을 생성하고 시간에 따라 순위를 지정하여 프로덕션에서 최적의 동작을 가능하게 합니다. 모델 평가는 예상되는 기본 동작을 고려하기 위해 원시 성능을 뛰어 넘습니다.
  • 모델 설명: 머신 러닝 모델 결과의 내부 메커니즘을 인간의 관점에서 설명할 수 있는 것이 항상 가능한 것은 아니지만 점점 더 중요해지고 있습니다. 데이터 과학자는 예측 생성에 사용되는 요소의 상대적 가중치 및 중요도에 대한 자동 설명과 모델 예측에 대한 모델별 설명 세부 정보를 원합니다.
  • 모델 배포: 훈련된 머신 러닝 모델을 올바른 시스템에 적용하는 것은 종종 어렵고 힘든 과정입니다. 이는 모델을 확장 가능하고 안전한 API로 운영하거나 데이터베이스 내 머신 러닝 모델을 사용하여 더 쉽게 만들 수 있습니다.
  • 모델 모니터링: 불행히도 모델 배포로 끝나는 것은 아닙니다. 모델이 제대로 작동하는지 확인하기 위해 배포 후에는 항상 모델을 모니터링해야 합니다. 모델이 학습된 데이터는 일정 기간이 지나면 더 이상 향후 예측과 관련이 없을 수 있습니다. 예를 들어 사기 탐지에서 범죄자들은 항상 계정을 해킹하는 새로운 방법을 제시합니다.

데이터 과학을 위한 도구

데이터 과학을 위한 도구

머신 러닝 모델을 구축, 평가, 배포 및 모니터링하는 것은 복잡한 프로세스일 수 있습니다. 그 이유는 데이터 사이언스 도구의 수가 증가했기 때문입니다. 데이터 과학자는 다양한 유형의 도구를 사용하지만 가장 일반적인 도구 중 하나는 동일한 환경에서 코드 작성 및 실행, 데이터 시각화, 결과 확인을 위한 웹 애플리케이션인 오픈 소스 노트북입니다.

가장 인기 있는 노트북 중 일부는 Jupyter, RStudio 및 Zeppelin입니다. 노트북은 분석을 수행하는 데 매우 유용하지만 데이터 과학자가 팀으로 작업해야 하는 경우 한계가 있습니다. 이 문제를 해결하기 위해 데이터 사이언스 플랫폼이 구축되었습니다.

자신에게 적합한 데이터 사이언스 도구를 결정하려면 다음 질문을 하는 것이 중요합니다. 데이터 과학자는 어떤 언어를 사용합니까? 그들은 어떤 종류의 작업 방법을 선호합니까? 어떤 종류의 데이터 소스를 사용하고 있습니까?

예를 들어 일부 사용자는 오픈 소스 라이브러리를 사용하는 데이터 소스에 구애받지 않는 서비스를 선호합니다. 다른 사람들은 데이터베이스 내 머신 러닝 알고리즘의 속도를 선호합니다.

누가 데이터 사이언스 프로세스를 감독합니까?

누가 데이터 사이언스 프로세스를 감독합니까?

대부분의 조직에서 데이터 사이언스 프로젝트는 일반적으로 세 가지 유형의 관리자가 감독합니다.

  • 비즈니스 관리자: 이러한 관리자는 데이터 사이언스 팀과 협력하여 문제를 정의하고 분석 전략을 개발합니다. 마케팅, 재무 또는 영업과 같은 비즈니스 라인의 책임자일 수 있으며 데이터 사이언스 팀이 보고할 수 있습니다. 그들은 데이터 사이언스 및 IT 관리자와 긴밀히 협력하여 프로젝트가 전달되도록 합니다.
  • IT 관리자: 선임 IT 관리자는 데이터 사이언스 운영을 지원할 인프라와 아키텍처를 담당합니다. 데이터 사이언스 팀이 효율적이고 안전하게 운영될 수 있도록 운영 및 리소스 사용을 지속적으로 모니터링하고 있습니다. 또한 데이터 사이언스 팀을 위한 IT 환경 구축 및 업데이트를 담당할 수도 있습니다.
  • 데이터 사이언스 관리자: 이 관리자는 데이터 사이언스 팀과 일상 업무를 감독합니다. 그들은 팀 개발과 프로젝트 계획 및 모니터링의 균형을 맞출 수 있는 팀 빌더입니다.

그러나 이 과정에서 가장 중요한 역할은 데이터 과학자입니다.

데이터 과학자란 무엇입니까?

데이터 과학자란 무엇입니까?

전문 분야로서 데이터 과학은 젊습니다. 데이터 과학은 통계 분석 및 데이터 마이닝 분야에서 성장했습니다. 2002년 데뷔한 데이터 사이언스 저널은 국제학술연합회: 과학 기술 데이터 위원회에서 출판되었습니다. 2008년에 데이터 과학자라는 직함이 부상했고 이 분야는 빠르게 성장했습니다. 점점 더 많은 대학에서 데이터 사이언스 학위를 제공하기 시작했지만 그 이후로 데이터 과학자가 부족했습니다.

데이터 과학자의 임무에는 데이터 분석 전략 개발, 분석용 데이터 준비, 데이터 탐색, 분석 및 시각화, Python 및 R과 같은 프로그래밍 언어를 사용하여 데이터로 모델 구축, 애플리케이션에 모델 배포 등이 포함될 수 있습니다.

데이터 과학자는 혼자 일하지 않습니다. 실제로 가장 효과적인 데이터 과학은 팀으로 이루어집니다. 데이터 과학자 외에도 이 팀에는 문제를 정의하는 비즈니스 분석가, 데이터를 준비하고 데이터에 액세스하는 방법을 준비하는 데이터 엔지니어, 기본 프로세스 및 인프라를 감독하는 IT 설계자, 분석의 모델 또는 출력을 애플리케이션 및 제품에 배포하는 애플리케이션 개발자가 포함될 수 있습니다.

데이터 사이언스 프로젝트 구현의 과제

데이터 과학자란 무엇입니까?

데이터 과학에 대한 약속과 데이터 사이언스 팀에 대한 막대한 투자에도 불구하고 많은 기업이 데이터의 완전한 가치를 실현하지 못하고 있습니다. 인재를 고용하고 데이터 사이언스 프로그램을 만드는 경쟁에서 일부 기업은 서로 다른 사람들이 서로 잘 작동하지 않는 다른 도구와 프로세스를 사용하는 비효율적인 팀 워크플로를 경험했습니다. 보다 체계적이고 중앙 집중식 관리가 없으면 경영진은 투자에 대한 완전한 수익을 얻지 못할 수 있습니다.

이 혼란스러운 환경은 많은 과제를 제시합니다.

데이터 과학자가 효율적으로 작업할 수 없습니다. 데이터에 대한 액세스 권한은 IT 관리자가 부여해야 하기 때문에 데이터 과학자는 데이터와 데이터를 분석하는 데 필요한 리소스를 오래 기다려야 하는 경우가 많습니다. 액세스 권한이 부여되면 데이터 사이언스 팀은 다르고 호환되지 않을 수 있는 도구를 사용하여 데이터를 분석할 수 있습니다. 예를 들어 과학자가 R 언어를 사용하여 모델을 개발할 수 있지만 이 모델이 사용될 애플리케이션은 다른 언어로 작성됩니다. 그래서 유용한 애플리케이션에 모델을 배포하는 데 몇 주 또는 심지어 몇 달이 걸릴 수 있습니다.

애플리케이션 개발자가 사용 가능한 머신 러닝에 액세스할 수 없습니다. 때때로 개발자가 받는 머신 러닝 모델은 애플리케이션에 배포할 준비가 되지 않았습니다. 그리고 액세스 포인트는 유연하지 않을 수 있기 때문에 모든 시나리오에서 모델을 배포할 수 없으며 확장성은 애플리케이션 개발자에게 맡겨집니다.

IT 관리자가 지원에 너무 많은 시간을 할애합니다. 오픈 소스 도구의 확산으로 인해 IT는 지원할 도구 목록이 계속 증가할 수 있습니다. 예를 들어 마케팅 분야의 데이터 과학자는 재무 분야의 데이터 과학자와 다른 도구를 사용할 수 있습니다. 팀은 또한 다른 워크플로를 가질 수 있습니다. 즉, IT는 지속적으로 환경을 다시 구축하고 업데이트해야 합니다.

비즈니스 관리자가 데이터 과학에서 너무 멀리 떨어져 있습니다. 데이터 사이언스 워크플로가 항상 비즈니스 의사 결정 프로세스 및 시스템에 통합되는 것은 아니므로 비즈니스 관리자가 데이터 과학자와 지식이 있는 협업을 어렵게 만듭니다. 더 나은 통합 없이는 비즈니스 관리자가 프로토타입에서 생산으로 이동하는 데 시간이 너무 오래 걸리는 이유를 이해하기 어렵고 너무 느리다고 인식하는 프로젝트에 대한 투자를 뒷받침할 가능성이 적습니다.

데이터 사이언스 플랫폼은 새로운 기능을 제공

데이터 사이언스 플랫폼의 등장

많은 기업이 통합 플랫폼이 없으면 데이터 사이언스 작업이 비효율적이고 안전하지 않으며 확장하기 어렵다는 것을 깨달았습니다. 이러한 실현은 데이터 사이언스 플랫폼의 개발로 이어졌습니다. 이러한 플랫폼은 모든 데이터 사이언스 작업이 이루어지는 소프트웨어 허브입니다. 좋은 플랫폼은 데이터 사이언스 구현의 많은 문제를 완화하고 기업이 데이터를 더 빠르고 효율적으로 인사이트로 전환할 수 있도록 도와줍니다.

중앙 집중식 머신 러닝 플랫폼을 통해 데이터 과학자는 좋아하는 오픈 소스 도구를 사용하여 협업 환경에서 작업할 수 있으며 모든 작업은 버전 제어 시스템에 의해 동기화됩니다.

데이터 사이언스 플랫폼의 이점

데이터 사이언스 플랫폼의 이점

데이터 사이언스 플랫폼은 팀이 코드, 결과 및 보고서를 공유할 수 있도록 하여 중복성을 줄이고 혁신을 주도합니다. 관리를 단순화하고 모범 사례를 통합하여 작업 흐름의 병목 현상을 제거합니다.

일반적으로 최고의 데이터 사이언스 플랫폼은 다음을 목표로 합니다.

  • 데이터 과학자가 오류를 줄이고 모델을 더 빠르게 가속화하고 제공할 수 있도록 지원하여 생산성을 높입니다.
  • 데이터 과학자가 대량의 다양한 데이터를 보다 쉽게 작업할 수 있도록 합니다.
  • 편견이 없고 감사 및 재현 가능한 신뢰할 수 있는 엔터프라이즈급 인공 지능 제공

데이터 사이언스 플랫폼은 전문 데이터 과학자, 시민 데이터 과학자, 데이터 엔지니어, 머신 러닝 엔지니어 또는 전문가를 포함한 다양한 사용자의 협업을 위해 구축되었습니다. 예를 들어 데이터 사이언스 플랫폼을 사용하면 데이터 과학자가 모델을 API로 배포하여 다른 애플리케이션에 쉽게 통합할 수 있습니다. 데이터 과학자는 IT를 기다릴 필요 없이 도구, 데이터 및 인프라에 액세스할 수 있습니다.

데이터 사이언스 플랫폼에 대한 수요가 시장에서 폭발적으로 증가했습니다. 실제로 플랫폼 시장은 향후 몇 년 동안 39% 이상의 연평균 성장률을 보일 것으로 예상되며 2025년에는 3850억 달러에 이를 것으로 예상됩니다.

데이터 과학자가 플랫폼에서 필요로 하는 것

데이터 과학자가 플랫폼에서 필요로 하는 것

데이터 사이언스 플랫폼의 기능을 탐색할 준비가 되었다면 고려해야 할 몇 가지 주요 기능이 있습니다.

  • 협업을 장려하는 프로젝트 기반 UI를 선택하십시오. 플랫폼은 사람들이 개념에서 최종 개발에 이르기까지 모델에서 함께 작업할 수 있도록 지원해야 합니다. 각 팀 구성원에게 데이터 및 리소스에 대한 셀프 서비스 액세스 권한을 부여해야 합니다.
  • 통합과 유연성을 우선하십시오. 플랫폼에 최신 오픈 소스 도구, GitHub, GitLab 및 Bitbucket과 같은 공통 버전 제어 공급자 및 다른 리소스와의 긴밀한 통합에 대한 지원이 포함되어 있는지 확인하십시오.
  • 엔터프라이즈급 기능을 포함하십시오. 팀이 성장함에 따라 플랫폼이 비즈니스와 함께 확장될 수 있는지 확인하십시오. 플랫폼은 가용성이 높고 강력한 액세스 제어 기능이 있어야 하며 많은 수의 동시 사용자를 지원해야 합니다.
  • 데이터 과학을 보다 셀프 서비스로 만드십시오. IT 및 엔지니어링의 부담을 덜어주고 데이터 과학자가 환경을 즉시 가동하고 모든 작업을 추적하며 모델을 프로덕션에 쉽게 배포할 수 있는 플랫폼을 찾으십시오.
  • 보다 쉬운 모델 배포를 보장하십시오. 모델 배포 및 운영화는 머신 러닝 수명 주기에서 가장 중요한 단계 중 하나이지만 종종 무시됩니다. 선택한 서비스가 API를 제공하거나 사용자가 쉽게 통합할 수 있는 방식으로 모델을 빌드하도록 하는 등 모델을 더 쉽게 운영할 수 있도록하십시오.

데이터 사이언스 플랫폼이 올바른 움직임일 때

다음 사항을 발견한 경우 조직은 데이터 사이언스 플랫폼에 대비할 수 있습니다.

  • 생산성과 협업이 부담의 징후를 보이고 있습니다.
  • 머신 러닝 모델을 감사하거나 재현할 수 없습니다.
  • 모델 생산이 시작되지 않습니다.

데이터 사이언스 플랫폼은 비즈니스에 진정한 가치를 제공할 수 있습니다. Oracle의 데이터 사이언스 플랫폼에는 모델 배포를 가속화하고 데이터 사이언스 결과를 개선하도록 설계된 포괄적인 종단 간 경험을 제공하는 광범위한 서비스가 포함됩니다.

데이터 사이언스 학습 라이브러리

인공 지능이란?
인공 지능에 대해 자세히 알아보기

인공 지능(AI)은 기술과 기계가 데이터를 처리하여 인간의 작업을 학습, 발전 및 실행할 수 있도록 합니다.

머신 러닝에 대해 자세히 알아보기
머신 러닝에 대해 자세히 알아보기

인공 지능(AI)의 하위 집합인 머신 러닝은 자동화와 의사 결정 시간 단축, 가치 창출 시간 단축을 목표로 데이터를 통해 학습하는 시스템을 구축하는 데 초점을 맞추고 있습니다.

뉴스 및 오피니언
뉴스 및 오피니언

머신 러닝, 인공 지능 및 데이터 과학은 기업이 복잡한 문제에 접근하는 방식을 변화시켜 각 산업의 궤도를 바꾸고 있습니다. 업계와 동료가 이러한 기술에 어떻게 접근하고 있는지 이해하려면 최신 기사를 읽어보십시오.