검색 결과가 없습니다

검색어와 일치하는 결과가 없습니다

빅 데이터란?

빅 데이터의 정의

빅데이터란 정확히 무엇일까요?

빅 데이터를 제대로 이해하기 위해서는 먼저 역사적 배경을 살펴봐야 합니다. 2001년, Gartner에서 내린 정의(아직까지도 많이 차용되는 정의입니다)에 따르면, 빅 데이터는 전례 없이 빠른 속도로 쏟아져 나오는 다양한 종류의 데이터입니다. 이른바 속도(Velocity), 크기(Volume), 다양성(Variety)의 3V로 일컬어집니다.

간단히 말해 빅 데이터는 새로운 데이터 소스에서 수집된 보다 복잡하고 거대한 데이터세트라고 할 수 있습니다. 이러한 데이터 세트는 그 용량이 어마어마해 기존 데이터 프로세싱 소프트웨어로는 관리하기 어렵습니다. 하지만 이러한 대량의 데이터를 이용하면 이전까지는 해결하지 못했던 여러 비즈니스 관련 문제들을 해결할 수 있습니다.

빅 데이터의 3V

크기(Volume) 데이터의 양이 중요합니다. 빅 데이터를 다룬다는 것은 곧 저밀도의 비정형 데이터를 대량으로 처리해야 함을 의미합니다. 이를테면 트위터 데이터 피드, 웹페이지 또는 모바일 앱의 클릭 동향, 센서 기반 장비에서 수집된 데이터 등 알려지지 않은 가치의 데이터를 예로 들 수 있습니다. 어떤 조직에게는 수십 테라바이트 크기의 데이터일 수 있고, 또 어떤 조직에게는 수백 페타바이트 크기의 데이터가 될 수도 있습니다.
속도(Velocity) 빅 데이터에서 속도란 데이터가 수신되거나 (어쩌면) 처리되는 속도를 의미합니다. 보통, 데이터를 디스크에 쓸 때보다 메모리에 직접 스트림 처리될 때 가장 빠른 속도를 냅니다. 일부 인터넷 기반 스마트 제품의 경우 실시간, 혹은 실시간에 가까운 속도로 운영되는데, 이로 인해 실시간 평가 및 실시간 동작이 요구됩니다.
다양성(Variety) 빅 데이터에서 다양성이란 이용 가능한 데이터의 종류가 무수히 많다는 것을 의미합니다. 기존 데이터 유형의 경우 구조화된 정형 데이터로, 관계형 데이터베이스에 정확히 들어맞았습니다. 그러나 빅 데이터가 등장함에 따라 새로운 유형의 비정형 데이터가 생성되고 있습니다. 텍스트, 오디오, 비디오 등의 반정형 및 비정형 데이터는 그 의미를 도출하고 메타데이터를 지원하는 데 추가적인 사전 처리 작업을 요합니다.

빅 데이터의 가치, 그리고 진실

지난 몇 년간 두개 이상의 V가 더 등장했는데, 바로 '가치(Value)''정확성(Veracity)'입니다.

데이터는 고유의 가치를 지니고 있습니다. 하지만 이러한 가치를 발견해내지 못한다면 쓸모가 없습니다. 또 하나 중요하게 짚어볼 점은, '우리가 보유한 데이터가 얼마나 진실성이 있고 신뢰할 수 있는가?'입니다.

이제 빅 데이터는 일종의 자산이 되었습니다. 초대형 글로벌 기술 기업들을 빗대어 보자면 이들이 제공하는 가치 중 상당수가 데이터에서 비롯되는데, 이들은 이러한 데이터를 지속적으로 분석하여 효율성을 높이고 신제품을 개발합니다.

최근 등장한 혁신 기술들 덕분에 데이터 스토리지 및 컴퓨팅 비용이 대폭 줄면서, 전보다 많은 양의 데이터를 저렴한 비용으로 손쉽게 보관할 수 있게 되었습니다. 대량의 빅 데이터를 보다 저렴하게 수집하고 간편하게 액세스할 수 있게 되면서 비즈니스 의사결정의 정확도 또한 높아졌습니다.

빅 데이터에서 가치를 찾아낸다는 것은 단순히 데이터 분석만을 이야기하는 게 아닙니다 (물론 분석을 통해 얻는 이점도 당연히 존재합니다). 이는 가치를 도출하는 프로세스 전체라고 할 수 있는데, 이러한 프로세스를 수행하기 위해서는 적절한 질문을 하고, 패턴을 읽으며, 정보에 기반한 추정을 내리고, 행동을 예측할 수 있는 분석정보 있는 분석가와 비즈니스 사용자, 그리고 기업 경영진의 참여가 필요합니다.

그런데 과연 우리는 어떻게 여기까지 오게 된 것일까요?

빅 데이터의 역사

빅 데이터의 개념 자체는 비교적 새로운 것이긴 하지만, 대용량 데이터 세트의 기원은 최초의 데이터 센터가 설립되고 관계형 데이터베이스가 개발되면서 데이터 세계가 막 열리기 시작하던 1960~70년대로 거슬러 올라갑니다.

그 후 2005년에 접어들면서 사람들은 Facebook, YouTube 등 온라인 서비스를 통해 수많은 데이터 사용자가 생겨나고 있음을 깨닫기 시작했습니다. 바로 그 해에 Hadoop(빅 데이터 세트를 저장하고 분석할 목적으로 생성된 오픈소스 프레임워크)이 등장했습니다. 이 시기에 NoSQL도 유명세를 타기 시작했습니다.

Hadoop (그리고 최근 들어서는 Spark)과 같은 오픈소스 프레임워크의 개발은 빅 데이터의 증가에 중요한 역할을 했습니다. 오픈소스 프레임워크를 활용하면 빅 데이터를 더 쉽게 활용할 수 있고 보관 비용도 더 저렴하기 때문이죠. 그 이후로 빅 데이터의 양은 기하급수적으로 증가하고 있습니다. 사용자들은 여전히 엄청난 양의 데이터를 생성하고 있지만, 데이터를 만들어내는 것은 인간만이 아닙니다.

IoT(사물인터넷)가 등장하면서 점차 많은 수의 객체와 장치가 인터넷에 연결되어 고객 사용 패턴과 제품 성능 관련 데이터를 수집하고 있습니다. 여기에 머신러닝이 등장하면서 데이터의 양이 증가했습니다.

이런 식으로 빅 데이터는 발전해 왔지만, 빅 데이터가 가진 유용성은 아직 맛보기에 불과합니다. 클라우드 컴퓨팅은 빅 데이터의 잠재력을 그 어느 때보다 더 확장시키고 있습니다. 클라우드는 유연한 확장성을 제공하므로, 개발자들은 애드혹 클러스터를 활용해 데이터 하위집합을 테스트할 수 있습니다.

빅 데이터와 데이터 분석의 이점:

  • 빅 데이터는 더 많은 정보를 제공하므로 보다 완전한 답을 구할 수 있습니다.
  • 보다 완전한 답이란 데이터에 대한 신뢰도가 높다는 것을 의미하며, 문제 해결에 있어 완전히 새로운 접근방식을 취한다는 뜻입니다.

빅 데이터 활용 사례

빅 데이터는 고객 경험에서부터 분석에 이르기까지 다양한 유형의 비즈니스 활동을 처리하도록 돕습니다. 그 중 몇 가지를 소개하겠습니다. (더 많은 활용 사례는 Oracle Big Data Solutions에서 확인하실 수 있습니다.)

제품 개발 Netflix, P&G(Procter & Gamble) 등의 기업들은 고객 요구사항을 미리 예측하기 위해 빅 데이터를 사용합니다. 이들은 이전 및 현재 제품/서비스가 지닌 핵심 속성을 분류해 이러한 속성과 제품/서비스의 상업적 성공 간 관계를 모델링함으로써 새로운 제품/서비스 개발을 위한 예측 모델을 구축하고 있습니다. 특히, P&G는 포커스그룹, SNS, 테스트 시장, 초기 매장 출시품 성과 등으로부터 수집된 데이터와 분석 결과를 신제품 기획, 생산, 출시에 활용하고 있습니다.
예측 기반 유지관리 장비 결함을 예측할 수 있는 요소들은 장비 생산연도, 제조사, 장비 모델과 같은 정형 데이터 외에도 수백만 개의 로그 항목, 센서 데이터, 에러 메시지, 엔진 온도 등을 아우르는 비정형 데이터 안에 깊숙이 숨겨져 있을 수 있습니다. 기업들은 실제로 문제가 일어나기 전에 잠재적 문제를 암시하는 요소를 분석함으로써 유지관리를 비용 효율적으로 수행하는 동시에, 부품과 장비 가동시간을 최대한 활용할 수 있습니다.
CX(Customer Experience) 고객 유치 경쟁이 시작되었습니다. 우리는 그 어느 때보다 명확한 관점에서 고객 경험을 분석할 수 있게 되었습니다. 빅 데이터를 이용하면 SNS, 웹 방문기록, 호출 로그 등 다양한 소스를 통해 데이터를 수집하여 상호 작용 환경을 개선하고 가치를 극대화할 수 있습니다. 맞춤형 서비스를 제공해 고객 이탈을 줄이고 비즈니스 관련 문제에 선제적으로 대응하세요.
사기 행위와 컴플라이언스 보안은 단순히 소수의 해커에 맞서는 것이 아니라, 전문 해커들로 이루어진 집단에 대항하는 것입니다. 보안 관련 정세와 컴플라이언스 요구조건은 갈수록 까다로워지고 있습니다. 빅 데이터를 이용하면 사기 행위를 암시하는 데이터 내 패턴을 식별할 수 있으며, 다량의 정보를 종합하여 보다 신속하게 규제 보고를 작성할 수 있습니다.
머신러닝 머신러닝이 요즘 화제로 떠오르고 있습니다. 이러한 인기의 요인 중 하나가 바로 데이터, 특히 빅 데이터입니다. 우리는 이제 기계를 프로그래밍하는 대신 직접 가르칠 수 있게 되었습니다. 이는 머신러닝 모델을 트레이닝하는 빅 데이터 덕분입니다.
운영 효율성 운영 효율성이 항상 중요한 요소라고는 할 수 없지만, 빅 데이터가 가장 큰 영향력을 미치는 분야임은 분명합니다. 빅 데이터를 활용하면 생산 과정과 고객 피드백, 수익 등의 다양한 요소를 분석 및 평가해 문제 발생을 줄이고 미래의 요구사항을 미리 예측할 수 있습니다. 또한 이를 이용해 현재 시장 수요와 관련하여 의사결정을 효과적으로 수립할 수 있습니다.
혁신의 원동력 빅 데이터를 이용하면 혁신을 실현할 수 있습니다. 인간, 기관, 기업, 그리고 프로세스 사이의 상호 의존성을 연구하고 이를 통해 얻은 분석정보를 활용할 수 있는 새로운 방법을 찾아낼 수 있기 때문입니다. 데이터 분석정보를 활용하여 재무 및 기획 관련 의사 결정을 효과적으로 수립하십시오. 시장 동향과 고객들의 요구사항을 조사하여 새로운 제품과 서비스를 제공하십시오. 동적 가격 책정 방침을 시행하십시오. 빅 데이터에는 무한한 가능성이 있습니다.

빅 데이터 관련 문제

빅 데이터는 많은 이점이 있지만, 그렇다고 해서 문제가 전혀 없는 것은 아닙니다.

빅 데이터는... 일단 규모가 큽니다. 데이터 보관을 위해 새로운 기술들이 개발되긴 했지만, 데이터의 양은 2년 주기로 2배 가량 늘어나고 있습니다. 그리고 기업들 역시 이러한 데이터 증가에 발맞춰 데이터를 효율적으로 보관할 방법을 찾는 데 여전히 어려움을 겪고 있습니다.

그렇지만 데이터를 단순히 보관하는 것만으로는 충분하지 않습니다. 데이터는 반드시 가치 있게 활용되어야 하며, 이는 데이터를 어떻게 큐레이팅 하느냐에 따라 달라집니다. 데이터를 분류하거나, 혹은 고객사와 관련된 데이터를 유의미한 분석이 가능하도록 정리하려면 많은 작업이 필요합니다. 데이터 과학자들은 데이터를 실제로 사용하기에 앞서 큐레이팅하고 작성하는 데 업무 시간의 50~80%를 투자합니다.

마지막으로, 빅 데이터 기술은 빠르게 변화하고 있습니다. 몇 년 전만 해도 빅 데이터 처리에는 Apache Hadoop이 가장 많이 사용되었습니다. 그러다 2014년에 Apache Spark가 등장하면서, 이 두 가지 프레임워크를 조합하는 것이 가장 효율적은 접근법으로 여겨지고 있습니다. 이처럼 빅 데이터 기술의 흐름에 발맞추려는 노력이 끝없이 이어지고 있습니다.

빅 데이터 리소스 더 알아보기:

빅 데이터의 작동 방식

빅 데이터는 새로운 기회와 비즈니스 모델을 창출할 수 있는 새로운 분석정보를 제공합니다. 빅 데이터를 본격적으로 활용하기 위해서는 다음의 세 가지 핵심 작업이 선행되어야 합니다.

1. 통합

빅 데이터는 다양한 서로 다른 종류의 소스와 어플리케이션으로부터 데이터를 수집해 종합합니다. ETL(Extract, Transfer, Load) 같은 기존 데이터 통합 메커니즘으로는 빅 데이터에 절대 대응할 수 없으며, 빅 데이터 세트를 테라바이트, 심지어는 페타바이트 규모로 분석하기 위해서는 새로운 전략과 기술이 필요합니다.

통합이 진행되는 동안에는 데이터를 불러와 프로세싱을 거친 뒤 비즈니스 분석가들이 활용할 수 있는 형태로 구성이 되었는지 확인해야 합니다.

2. 관리

빅 데이터는 스토리지를 필요로 합니다. 스토리지 솔루션으로는 클라우드나 온프레미스 중 한 가지를 택할 수도 있고, 혹은 두 가지 모두를 활용할 수도 있습니다. 원하는 형태로 데이터를 보관한 다음, 필요로 하는 프로세싱 관련 요구조건과 프로세스 엔진을 데이터 세트에 온디맨드 방식으로 적용할 수 있습니다. 대부분의 사람들은 데이터의 현재 위치에 따라 그에 맞는 스토리지 솔루션을 선택하곤 합니다. 클라우드 솔루션의 경우 사용자의 현재 컴퓨팅 관련 요구사항을 지원하고, 필요할 때마다 리소스를 자유롭게 활용할 수 있다는 점에서 점점 인기를 얻고 있습니다.

3. 분석

빅 데이터에 대한 투자는 데이터를 분석하고 실제 활용하는 순간 빛을 발하기 시작합니다. 다양한 종류의 데이터 세트에 대한 가시적인 분석을 통해 데이터의 명확성을 개선하십시오. 데이터를 깊이 있게 탐색하여 새로운 것들을 발견하십시오. 이렇게 도출된 정보를 다른 이들과 공유하십시오. 머신러닝과 인공지능 기술로 데이터 모델을 구축하십시오. 데이터를 실제 업무에 활용하십시오.

빅 데이터 모범사례

빅 데이터 여정에 도움이 될 몇 가지 주요 모범사례를 준비했습니다. 다음은 성공적인 빅 데이터 기반을 구축하는 방법에 대한 오라클의 가이드라인입니다.

빅 데이터를 특정 비즈니스 목표와 연계할 것 광범위한 데이터 세트 속에서 새로운 것을 발견할 수 있습니다. 따라서 강력한 비즈니스 기반 컨텍스트 하에 스킬이나 조직, 인프라에 대한 새로운 투자를 기반으로 현재 진행 중인 프로젝트 투자 및 자금 조달을 보장하는 것이 중요합니다. 진행 상태를 검증하기 위해, 빅 데이터가 비즈니스 및 IT 우선순위를 어떻게 지원하고 실현하도록 돕는지 살펴봐야 합니다. 예들 들면, 전자상거래 행위를 이해하기 위한 목적으로 웹 로그를 필터링하는 방법을 파악하는 것, SNS와 고객 지원 인터랙션의 흐름을 파악하는 것, 통계적 상관관계 분석 방법 그리고 고객, 제품, 제조, 엔지니어링 데이터와 이것이 지니는 관계성을 이해하는 것 등이 있습니다.
표준화 및 거버넌스로 스킬 부족 문제를 완화할 것 빅 데이터 투자를 통해 이익을 창출하는 데 있어 가장 큰 장애물 중 하나는 바로 스킬 부족입니다. 이러한 리스크는 빅 데이터 기술과 관련 고려사항, 의사결정 등을 사내 IT 거버넌스 프로그램에 확실히 연결함으로써 완화할 수 있습니다. 접근 방식을 표준화하면 비용을 효율적으로 관리하고 리소스를 최대치로 활용할 수 있습니다. 빅 데이터 솔루션과 전략을 구현하는 조직들은 이와 관련된 스킬 요건을 조기에 그리고 자주 평가해야 하며, 혹시나 발생할 수도 있는 스킬 격차를 선제적으로 파악해야 합니다. 이는 기존 리소스를 훈련/교차훈련 시키거나 새로운 리소스를 채용하고 컨설팅 기업을 적극 활용함으로써 해결할 수 있습니다.
전문가 조직을 활용해 지식 이전을 최적화할 것 전문가 조직(CoE)을 활용하는 접근 방식을 사용해 지식을 공유하고 효율적인 관리/감독을 수행하며 프로젝트 커뮤니케이션을 원활하게 관리하십시오. 빅 데이터에 대한 투자가 신규이든 기존 투자 확대이든 관계없이 설비 비용과 설비 외 비용은 기업 전반에서 공유할 수 있습니다. 이러한 접근 방식을 적극 활용하면 보다 구조적이고 체계화된 방식으로 빅 데이터 역량과 전반적인 정보 아키텍처 성숙도를 높일 수 있습니다.
비정형 데이터와 정형 데이터를 연결해 더 나은 가치를 도출할 것.

빅 데이터를 직접 분석하는 것은 분명 가치 있는 일입니다. 하지만 저밀도의 빅 데이터를 이미 사용 중인 정형 데이터와 연결해 통합함으로써 더 방대한 비즈니스 분석정보를 도출할 수 있습니다.

데이터 분석의 최종 목표는 고객 빅 데이터, 제품 빅 데이터, 장비 빅 데이터, 환경 관련 빅 데이터 등 그 종류와 상관없이, 더 연관성 있는 데이터 포인트를 코어 마스터 및 분석 요약에 추가해 더 나은 결론에 도달하는 것입니다. 예를 들어, 모든 고객 관심도를 충성 고객 관심도와 구분 짓는 데는 차이가 있습니다. 이는 많은 기업에서 빅 데이터를 기존 인텔리전스 역량, 데이터 웨어하우스 플랫폼, 정보 아키텍처의 필수 연장선으로 보는 이유이기도 합니다.

빅 데이터 분석 프로세스와 모델은 인간 기반일 수도 있고, 기계 기반일 수도 있다는 점을 명심하십시오. 빅 데이터 분석 역량은 통계, 공간 분석, 의미 체계, 대화형 검색, 가시화 등을 포함합니다. 분석 모델을 활용하면 서로 다른 유형의 데이터와 데이터 소스를 연결 지어 의미 있는 발견을 이뤄낼 수 있습니다.

더 나은 성과를 위한 데이터 연구소를 계획할 것.

데이터 안에서 의미를 발견하는 것이 항상 쉬운 일은 아닙니다. 때로는 무엇을 찾고 있는지조차 모를 때도 있습니다. 충분히 예측 가능한 일입니다. 따라서 경영과 IT 부서는 이러한 "방향성 부족" 또는 "분명한 요구사항 정의 부족" 현상에 대응할 수 있도록 뒷받침하는 역할을 해야 합니다.

이와 동시에 분석가들과 데이터 과학자들이 비즈니스 부서와 긴밀히 협력해 주요 비즈니스 지식 격차와 관련 요구사항을 이해하는 것 또한 중요합니다. 데이터를 대화형 방식으로 탐색하고 전략적 알고리즘 실험이 가능하도록 하기 위해서는 효율성 높은 업무 공간이 필요합니다. "샌드박스" 환경은 이러한 업무에 필요한 지원을 제공하고 거버넌스를 준수할 수 있는 공간이어야 한다는 점을 유념하십시오.

클라우드 운영 모델과 연계할 것. 빅 데이터 프로세스와 사용자는 반복적인 실험과 생산 작업 모두를 위해 일련의 광범위한 리소스에 대한 액세스를 필요로 합니다. 빅 데이터 솔루션은 트랜잭션, 마스터 데이터, 참조 데이터, 요약 데이터 등 모든 데이터 범위를 포함합니다. 분석 샌드박스는 온디맨드로 생성되어야 합니다. 전처리 및 후처리, 통합, 데이터베이스 내 요약, 분석 모델링 등 전반적인 데이터 흐름을 제어하기 위해서는 리소스 관리가 매우 중요합니다. 적절히 기획된 프라이빗/퍼블릭 클라우드 프로비저닝 및 보안 전략은 이처럼 변화하는 요구사항을 뒷받침하는 데 중요한 역할을 합니다.