2022년 5월 2일
데이터 마이닝이란 무엇인가요? 간단히 말하자면 대량의 데이터를 처리해 인사이트를 확보하는 프로세스입니다. 여러 소스 또는 단일 데이터베이스의 데이터를 사용할 수 있으며, 수동 검색 또는 자동화를 통해 인사이트를 확보할 수 있습니다. 리소스, 머신러닝/인공지능 기능, 데이터 복잡성, 데이터 양, 직원의 교육 및 경험 등의 변수에 따라 인사이트를 생성할 수 있는 다양한 경로가 존재합니다. 인사이트 생성 과정에는 패턴과 근본적인 요인을 발견하기 위한 데이터의 심층 분석이 포함되어 있으며 모든 과정은 최종적으로 결론을 도출하고 정보에 기반한 의사 결정을 내리기 위해 수행됩니다.
지난 20년간 빅 데이터 환경을 제공하는 데이터 소스가 늘어남에 따라 데이터 마이닝의 활용도 역시 크게 증가했습니다. 빅 데이터란 매우 대량의 데이터를 의미하며 여러 소스에서 빠르고 지속적으로 유입되는 경우가 많습니다. 비즈니스 인텔리전스 활용 초기에는 데이터 테이블을 기기에서 내보내 인사이트 확보를 위해 수동으로 준비하는 경우가 많았습니다. 그러나 전 세계적 연결성이 증가함에 따라 수동으로 분석하기에는 너무 방대한 양의 데이터를 처리해야 하는 경우도 늘어나고 있습니다.특히 대량의 정형 및 비정형 데이터가 혼합된 형태로 유입되면 사람이 직접 처리하기는 어렵습니다.
데이터 마이닝은 빅 데이터를 기능적으로 활용할 수 있도록 만드는 과정입니다. 데이터 마이닝이 없다면 기업들은 사물인터넷(IoT) 기기, 데이터베이스, 기업 소셜 미디어, 마케팅 이메일, 센서, 웹사이트 사용 기록 등 다양한 출처에서 생성되는, 각자 고유한 메타데이터 세트를 가지고 있는 테라바이트 규모의 데이터에 매몰될 수밖에 없습니다. 사람이 그와 같이 방대한 양의 데이터를 샅샅이 살펴보는 것은 물리적으로 불가능합니다. 데이터 마이닝 기법은 알고리즘을 활용해 그와 같이 방대한 기록 집합에서 패턴을 식별한 뒤 팀원들에게 해당 패턴들과 관련된 일련의 권장 사항을 제공합니다.
리테일 업체의 온라인 쇼핑 예시를 통해 그와 같은 과정을 잘 이해할 수 있습니다. 모든 고객 구매 이력이 거대한 데이터베이스로 통합됩니다. 알고리즘이 모든 데이터를 분석해 상관관계를 찾습니다. 예를 들어 특정 브랜드의 개 사료만 구매하는 고객을 식별합니다. 이후 알고리즘은 보충제나 간식 브랜드와 같은 관련 구매 정보를 탐색합니다. 패턴을 찾아내면 해당 정보를 마케팅팀에 제공하여 해당 특정 브랜드와 관련된 프로모션을 진행할 수 있도록 지원합니다.
위 섹션에서는 데이터 마이닝의 대략적인 큰 그림을 설명했습니다. 이제 실제 데이터 마이닝 과정을 살펴보겠습니다. 실무에서는 데이터 마이닝의 효과를 극대화하기 위해 자동화된 처리와 사람의 수동 분석이 모두 활용되며, 직원들이 가이드라인을 수립하고 머신러닝과 인공지능이 방대한 양의 데이터를 선별합니다. 일반적으로 다음과 같은 워크플로가 사용됩니다.
데이터 마이닝 모델이 구축되었다면 이제 다양한 데이터셋에 배포할 차례입니다. 예상치 못한 문제나 모델 조정 및 개선 사유가 발생하지 않도록 지속적인 모니터링을 수행해야 합니다. 모든 것이 계획대로 작동한다면 그 결과물인 데이터는 유효성과 유용성에 대한 기준을 충족해야 하고, 비즈니스 사용자의 데이터 기반 의사결정을 위한 검토 준비를 마친 상태여야 합니다.
리테일 업계의 사례 외에도 데이터 마이닝은 다양한 산업에 혁신적인 변화를 가져올 수 있습니다. 각 산업 고유의 요구사항에 데이터 마이닝을 적용하는 예시는 다음과 같습니다.
데이터 마이닝은 의료 기관과 환자의 경험을 모두 개선하고 가속화함으로써 의료 산업을 변화시킬 수 있습니다. 의료 기관은 데이터 마이닝을 활용해 연구를 가속화하고, 연구 참여도를 높이고, 운영 데이터를 분석해 인력 수요를 최적화하고, 보험 및 의료 기록 사기와 관련된 위험 신호를 식별할 수 있습니다. 환자의 경우 데이터 마이닝은 예방적 치료 옵션이 필요한 패턴을 식별하여 실제 증상이 발생하기 전에 예방적 치료 관련 대화를 시작할 수 있도록 지원합니다. 또한 부작용과 같은 숨겨진 패턴을 발견하여 각 환자의 특정한 상태 및 조건에 치료 결과가 어떤 영향을 받을 수 있을지 더 잘 이해할 수 있도록 만들어 줍니다.
제조업계에서는 재료 조달, 조립 물류, 품질 관리, 출하 일정, 제조 결함으로 인한 반품 등의 모든 과정에서 데이터가 생성됩니다. 데이터 마이닝을 활용하면 공정을 구성하는 개별적 단계 및 전체적인 그림을 모두 분석할 수 있습니다. 따라서 미시적 관점 및 거시적 관점을 함께 활용해 문제를 해결할 수 있습니다.
예를 들어, 데이터 마이닝을 통해 특정 공급업체는 배송 시간이 더 길지만 전체 결함률은 낮다는 사실을 발견한 관리자는 지연으로 인한 위험을 완화하기 위한 단계를 병렬로 진행하며 해당 업체와의 거래를 계속하는 것이 좋을지 여부를 판단할 수 있습니다. 그와 반대로 다른 공급업체는 안정적으로 납품하지만 결함률이 높고 공정 전체에 더 큰 영향을 미친다는 사실을 파악할 수도 있습니다. 데이터 마이닝은 이러한 연관성을 도출하여 의사 결정이 명확한 근거를 바탕으로 이루어지고 전체 제조 공정이 최적화되도록 지원합니다.
데이터 마이닝은 내부 운영과 고객 경험 측면에서 금융 기관에 다양한 이점을 제공합니다. 운영 측면에서는 인적 자원 관리부터 마케팅에 이르는 모든 분야에 영향을 미칠 수 있습니다. 특히 가용성과 보안이 최우선시되는 금융 업계에서는 데이터 마이닝을 활용해 IT 관련 위험을 최소화할 수 있습니다.
금융 기관의 고객에게는 보호 기능과 향상된 고객 경험을 동시에 제공합니다. 데이터 마이닝을 통해 거래 패턴들을 분석해 지역, 시간대, 구매 품목 또는 복합적 요인에 근거한 비정상적 항목을 식별하고 경고를 발송할 수 있습니다. 그 다음 단계로 파악한 내용을 사기 대응팀에 전달해 후속 조치의 필요 여부를 검토합니다. 최종 사용자는 데이터 마이닝 패턴을 활용해 재융자나 주택담보 신용대출(HELOC) 같은 맞춤형 프로모션을 위한 마케팅 트리거를 생성할 수 있습니다.
데이터 마이닝은 내부 운영부터 고객 서비스에 이르는 기업의 모든 부서들을 위한 혜택을 제공합니다. 성공적인 데이터 마이닝은 다중 고속 데이터 소스를 활용할 수 있는 강력한 인프라를 구축하는 것부터 시작됩니다. Oracle Cloud Infrastructure(OCI) 무료 체험을 통해 데이터 마이닝의 토대를 구축하는 방법을 배워 보세요.