구조적 데이터와 비구조적 데이터의 차이점은 무엇이며, 왜 중요합니까? 많은 기업과 조직의 경우 이러한 구별은 빅 데이터를 처리하는 IT 부서에만 속한다고 느낄 수 있습니다.
이에 대한 진실은 있지만 모든 사람이 그 차이를 이해하는 것이 바람직합니다. 구조화된 데이터와 구조화되지 않은 데이터의 정의(데이터의 존재 여부와 처리 방법과 함께)를 파악하면 이를 사용하여 데이터 기반 프로세스를 개선하는 방법을 확인할 수 있기 때문입니다.
영업, 마케팅, 운영, 인적 자원 등 모든 그룹이 데이터를 생성합니다. 물리적 인벤토리와 로컬 고객 기반을 갖춘 오프라인 매장과 같은 소규모 기업에서도 이메일, 신용 카드 거래, 재고 구매 및 소셜 미디어와 같은 구조적 및 비구조적 데이터를 생성합니다. 비즈니스에서 생성하는 데이터를 활용하려면 두 가지와 함께 작동하는 방식을 이해해야 합니다.
구조화된 데이터는 미리 정의된 예상 형식을 사용하는 데이터입니다. 이것은 많은 다른 소스에서 올 수 있지만 일반적인 요인은 필드를 저장하는 방식 (따라서 구조화)과 같이 고정된다는 것입니다. 사전 결정된 데이터 모델을 사용하면 간편하게 입력, 쿼리 및 분석할 수 있습니다.
예를 들어, 온라인 구매의 트랜잭션 데이터를 고려해 보십시오. 이 데이터에서 각 레코드에는 시간 기록, 구매 금액, 관련 계정 정보(또는 고객 계정), 구매한 항목, 결제 정보 및 확인 번호가 포함됩니다. 각 필드에는 정의된 용도가 있으므로 이 데이터를 수동으로 쉽게 질의할 수 있습니다(Excel 스프레드시트에서 CTRL+F를 누르는 것과 같음). 또한 머신 러닝 알고리즘이 패턴을 식별하고 이러한 패턴 외부에서 이상을 식별하는 것도 쉽습니다.
구조화된 데이터는 설정된 요소와 예상 요소로 드릴다운됩니다. 시간 기록은 정의된 형식으로 도착합니다. 즉, 구조 외부에 있으므로 단어로 설명된 시간 기록을 전송하지 않습니다. 미리 정의된 형식을 사용하면 수동 레벨에서 최종적으로 처리되더라도 쉽게 확장성과 처리가 가능합니다.
소스가 구조를 정의하는 경우 구조화된 데이터를 모든 경우에 사용할 수 있습니다. 비즈니스에서 가장 일반적인 용도로는 CRM 양식, 온라인 거래, 주식 데이터, 기업 네트워크 모니터링 데이터, 웹사이트 양식 등이 있습니다.
구조화된 데이터가 정의와 함께 제공되는 것처럼 구조화되지 않은 데이터에는 정의가 없습니다. 특정 형식의 사전 정의된 필드가 아닌 구조화되지 않은 데이터는 모든 구성과 크기로 제공될 수 있습니다. 일반적으로 양식의 열린 텍스트 필드와 같은 텍스트이지만 구조화되지 않은 데이터는 이미지, 오디오, 비디오, 문서 파일 및 기타 파일 형식으로 저장될 수 있습니다. 구조화되지 않은 모든 데이터가 있는 공통 스레드는 정의가 부족합니다.
구조화되지 않은 데이터는 보다 일반적으로 사용 가능하며(아래에 자세히 표시됨) 필드에는 구조화된 데이터와 동일한 문자 또는 공간 제한이 없을 수 있습니다. 비정형 데이터로 구성된 다양한 형식을 고려할 때 이 유형은 일반적으로 조직의 데이터 중 약 80%를 차지한다는 것은 놀라운 일이 아닙니다.
Media 파일은 구조화되지 않은 데이터의 예입니다. 팟캐스트처럼 콘텐츠에는 구조가 없습니다. 팟캐스트의 MP3 파일 검색은 기본적으로 쉽지 않습니다. 파일 이름, 시간 기록 및 수동으로 지정된 태그와 같은 메타데이터는 검색에 도움이 될 수 있지만 추가 분석 또는 관계 없이 오디오 파일 자체에 컨텍스트가 없습니다.
이는 비디오 파일에도 적용됩니다. 비디오 자산은 소셜 미디어의 짧은 클립에서 전체 웨비나 또는 토론을 보여주는 큰 파일에 이르기까지 오늘날 어디에나 있습니다. 팟캐스트 MP3 파일과 마찬가지로 이 데이터의 컨텐츠에는 메타데이터 외부의 특성이 없습니다. 데이터베이스의 실제 콘텐츠를 기반으로 특정 비디오 파일을 검색할 수는 없습니다.
오늘날의 데이터 중심 비즈니스 세계에서 구조적 데이터와 비구조적 데이터를 모두 사용하면 통찰력을 개발할 수 있습니다. 회사의 소셜 미디어 게시물의 예로 돌아가 보겠습니다. 특히 일부 형태의 미디어 첨부 파일을 게시합니다. 조직은 마케팅 참여에 대한 통찰력을 어떻게 개발할 수 있습니까?
먼저 구조화된 데이터를 사용하여 가장 높은 참여로 소셜 미디어 게시물을 정렬한 다음 마케팅과 관련이 없는 해시태그를 필터링합니다(예: 고객 서비스와 관련된 해시태그가 있는 참여도가 높은 게시물 제거). 여기에서 관련 비구조적 데이터(메시징, 미디어 유형, 색조 및 포스트가 참여를 생성한 이유에 대한 통찰력을 제공할 수 있는 기타 요소)를 검토할 수 있습니다.
이것은 많은 수동 노동이 관여하고있는 것처럼 들릴 수 있으며 몇 년 전에 사실이었다. 그러나 머신 러닝과 인공 지능의 발전으로 인해 자동화 수준이 높아지고 있습니다. 예를 들어 음성-텍스트 출력을 생성하기 위해 자연어 처리를 통해 오디오 파일을 실행하는 경우 키워드 패턴 또는 양수/음수 메시징에 대해 텍스트를 분석할 수 있습니다. 이러한 통찰력은 빅 데이터가 점점 커지고 있으며 빅 데이터의 대다수가 구조화되지 않았기 때문에 점점 더 중요해지고 있는 최첨단 툴로 인해 신속하게 처리됩니다.
오늘날 데이터는 다양한 소스에서 생성됩니다. 표준 전자상거래 설정이 적용된 중견 기업을 살펴보겠습니다. 이 경우 데이터는 다음 영역에서 비롯됩니다.
그리고 더 많은 데이터 소스가 있을 수 있습니다. 실제로 요즘 모든 회사에서 가져온 데이터의 양은 점점 커지고 있습니다. 빅 데이터 혁명의 일부가 되기 위해서는 큰 기업일 필요가 없습니다. 그러나 이러한 데이터를 처리하는 방법은 데이터를 활용하는 데 있어 핵심입니다. 대부분의 경우 최상의 솔루션은 데이터 레이크입니다.
데이터 레이크는 구조화된 데이터와 구조화되지 않은 데이터를 수신하는 저장소입니다. 여러 데이터 입력을 단일 소스로 통합하는 기능은 빅 데이터 인프라의 필수 요소인 데이터 레이크를 만듭니다. 데이터가 데이터 레이크에 들어오면 원시 데이터로 간주되도록 고유 구조가 제거되므로 쉽게 확장 가능하고 유연하게 사용할 수 있습니다. 데이터를 읽고 처리하면 필요에 따라 구조 및 스키마가 제공되어 볼륨과 효율성의 균형을 유지합니다.
Oracle Big Data 서비스는 Powered by Oracle Cloud를 통해 원시 데이터의 관리 및 처리를 가속화합니다. 블록 스토리지에서 데이터 레이크에 이르기까지 Oracle은 구조적 데이터와 비구조적 데이터를 모두 처리하는 유연한 솔루션을 제공합니다.