Jeffrey Erickson | Content Strategist | 2024년 7월 17일
기업의 데이터 비축은 금광이 될 수 있습니다. 데이터가 올바르게 사용되면 기업이 보다 효율적으로 실행하고, 오해를 피하고, 작업을 수행하기 위해 잘 구성된 깔끔한 데이터 흐름이 필요한 생성형 AI를 비롯한 다양한 기회를 활용할 수 있게 해주는 분석 기능을 활용할 수 있습니다. 그러나 이러한 모든 데이터의 가능성을 활용하려면 조직은 올바른 전략을 수립하고 데이터 인프라를 최적화해야 합니다.
데이터 인프라는 수집, 스토리지, 유지 관리 및 배포를 포함하여 조직의 데이터를 담당하는 기술, 프로세스 및 사람들의 에코시스템입니다. 인프라의 기술 구성 요소에는 서버 및 저장 장치와 같은 온프레미스 하드웨어와 OLTP 데이터베이스 및 데이터 웨어하우스와 네트워킹 기술을 포함한 소프트웨어가 포함됩니다. 일반적으로 다양한 클라우드 서비스도 포함됩니다. 관련 인력에는 애플리케이션 개발자, 데이터베이스 관리자, 데이터 분석가, 데이터 과학자 등이 있습니다.
데이터 인프라의 핵심 목표는 데이터 처리 및 분석을 위한 컴퓨팅 리소스뿐만 아니라 보안 스토리지 저장소를 제공하는 것입니다. 데이터 사용 방법과 액세스 권한을 가진 사용자를 제어하는 규칙과 정책도 마찬가지로 중요합니다. 궁극적으로 목표는 데이터 기반 의사결정을 위한 효율적인 관리 및 분석을 통해 조직의 데이터에서 최대한의 가치를 창출하는 것입니다.
핵심 요점
데이터 인프라는 서버 및 저장 장치와 같은 하드웨어 구성 요소와 데이터 저장, 검색, 공유 및 분석을 위한 소프트웨어를 포함하는 조직의 물리적 인프라로 구성됩니다. 주요 구성 요소에는 기업이 그래프, 공간, 텍스트, 이미지, JSON, 벡터 데이터 등 다양한 데이터 유형을 저장 및 분석하는 데 사용하는 데이터베이스, 데이터 레이크 및 데이터 웨어하우스가 포함됩니다.
이러한 기술에 중점을 두는 것은 민감한 데이터를 무단 액세스로부터 보호하는 보안 조치입니다. 그 외에도 대시보드, 생성형 AI 코파일럿 등 데이터 분석을 기반으로 의사결정을 지원하는 도구 및 기술들이 있습니다.
기능 데이터 인프라는 효율적인 데이터 처리, 분석 및 의사 결정을 지원하는 동시에 보안 및 규정 준수 문제를 해결할 수 있도록 지원합니다. 효과적인 데이터 인프라를 보유한 조직은 데이터 유형의 복잡한 조합을 쉽게 이해할 수 있고 실행 가능한 통찰력으로 변환하여 가치를 창출할 수 있습니다.
이러한 통찰력은 사용자가 정보를 실시간으로 탐색하고 분석하여 원시 데이터에서 분명하지 않을 수 있는 추세, 패턴 및 관계를 식별할 수 있는 대화형 대시보드에서 이동할 수 있습니다. 대시보드에는 다양한 결정의 가능한 결과를 쉽게 비교할 수 있는 차트, 그래프, 히트맵 및 인포그래픽이 포함될 수 있습니다.
또한 효과적인 데이터 인프라는 보안을 손상시키지 않고 데이터 액세스를 민주화하는 것을 목표로 합니다. 서로 다른 수준의 이해관계자가 협업하고 전략적 의사 결정에 기여할 수 있는 경우 조직의 이점이 있습니다. 또한 데이터 인프라는 비즈니스 운영의 효율성을 높일 수 있는 지능형 자동화를 비롯한 생성형 AI 이니셔티브를 제공할 수 있습니다.
데이터의 효과적인 사용은 수년간 비즈니스 의사 결정의 중요한 부분이었습니다. 기업은 운영 데이터를 손쉽게 분석할 수 있게 되면 무엇이 효과가 있는지, 무엇이 효과가 없는지 보다 명확하게 파악하고, 1초 단위로 정확하게 의사결정을 내리거나, 더 긴 시야를 보면서 악용하거나 피할 트렌드를 파악할 수 있습니다. 이제 생성형 AI의 새로운 가능성을 통해 데이터 인프라는 그 어느 때보다 중요해졌습니다. AI는 이제 검색 증강 생성(RAG) 및 벡터 저장소와 같은 기술을 포함해야 하는 적절한 데이터 인프라를 통해서만 데이터에서 실행되며, 최신 생성형 AI 모델이 잠재력을 최대한 발휘할 수 있습니다.
귀사의 데이터 인프라는 AI 이니셔티브 지원을 위해 최적화되어 있나요? 그 답을 얻기 위해 리더라면 반드시 던져야 할 7가지 핵심 질문들을 살펴보세요.
데이터 인프라를 최적화할 때 고려해야 할 여러 가지 사항이 있습니다. 여기에 당신이 모든 기초를 커버하는 데 도움이 10 가지 아이디어가 있습니다.
하드웨어 및 소프트웨어 투자 외에도 데이터 거버넌스는 데이터의 힘을 극대화하기 위한 필수 요소입니다. 데이터 거버넌스는 데이터를 효과적으로 관리 및 사용하고 정확성, 일관성, 가용성 및 보안을 보장하며 데이터 관련 관행을 조직의 목표 및 목표에 맞춰 조정하는 프레임워크입니다.
데이터 거버넌스 계획은 책임을 보장하기 위해 데이터 관리와 관련된 개인에게 명확한 역할과 책임을 정의해야 합니다. 첫 번째 단계는 역할을 정의하고 데이터 소유자, 데이터 관리자 및 데이터 사용자를 지정하며 각각 특정 권한과 책임이 있습니다. 데이터 거버넌스에는 데이터에 액세스할 수 있는 IT 팀에 대한 규칙과 지침도 포함되어 있습니다. 정책은 데이터 보안, 데이터 품질, 데이터 보존 및 데이터 공유를 비롯한 주제를 다루어야 합니다.
마지막으로, 확실한 거버넌스는 정기적인 데이터 감사를 수행하고 데이터 품질 지표를 모니터링하여 문제를 신속하게 식별하고 해결합니다.
데이터 인프라 구축 및 유지 관리와 관련된 IT 전문가는 종종 소프트웨어 프로비저닝, 모니터링 및 업데이트와 관련된 단계를 자동화하는 스크립트를 작성하여 작업을 자동화하는 데 능숙합니다. 최근 클라우드 제공업체들은 강력한 AI 및 머신러닝(ML) 도구를 사용해 기업 조직이 프로비저닝, 데이터 로딩, 쿼리 실행, 장애 처리 등 더 광범위한 작업을 자동화하고 대규모 쿼리 성능을 달성할 수 있도록 지원해 왔습니다.
비즈니스 측면에서 이러한 수준의 성능은 예측 분석을 유도할 수 있으며, 이를 통해 재무, 데이터 보안, 물류 등과 같은 영역에서 의사 결정의 정확성과 속도를 높일 수 있습니다.
모든 데이터 인프라가 효율적인 관리 및 전송을 위해 데이터를 논리적 그룹으로 구성하는 것이 중요합니다. 이러한 노력에는 데이터 분류와 데이터 분류라는 두 가지 부분이 있습니다. 분류는 공유 속성(예: 소스 또는 민감도)을 기반으로 데이터를 범주로 그룹화하고, 분류는 규칙 또는 알고리즘을 기반으로 사전 정의된 분류에 데이터를 지정합니다.
예를 들어 제품 R & D 문서는 "기술 데이터" 및 "시장 조사"와 같은 여러 범주에 잠재적으로 적합 할 수 있지만 "공개", "기밀 내부" 또는 "비밀"과 같은 특정 계층 내에서 하나의 분류 일뿐입니다.
메타데이터는 데이터 자산을 설명하는 정보입니다. 사진을 찍을 때 메타데이터는 사진이 촬영된 위치와 시기를 다른 여러 가지 가능한 속성 중에서 나타냅니다. 데이터 인프라의 메타데이터 저장소는 시스템 내의 데이터 자산, 프로세스 및 스키마에 대한 메타데이터를 구성하고 유지합니다. 메타데이터 저장소는 데이터 레이크하우스와 같은 하이브리드 환경 전반에서 데이터 검색 가능성 및 데이터 거버넌스를 모두 개선할 수 있습니다. 메타데이터 저장소는 데이터 계보, 액세스 제어, 암호화 및 감사 로깅에 대한 정보를 제공하여 규제 준수를 도울 수 있으며, 이는 모두 데이터 프라이버시 및 보호에 기여합니다. 점점 더 많은 생성형 AI 시스템은 메타데이터를 활용하여 결과물에 투명성과 설명 가능성을 제공합니다.
올바른 데이터 인프라는 조직의 디지털 자산을 보호하는 데 도움이 될 수 있으며, 이를 통해 고객과 이해 관계자의 신뢰를 얻고 업계 규정을 준수할 수 있습니다.
데이터 보안에는 고려해야 할 몇 가지 각도, 일부 기술, 일부 소셜이 있습니다. 먼저 rest에서 데이터를 암호화하고 무단 직원이 가로채거나 액세스하는 경우 전송 중입니다. 그런 다음 민감한 데이터를 볼 수 있는 사용자를 제한하는 제어를 구현하여 이러한 위협으로부터 보호합니다. 이 작업은 사용자 인증 및 역할 기반 액세스 제어를 통해 수행할 수 있습니다. 데이터 보안에 대한 위협은 지속적으로 진화하고, 정기적으로 보호 조치를 모니터링 및 업데이트하고, 물론 최신 보안 패치 및 소프트웨어 업데이트를 통해 최신 상태를 유지합니다. 클라우드 제공업체는 취약점이 발견되자마자 사전에 소프트웨어에 패치를 적용하고 업데이트할 수 있습니다.
또 다른 방어선은 직원 교육입니다. 직원들이 근무일의 일부로 데이터 보안을 이해하도록 하십시오. 강력한 암호, 피싱 사기 및 소셜 엔지니어링 공격에 대한 인식을 높이고 의심스러운 활동에 대한 보고 구조를 제공하는 교육을 수립합니다. 결국 데이터 침해가 발생하지만, 격리 및 복구와 고객 및 이해관계자의 신뢰를 유지하는 데 도움이 되는 커뮤니케이션 절차를 비롯하여 수행할 단계에 대한 프로토콜에 미치는 영향을 최소화할 수 있습니다.
데이터 인프라를 모니터링하여 잠재적인 문제가 생산성을 해치기 전에 파악하는 것이 중요합니다. 다양한 기반 구조 구성 요소를 모니터하기 위해 데이터 엔지니어는 소프트웨어 에이전트를 사용하여 운영 체제, CPU 사용량, 메모리 사용량, 네트워크 트래픽 및 기타 여러 구성 요소에 대한 성능 데이터를 수집합니다. 사용자에게 영향을 줄 수 있는 문제가 감지되면 모니터링 시스템이 문제를 진단하고 해결하는 데 도움이 될 수 있습니다. 데이터 센터 및 클라우드 제공업체 전반의 실시간 모니터링을 통해 기술 중단 또는 성능 저하를 예측하여 사용자가 감지하기 전에 해결할 수 있습니다.
조직에서 대량의 데이터를 생성하고 수집할 가능성이 높습니다. 속도가 가속화되도록 계획하는 것이 좋습니다. 데이터 인프라가 성장을 처리하고 변화하는 수요에 적응할 수 있도록 어떻게 지원할 수 있습니까?
현재 하드웨어, 소프트웨어 및 클라우드 서비스가 증가하는 데이터 볼륨 및 계산 수요에 어떻게 적응할지 이해합니다. 중단 및 병목 현상이 발생할 수 있는 위치를 파악하고 이를 중심으로 설계를 시작합니다. 이를 위해서는 새로운 기술과 데이터 관리 전략에 미치는 잠재적인 영향에 대한 최신 정보를 유지해야 합니다. 예를 들어 생성형 AI의 영향력이 커짐에 따라 벡터, RAG와 같은 새로운 데이터 유형의 이점을 활용하는 방법을 파악하고자 합니다.
조직의 컴퓨팅 요구 사항은 일, 주, 월 및 연중 내내 변경됩니다. 예를 들어, 온라인 소매 업체는 휴일 동안 많은 사용을 계획해야하며 대학은 잠재적으로 수만 명의 학생들이 수업에 등록 할 때 짧은 시간 동안 신속하게 확장해야합니다. 자동화된 확장 및 축소 기능을 갖춘 데이터 인프라를 사용하면 특히 cloud service의 인스턴스에 대한 비용을 지불할 때 전체 IT 비용을 절감할 수 있습니다.
적합한 클라우드 제공업체를 선택하는 것 외에도 통합, 모델링, 통합관리, 모니터링 및 시각화를 위해 설계된 아키텍처 및 도구를 통해 확장성을 보장할 수 있습니다. 로드 밸런서와 같은 기술은 서버 간에 트래픽을 분산시킬 수 있습니다. 또한 온프레미스 또는 DBaaS(Database as a Service) 오퍼링인 적합한 데이터베이스 솔루션은 인덱싱, 캐싱 및 쿼리 최적화와 같은 확장성을 극대화하는 기술을 사용합니다.
빠른 데이터 처리와 충분한 스토리지 용량은 효율적인 데이터 아키텍처의 초석입니다. 가장 간단하고 종종 비용이 적게 드는 방법은 일부 워크로드를 클라우드로 오프로드하는 것입니다. 여기에는 데이터베이스 서비스 및 서비스형 소프트웨어 정의 스토리지가 포함될 수 있으며, 단일 클라우드 서버의 가상 머신 모음을 사용하여 리소스 활용도를 향상시킬 수 있습니다.
데이터 센터에 머무르는 워크로드의 경우 오래된 장비를 교체하고 처리량을 개선하기 위해 최신 고성능 하드웨어에 투자하십시오. 최신 네트워크 하드웨어 및 소프트웨어는 데이터 센터 내에서 또는 위치와 클라우드 데이터 센터 간에 데이터를 이동하는 데 중요합니다. 업그레이드할 때 머신 러닝 및 분석을 위해 데이터베이스 간에 데이터를 이동해야 하는 요구 사항을 피해야 합니다. 이를 모두 수행하는 하나의 클라우드 데이터베이스 서비스를 사용하면 속도를 높이고 복잡성을 낮출 수 있습니다.
효율적인 데이터 인프라에는 스토리지 하드웨어, 처리 하드웨어 및 네트워크, 비즈니스 애플리케이션 및 데이터 저장소를 포함한 정보 인프라, business intelligence 시스템 및 분석 도구와 같은 비즈니스 인프라를 비롯한 많은 이동 부품이 있습니다. 이러한 요소 각각을 작동하고 안전하게 유지하려면 최신 상태로 유지해야 하는 기술 세트가 필요합니다. 예를 들어, 모던 데이터 시스템은 새로운 데이터 유형, 소프트웨어 도구, 컴퓨팅 아키텍처, 조직 구조에 대한 숙련도가 필요할 수 있는 생성형 AI를 고려해야 합니다. 직원들이 업스킬링 기업, 사용자 그룹 및 기술 이벤트 교육을 통해 최신 데이터 시스템을 파악하고, 풀 스택 개발 프로세스에서 데이터베이스에 대해 알아보고, 데이터 메시 아키텍처를 탐색하고, 데이터 분석 및 결과 제시와 관련된 원칙을 파악할 수 있도록 장려합니다.
기술 전문가는 또한 특정 기술을 중심으로 클라우드 제공업체 또는 커뮤니티에서 제공하는 교육에 액세스할 수 있습니다.
MySQL는 세계에서 가장 인기 있는 오픈 소스 데이터베이스이지만 지금까지는 별도의 데이터베이스에서 데이터 분석이 이루어져야 했습니다. 이제 HeatWave MySQL은 트랜잭션과 실시간 분석을 결합하는 완전 관리형 database cloud service를 제공하여 ETL 중복으로 인한 복잡성, 대기 시간, 비용 및 위험을 제거합니다. 데이터를 별도의 클라우드 서비스로 이동할 필요가 없는 다른 내장된 HeatWave 기능을 사용하여 데이터 인프라를 더욱 간소화합니다.
HeatWave는 OCI(Oracle Cloud Infrastructure), AWS(Amazon Web Services) 및 Microsoft Azure에서 이용할 수 있습니다.
데이터 인프라 시스템에 장애가 발생하면 어떻게 됩니까?
결함이 있는 데이터 인프라는 여러 가지 결과를 초래할 수 있으며 그 중 어느 것도 좋지 않습니다. 효율적이고 깨끗한 데이터에 의존하는 웹 사이트, 애플리케이션, 분석 도구 및 AI 시스템의 응답 시간이 느려질 수 있습니다. 더 나쁜 것은 결함이 있는 인프라 시스템이 취약점을 열어 인적 오류 또는 시스템 충돌로 인한 데이터 손실 위험을 초래하거나, 잘못된 행위자가 결함이 있는 데이터 인프라에 액세스할 경우 데이터가 손상될 수 있다는 것입니다.
데이터 인프라를 어떻게 관리하십니까?
데이터 인프라스트럭처는 데이터 보안을 보장하고 서비스를 제공할 수 있도록 설계된 직원들에게 도움을 주는 일련의 기술과 정책으로 관리합니다. 핵심 영역에는 내부 시스템과 cloud service 공급자 간에 효율적으로 데이터 흐름을 보장하도록 설계된 데이터 스토리지 하드웨어, 데이터베이스 소프트웨어, 네트워킹 소프트웨어 및 장비가 포함됩니다. 데이터 인프라 관리는 특히 생성형 AI가 보다 보편적으로 성장함에 따라, 운영하기 위해서는 깨끗한 데이터의 지속적인 흐름이 필요하다는 점을 감안할 때 매우 까다로운 기술입니다.
데이터 인프라에 투자할 기술을 어떻게 알 수 있습니까?
복잡성을 추가하지 않고 가치를 더하는 기술의 우선 순위를 정합니다. 예를 들어, 트랜잭션 처리 및 머신 러닝을 처리할 수 있는 데이터베이스에 투자하여 시간이 많이 소요되는 ETL 프로세스에서 벗어날 수 있습니다. 텍스트, 공간, 그래프, JSON 및 벡터와 같은 다양한 데이터 유형에서 기본적으로 작동하는 데이터베이스를 찾을 수도 있습니다. 또한 데이터 인프라를 단순화하는 데도 도움이 됩니다.
데이터 인프라를 얼마나 자주 검토해야 합니까?
데이터 인프라는 종종 조립 및 유지 관리가 복잡합니다. 머신 러닝 또는 AI와 같은 새로운 기술을 채택하거나 새로운 데이터 보안 조치가 필요한 경우 데이터 인프라에서 업그레이드를 검토하는 것이 가장 좋습니다. 합병 또는 인수와 같은 조직의 성장 또는 변화도 검토를 트리거해야 합니다. 지속적인 유지보수를 위해 데이터 인프라가 다양한 구성요소의 작동 정도에 대한 로그를 수집하고 정기적으로 검토해야 합니다. 이러한 로그는 데이터 전문가에게 발생하거나 지평선에 있는 문제를 알립니다.