首先,我们将启用运营事务数据的批量传输。当首次需要将大量数据(例如来自现有本地分析存储库或其它云技术源的数据)移动到 Oracle Cloud Infrastructure (OCI) 时,可以使用批量传输服务。具体使用哪种批量传输服务取决于数据的位置和传输频率。举例来说,我们可以使用 OCI Data Transfer 服务或 OCI Data Transfer Appliance 从历史计划或数据仓库存储库中加载大量本地数据。当需要持续移动大量数据时,我们建议使用 OCI FastConnect,它可在客户的数据中心与 OCI 之间提供高带宽的专用网络连接。
云端存储是我们的数据平台常用的数据持久性层。它可用于结构化和非结构化数据。OCI Object Storage、OCI Data Flow 和 Oracle Autonomous Data Warehouse 是基本构建块。以原始格式从数据源检索的数据将被捕获并加载到 OCI Object Storage 中。OCI Object Storage 是主要是数据持久性层,而 OCI Data Flow 中的 Spark 是主要批处理引擎。批处理涉及多项活动,包括基本噪声处理、缺失数据管理和基于定义的出站数据集筛选。根据所需的处理和使用的数据类型,将结果写回各层对象存储或持久关系存储库。
使用 Oracle Big Data Service for Hadoop(托管 Hadoop )替代 OCI Object Storage 和 OCI Data Flow 配置。这两种配置也可以结合使用,具体取决于客户以及客户是否投资了 Hadoop 生态系统,无论是产品还是技能。已经在 Hadoop 环境(非 Hadoop 分布式文件系统)中使用对象存储的客户可以将此配置转换为 Oracle Big Data Service。此外,Hadoop 环境中的其它组件(如 Hive)也可以发挥作用,推动使用 Big Data Service,具体取决于客户使用或打算使用的可视化和数据科学工具。虽然该架构概述了 Oracle 提供的所有服务,但客户可以选择继续使用现有的一些组件,特别是已经部署的可视化和数据科学工具。
我们现在将使用服务数据存储以优化的形式保存经过整理的数据,以提高查询性能。服务数据存储提供了一个持久的关系层,用于通过基于 SQL 的工具直接向最终用户提供经过整理的高质量数据。在此解决方案中,Oracle Autonomous Data Warehouse 被实例化为企业数据仓库的服务数据存储,如有需要,还可以被实例化更专业的域级数据集市。它也可以是数据科学项目的数据源或 Oracle Machine Learning 所需的存储库。服务数据存储可以采用多种形式,包括 Oracle MySQL HeatWave、Oracle Database Exadata Cloud Service 或 Oracle Exadata Cloud@Customer。