Data Flow

Oracle Cloud Infrastructure (OCI) Data Flow 是一个全托管式 Apache Spark 服务,它可以高效处理超大型数据集而无需用户部署或管理基础设施。开发人员还可以使用 Spark Streaming 对持续生成的流数据执行云端 ETL。这意味着开发人员不必管理基础设施,可以专注地开发进而快速交付应用。

OCI Data Flow 演示 (1:30)
Ronin Ronin 与 Oracle 携手改善癌症医疗,遵守人工智能权利法案

了解 Ronin 如何利用 OCI Data Flow 与 Apache Spark 创造未来,基于数据制定每个临床决策,为每位患者提供个性化服务,并自信、高效地进行呈现。

集成和准备数据以支持数据科学

观看 Oracle Developer Live 活动,了解如何利用数据集成和数据流来优化数据使用方式。

Oracle Cloud Data Flow 研讨会

了解 OCI 数据流服务将如何帮助您轻松、安全地运行 Spark 应用。

Oracle Data Flow 的特性

托管式基础设施

OCI 数据流服务可面向 Spark 作业执行基础设施供应和网络设置,并在作业结束时拆卸基础设施。同时,它还将负责存储和安全性管理,可降低您的 Spark 大数据分析应用的构建和管理工作负担。

简化集群管理

无需安装、修补或执行集群升级,可有效缩短项目用时,降低项目成本。

简化容量规划

OCI 数据流服务将在专有资源中运行每一个 Spark 作业,无需您提前进行容量规划。

降低成本

IT 人员只需为 Spark 作业运行时使用的基础设施资源付费。


高级流处理支持功能

零管理、自动容错、自动修补的 Spark 流处理。

持续处理

Spark 流处理支持您持续检索数据,可提供持续的处理后数据可用性。OCI 数据流服务使用 Spark 执行大量流处理任务,支持使用 MLLib 对流数据运行机器学习。它支持 Oracle Cloud Infrastructure (OCI) 对象存储以及任何与 Kafka 兼容的流处理源,包括使用 Oracle Cloud Infrastructure (OCI) 流处理服务作为数据源和数据宿。

自动容错

Spark 可处理因停机导致的迟到数据,通过水印(一种维护、存储和聚合延迟数据的 Spark 功能)捕获积压数据,而无需手动重启作业。而 OCI 数据流服务可以适时、自动重启您的应用。重启后,您的应用将从最后一个检查点恢复运行。

云原生身份验证

OCI 数据流服务的流处理应用可以通过资源主体进行云原生身份验证,将应用运行时间延长到 24 小时以上。


云原生安全性和治理

Oracle Cloud Infrastructure 具有无可比拟的安全性,它可以出色满足身份验证、隔离和所有其他关键需求,为业务数据提供超高水平的安全保护。

细粒度安全性

OCI Data Flow 在本地使用 Oracle Cloud 的 Identity and Access Management 系统执行数据控制和访问控制,确保数据安全。

托管式资源

您只需设置配额和限值即可管理 OCI 数据流服务的可用资源,有效控制成本。


简化运营

OCI 数据流服务可简化常见运营任务,例如日志管理和操作 UI 访问,让开发人员专注于应用构建。

更高的可见性

OCI 数据流服务可将操作信息汇总到一个可搜索的 UI 中,助您轻松洞悉 Spark 用户的当前状况。

轻松调试和诊断

通过涵盖日志输出、Spark 历史服务器等信息的整合视图高效进行 Spark 作业故障排除,无需耗费数小时时间进行日志跟踪和工具跟踪。

避免未来成本

通过排序、搜索和过滤操作来分析历史应用,从而更好地处理高开销作业,避免不必要的支出。

管理失控的 Spark 作业

管理员可轻松发现并停止运行时间过长或消耗资源过多,导致成本增加的实时 Spark 作业。


简化开发

常见大数据生态系统含大量活动部件,需要执行大量的集成工作,而 OCI 数据流服务兼容现有的 Spark 投资和大数据服务,可助您轻松管理服务,实现所需成果。

与现有应用兼容

您可以轻松从 Hadoop 或其他大数据服务迁出现有 Spark 应用。

安全输出管理

自动、安全地捕获和存储 Spark 作业输出,然后通过 UI 或 REST API 访问并进行分析。

利用 REST API 进行控制

您可使用简单的 REST API 来全面管理 OCI 数据流服务 — 从应用创建到执行再到 Spark 作业的结果访问。


Oracle Cloud Infrastructure Data Flow 成功将成本降低 75%

With Oracle Cloud Infrastructure Data Flow, we met client SLAs by reducing the time needed for data processing by 75% and by reducing the cost by more than 300%.

交付主管 Arun Nimmala甲骨文公司全球服务集成和分析架构

OCI 数据流服务的主要优势

  • 利用 NVIDIA RAPIDS 加速工作流

    OCI 数据流服务中的 NVIDIA RAPIDS Accelerator for Apache Spark 可加快数据科学、机器学习和 AI 工作流速度。

    ETL 分流

    OCI 数据流服务通过监督 Spark 作业、优化成本、释放容量来执行 ETL 分流。

  • 活动归档

    OCI 数据流服务的输出管理功能可优化基于 Spark 的数据查询能力。

  • 不可预测的负载

    自动化转移资源,满足不可预测的作业需求并降低成本;仪表盘提供用量和预算视图,可助您制定更合理的未来计划。

  • 机器学习模型训练

    Spark 和机器学习开发人员可通过 OCI 数据流服务来使用 Spark 的机器学习库,更高效地运行模型。

  • Spark 流处理

    零管理、自动容错、支持自动修补的 Spark 流处理可提供端到端的“只执行一次”保证。

    查看上述部分使用场景

相关云技术产品

Oracle Cloud Infrastructure Data Science

端到端的机器学习服务

Oracle Cloud Infrastructure Data Catalog

自助式数据发现

Oracle Autonomous Data Warehouse

基于云技术的数据仓库服务

Oracle Cloud Infrastructure Object Storage

构建您自己的数据湖

OCI Data Flow 入门


免费试用

注册 Oracle Cloud 账户,免费试用 Data Flow 服务。


参加培训

详细了解 Oracle Cloud Infrastructure Data Flow。


实操实验室

免费试用,亲身体验 Oracle 产品。


联系销售

联系 Oracle Cloud Infrastructure Data Flow 团队,了解更多信息。

注:为免疑义,本网页所用以下术语专指以下含义:

  1. 除Oracle隐私政策外,本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国 。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。