什么是数据仓库?

数据仓库的定义

数据仓库是一种面向商务智能 (BI) 活动(尤其是分析)的数据管理系统,它仅适用于查询和分析,通常涉及大量的历史数据。在实际应用中,数据仓库中的数据一般来自应用日志文件和事务应用等广泛来源。

数据仓库能够集中、整合多个来源的大量数据,借助数据仓库的分析功能,企业可从数据中获得宝贵的业务洞察,改善决策。同时,随着时间推移,它还会建立一个对于数据科学家和业务分析人员极具价值的历史记录。得益于这些强大的功能,数据仓库可为企业提供一个“单一信息源”。


数据仓库视频

 

一个数据仓库通常包含以下要素:

  • 一个用于存储和管理数据的关系数据库
  • 一个用于分析前数据准备的提取、加载和转换 (ELT) 解决方案
  • 统计分析、报告和数据挖掘功能
  • 用于数据可视化和展现的客户端分析工具
  • 其他更复杂的分析应用通过应用数据科学和人工智能 (AI) 算法或图形和空间功能来生成切实可行的信息,从而支持对数据进行更多类型的大规模分析

企业还可以在一个 MySQL Database 服务中集成集事务处理、实时分析(数据仓库和数据湖)和机器学习功能,消除 ETL(提取、转换、加载)复制的复杂性、延迟、成本和风险。

数据仓库的优势

数据仓库在高效分析大量不同的数据,提取数据价值并保留历史记录方面拥有独一无二的强大优势。

数据仓库之父兼计算机科学家 William Inmon 定义了数据仓库的 4 大特征,这 4 大特征为数据仓库的强大优势奠定了坚实基础。根据定义,数据仓库具有以下特点:

  • 面向主题:数据仓库可以高效分析关于特定主题或职能领域(例如销售)的数据。
  • 集成:数据仓库可在不同来源的不同数据类型之间建立一致性。
  • 相对稳定:进入数据仓库后,数据将保持稳定,不会发生改变。
  • 反映历史变化:数据仓库分析着眼于反映历史变化。

一个精心设计的数据仓库支持高速查询、高数据吞吐量,能够凭借出色的灵活性帮助用户细分数据或降低数据量,进而执行更加细致的数据检查,满足高层级和精细化数据管理等各种需求。同时,它还能为中间件 BI 环境(为最终用户提供报告、仪表盘和更多其他界面)提供一个坚实的功能性基础。

数据仓库的架构

数据仓库的架构取决于企业的需求。通用数据仓库架构具有以下特点:

  • 简单:所有数据仓库都采用同一基本设计,将元数据、概要数据和原始数据全部存储在中央信息库中。信息库一端由数据源馈送信息,另一端则供最终用户访问,以便进行分析、报告和数据挖掘。
  • 通过暂存区简化数据准备:将操作型数据置入数据仓库之前,必须首先进行清理和处理。这一步骤可通过编程方式完成,但很多数据仓库会创建一个暂存区来简化数据准备工作。
  • 星型结构:通过在中央信息库和最终用户之间创建数据集市,企业可以对数据仓库进行自定义,灵活满足各种业务线的需求。换言之,准备就绪后,数据不会立即进入数据仓库,而是会被移至适当的数据集市。
  • 沙盒:沙盒可提供一个专有的安全区域,帮助企业快速、非正式地探索新的数据集或新的数据分析方式,而无需遵守或遵循数据仓库的正式规则和协议。

数据仓库的进化:从数据分析到 AI 和机器学习

数据仓库首次出现于 20 世纪 80 年代末,其最初目的是帮助数据从操作系统“流入”决策支持系统 (DSS)。早期的数据仓库需要大量冗余:大多数企业为了满足各种用户的需求而采用多个 DSS 环境,虽然各个 DSS 环境使用的数据大部分相同,但通常还是要分别执行数据收集、清理和集成。

而后,随着效率不断提升,数据仓库也从服务传统 BI 平台的信息存储库变成了服务一系列广泛应用(例如运营分析和绩效管理)的分析基础设施。

如今,经过长期迭代,数据仓库取得了长足的发展,企业级数据仓库 (EDW) 能够为企业创造越来越多的价值。

步骤 功能 业务价值
1 事务报告 提供关系信息,创建业务绩效快照
2 细分、即席查询和 BI 工具 扩展功能,挖掘更加深入的洞察,实施更加强大的分析
3 预测未来绩效(数据挖掘) 开发数据可视化和富有前瞻性的商务智能
4 战术分析(空间和统计) 提供“假设”场景,通过更全面的分析为实际决策提供依据
5 存储数月或数年的数据 仅存储数周或数月的数据

数据仓库每发展进入一个新的阶段,都离不开更多类型的数据集,最后三个阶段尤其需要更广泛的数据和分析功能。

如今,人工智能和机器学习正在深刻改变几乎每一个行业和每一种服务与企业资产,数据仓库自然也不例外。大数据的扩展和新兴数字技术的应用正在推动数据仓库的需求和功能发生变化。

自治数据仓库就是这一发展进程的最新成果。它能够尽可能降低成本,提高数据仓库的可靠性和性能,助力企业从数据中汲取更多价值。

详细了解自治数据仓库,快速启动您自己的自治数据仓库

数据仓库、数据集市和操作型数据存储

尽管用途相似,但数据仓库与数据集市、操作型数据存储 (ODS) 并不相同。数据集市功能与数据仓库相同,但应用范围非常有限,通常仅限于单个部门或业务线。因此,其创建比数据仓库更简单。然而,如果用户难以统一管理和控制多个数据集市中的数据。则非常容易出现数据不一致的问题。

ODS 则仅支持日常操作,只能提供非常有限的历史数据视图。它们非常适合作为当前数据源,也常常被数据仓库使用,但不支持具有丰富历史的数据的查询。

什么是云数据仓库?

云数据仓库使用云技术来提取和存储不同数据源的数据。

原始数据仓库一开始是构建在本地服务器上。现在,这些本地数据仓库仍然拥有很多优势,在许多情况下可以提供更高的治理水平、安全性、数据主权以及较低延迟。然而,本地数据仓库的弹性较低,需要企业通过复杂的预测来确定如何扩展数据仓库,以满足未来需求。另外,本地数据仓库在管理上也非常复杂。

相比之下,云数据仓库可提供以下优势:

理想的云数据仓库应当支持完全托管和自治驾驶,确保即使是初学者也只需数次单击操作就能创建和使用数据仓库。有一种简单方法可以迁移到云数据仓库,那就是在符合数据主权和安全要求的数据中心防火墙后面运行本地云数据仓库

此外,大多数云数据仓库采用“按量计费”模式,可节省更多成本。

什么是现代数据仓库?

企业中不同用户(例如 IT 部门、数据工程、业务分析和数据科学团队的成员)对数据仓库的需求各不相同。

现代数据架构可有效管理所有数据类型、工作负载和分析,满足这些需求。它包含架构模式以及符合行业优秀实践的必要集成组件。现代数据仓库包括:

  • 融合数据库,可简化所有数据类型的管理并支持多种数据使用方法
  • 自助式数据提取和转换服务
  • 支持 SQL、机器学习、图形和空间处理
  • 多种分析选项,可轻松使用数据而无需移动数据
  • 自动化流程,可简化供应、扩展和管理

现代数据仓库可高效简化数据工作流,任何其他仓库都无法企及。这意味着从分析师、数据工程师到数据科学家和 IT 团队的每一个人都可以更加有效地开展工作和创新,从而推动企业发展,而不会发生不计其数的延迟和复杂性。

如何设计一个数据仓库?

在开始设计数据仓库前,您首先需要明确业务需求,就业务范围达成一致并拟定概念设计,然后为数据仓库创建逻辑和物理设计。其中,逻辑设计关注对象之间的关系,物理设计则关注如何以最佳方式存储和检索对象。当然,物理设计还包含传输、备份和恢复流程。

任何数据仓库设计都必须解决以下问题:

  • 具体的数据内容
  • 各数据组内部及相互之间的关系
  • 支撑数据仓库的系统环境
  • 数据转换类型
  • 数据刷新频率

此外,最终用户的需求也是数据仓库设计中的一个重要问题。通常来说,大多数最终用户关注的是执行分析和查看汇总数据,而不是各个事务。而事实上,直到具体的需求出现时,最终用户才明确知道自己想要什么。因此,请在计划流程中尽可能探索和预测最终用户的需求。最后,数据仓库设计应当留出足够的扩展和发展空间,以适应不断变化的最终用户需求。

云技术和数据仓库

云数据仓库不仅具有本地数据仓库的杰出特性,同时又有云计算的强大优势,例如出色的灵活性、可扩展性、敏捷性和安全性,以及更低的成本。利用云数据仓库,企业可以专注挖掘数据价值,而不必耗费时间和精力去构建、管理相关的硬件和软件基础设施。

我需要一个数据湖吗?

企业可以使用数据湖和数据仓库来存储来自各种信息源的大量数据。而何时使用数据湖,何时使用数据仓库,取决于具体的数据处理需求。以下是数据湖和数据仓库各自的适用场景:

  • 数据湖适用于存储大量迥然不同、未经筛选的数据以供未来特定目的使用。从业务线应用、移动应用、社交媒体、IoT 设备等来源捕获的数据将作为原始数据存储在数据湖中,分析人员只有在分析时才获取各种数据集的结构、完整性、集合和格式。当需要低成本地存储多个来源的无格式、非结构化数据时,数据湖是您的理想选择。
  • 数据仓库专用于数据分析,其处理的对象是已经过数据准备(包括收集、上下文关联和转换)的数据,其目的是基于分析生成洞察。此外,数据仓库还擅长处理来自各种来源的大量数据。当需要利用整个企业中多个来源的历史数据进行分析或高级分析时,数据仓库是您的理想选择。

为什么不在 OLTP 环境下运行分析?

数据仓库能够提供适用于数据(尤其是历史数据)分析的关系环境。而且随着时间的推移,企业可使用数据仓库高效探索数据模式和数据关系。

相比之下,事务环境适用于连续处理事务,通常应用于订单录入以及财务和零售事务。它们并不依赖历史数据。实际上,在 OLTP 环境下,用户常常需要归档历史数据,或删除历史数据来提高性能。

数据仓库和 OLTP 系统之间存在非常明显的差异。

数据仓库 OLTP 系统
工作负载 支持即席查询和数据分析 仅支持预定义操作
数据修改 定期自动更新 通过最终用户发布个人声明进行更新
模式设计 使用半规格化模式来优化性能 使用完全规格化的模式来确保数据一致性
数据扫描 数千到数百万行 一次仅访问少量记录
历史数据 存储数月或数年的数据 仅存储数周或数月的数据

零复杂性部署:自治数据仓库

作为数据仓库的最新迭代,自治数据仓库能够利用 AI 和机器学习技术消除手动任务,简化设置、部署和数据管理。以“即服务”形式提供的自治数据仓库不需要人工数据库管理、硬件配置或管理、软件安装。

在自治数据仓库下,您可以凭借与云平台完全相同的灵活性、可扩展性、敏捷性和低成本,自动创建数据仓库并备份、修补、升级、扩展和缩减数据库,从而消除复杂性、加快部署和释放资源,专注为企业创造价值。

Oracle Autonomous Data Warehouse

Oracle Autonomous Data Warehouse 是一种易于使用、完全自治且支持弹性扩展的数据仓库服务,它能够为您提供闪电般的查询性能,不需要您进行任何的数据库管理。此外,Oracle Autonomous Data Warehouse 的设置也非常简单便捷,您无需过多等待就可以迅速启动数据分析。

为何要选择 Oracle Autonomous Data Warehouse 而非 Snowflake

  • 自动化。Oracle ADW 业务数据平台完全自动执行数据库管理。
  • 简单易用。Autonomous Data Warehouse 解决方案提供内置功能,无需其他独立服务,从而简化部署和管理
  • 解决方案成本。Oracle 的现代数据仓库和增强功能具有与类似工作负载要求相似的成本。
  • 数据安全性。我们提供更强大的内置安全协议来保护您的数据免受网络威胁。
  • 数据治理。我们的数据仓库平台可帮助您无缝管理数据主权需求。

注:为免疑义,本网页所用以下术语专指以下含义:

  1. 除Oracle隐私政策外,本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国 。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。