数据仓库的优势
数据仓库在高效分析大量不同的数据,提取数据价值并保留历史记录方面拥有独一无二的强大优势。
数据仓库之父兼计算机科学家 William Inmon 定义了数据仓库的 4 大特征,这 4 大特征为数据仓库的强大优势奠定了坚实基础。根据定义,数据仓库具有以下特点:
- 面向主题:数据仓库可以高效分析关于特定主题或职能领域(例如销售)的数据。
- 集成:数据仓库可在不同来源的不同数据类型之间建立一致性。
- 相对稳定:进入数据仓库后,数据将保持稳定,不会发生改变。
- 反映历史变化:数据仓库分析着眼于反映历史变化。
一个精心设计的数据仓库支持高速查询、高数据吞吐量,能够凭借出色的灵活性帮助用户细分数据或降低数据量,进而执行更加细致的数据检查,满足高层级和精细化数据管理等各种需求。同时,它还能为中间件 BI 环境(为最终用户提供报告、仪表盘和更多其他界面)提供一个坚实的功能性基础。
数据仓库的架构
数据仓库的架构取决于企业的需求。通用数据仓库架构具有以下特点:
- 简单: 所有数据仓库都采用同一基本设计,将元数据、概要数据和原始数据全部存储在中央信息库中。信息库一端由数据源馈送信息,另一端则供最终用户访问,以便进行分析、报告和数据挖掘。
- 通过暂存区简化数据准备:将操作型数据置入数据仓库之前,必须首先进行清理和处理。这一步骤可通过编程方式完成,但很多数据仓库会创建一个暂存区来简化数据准备工作。
- 星型结构:通过在中央信息库和最终用户之间创建数据集市,企业可以对数据仓库进行自定义,灵活满足各种业务线的需求。换言之,准备就绪后,数据不会立即进入数据仓库,而是会被移至适当的数据集市。
- 沙盒:沙盒可提供一个专有的安全区域,帮助企业快速、非正式地探索新的数据集或新的数据分析方式,而无需遵守或遵循数据仓库的正式规则和协议。
数据仓库的进化:从数据分析到 AI 和机器学习
数据仓库首次出现于 20 世纪 80 年代末,其最初目的是帮助数据从操作系统“流入”决策支持系统 (DSS)。早期的数据仓库需要大量冗余:大多数企业为了满足各种用户的需求而采用多个 DSS 环境,虽然各个 DSS 环境使用的数据大部分相同,但通常还是要分别执行数据收集、清理和集成。
而后,随着效率不断提升,数据仓库也从服务传统 BI 平台的信息存储库变成了服务一系列广泛应用(例如运营分析和绩效管理)的分析基础设施。
如今,经过长期迭代,数据仓库取得了长足的发展,能够为企业创造越来越多的价值。
阶段 | 功能 | 业务价值 |
---|---|---|
1 | 事务报告 | 提供关系信息,创建业务绩效快照 |
2 | 细分、即席查询和 BI 工具 | 扩展功能,挖掘更加深入的洞察,实施更加强大的分析 |
3 | 预测未来绩效(数据挖掘) | 开发数据可视化和富有前瞻性的商务智能 |
4 | 战术分析(空间和统计) | 提供 “What-If” 情景,通过更全面的分析为实际决策提供依据 |
5 | 存储数月乃至数年的数据 | 仅存储数周或数月的数据 |
数据仓库每发展进入一个新的阶段,都离不开更多类型的数据集,最后三个阶段尤其需要更广泛的数据和分析功能。
如今,人工智能和机器学习正在深刻改变几乎每一个行业和每一种服务与企业资产,数据仓库自然也不例外。大数据的扩展和新兴数字技术的应用正在推动数据仓库的需求和功能发生变化。
自治数据仓库就是这一发展进程的最新成果。它能够最大限度降低成本,提高数据仓库的可靠性和性能,助力企业从数据中汲取更多价值。
了解关于自治数据仓库的更多信息,快速启动您自己的自治数据仓库。
数据仓库、数据集市和操作型数据存储
尽管用途相似,但数据仓库与数据集市、操作型数据存储 (ODS) 并不相同。数据集市功能与数据仓库相同,但应用范围非常有限,通常仅限于单个部门或业务线。因此,其创建比数据仓库更简单。然而,如果用户难以统一管理和控制多个数据集市中的数据。则非常容易出现数据不一致的问题。
ODS 则仅支持日常操作,只能提供非常有限的历史数据视图。它们非常适合作为当前数据源,也常常被数据仓库使用,但不支持具有丰富历史的数据的查询。
云数据仓库是什么?
云数据仓库使用云技术来提取和存储不同数据源的数据。
最初,数据仓库构建在本地服务器上。现在,这些本地数据仓库仍然拥有很多优势,在某些情况下可以提供更高的治理水平、安全性和速度。然而,本地数据仓库的弹性较低,需要企业通过复杂的预测来确定如何扩展数据仓库,以满足未来需求。另外,本地数据仓库在管理上也非常复杂。
相比之下,云数据仓库可提供以下优势:
- 高弹性,可单独扩展计算能力和存储容量
- 高度可扩展,可灵活满足计算或存储需求
- 易于使用
- 易于管理
- 节省成本
理想的云数据仓库应当支持完全托管和自治驾驶,确保即使是初学者也只需数次单击操作就能创建和使用数据仓库。此外,大多数云数据仓库采用即用即付模式,可节省更多的成本。
现代数据仓库是什么?
企业中不同用户(例如 IT 部门、数据工程、业务分析和数据科学团队的成员)对数据仓库的需求各不相同。
现代数据架构可有效管理所有数据类型、负载和分析,满足这些需求。它包含架构模式以及符合行业优秀实践的必要集成组件。现代数据仓库包括:
- 融合数据库,可简化所有数据类型的管理并支持多种数据使用方法
- 自助式数据提取和转换服务
- 支持 SQL、机器学习、图形和空间处理
- 多种分析选项,可轻松使用数据而无需移动数据
- 自动化流程,可简化供应、扩展和管理
现代数据仓库可高效简化数据工作流,任何其他仓库都无法企及。这意味着从分析师、数据工程师到数据科学家和 IT 团队的每一个人都可以更加有效地开展工作和创新,从而推动企业发展,而不会发生不计其数的延迟和复杂性。
观看 Oracle 现代数据仓库免费课程。如何设计一个数据仓库?
在开始设计数据仓库前,您首先需要明确业务需求,就业务范围达成一致并拟定概念设计,然后为数据仓库创建逻辑和物理设计。其中,逻辑设计关注对象之间的关系,物理设计则关注如何以最佳方式存储和检索对象。当然,物理设计还包含传输、备份和恢复流程。
任何数据仓库设计都必须解决以下问题:
- 具体的数据内容
- 各数据组内部及相互之间的关系
- 支撑数据仓库的系统环境
- 数据转换类型
- 数据刷新频率
此外,最终用户的需求也是数据仓库设计中的一个重要问题。通常来说,大多数最终用户关注的是执行分析和查看汇总数据,而不是各个事务。而事实上,直到具体的需求出现时,最终用户才明确知道自己想要什么。因此,请在计划流程中尽可能探索和预测最终用户的需求。最后,数据仓库设计应当留出足够的扩展和发展空间,以适应不断变化的最终用户需求。
云和数据仓库
云数据仓库不仅具有本地数据仓库的杰出特性,同时又有云计算的强大优势,例如出色的灵活性、可扩展性、敏捷性和安全性,以及更低的成本。利用云数据仓库,企业可以专注挖掘数据价值,而不必耗费时间和精力去构建、管理相关的硬件和软件基础设施。
我需要一个数据湖吗?
企业可以使用数据湖和数据仓库来存储来自各种信息源的大量数据。而何时使用数据湖,何时使用数据仓库,取决于具体的数据处理需求。以下是数据湖和数据仓库各自的适用场景:
- 数据湖适用于存储大量迥然不同、未经筛选的数据以供未来特定目的使用。从业务线应用、移动应用、社交媒体、IoT 设备等来源捕获的数据将作为原始数据存储在数据湖中,分析人员只有在分析时才获取各种数据集的结构、完整性、集合和格式。当需要低成本地存储多个来源的无格式、非结构化数据时,数据湖是您的理想选择。
- 数据仓库专用于数据分析,其处理的对象是已经过数据准备(包括收集、上下文关联和转换)的数据,其目的是基于分析生成洞察。此外,数据仓库还擅长处理来自各种来源的大量数据。当需要利用整个企业中多个来源的历史数据进行分析或高级分析时,数据仓库是您的理想选择。
为什么不在 OLTP 环境下运行分析?
数据仓库能够提供适用于数据(尤其是历史数据)分析的关系环境。而且随着时间的推移,企业可使用数据仓库高效探索数据模式和数据关系。
相比之下,事务环境适用于连续处理事务,通常应用于订单录入以及财务和零售事务。它们并不依赖历史数据。实际上,在 OLTP 环境下,用户常常需要归档历史数据,或删除历史数据以提高性能。
数据仓库和 OLTP 系统之间存在非常明显的差异。
数据仓库 | OLTP 系统 | |
---|---|---|
负载 | 支持即席查询和数据分析 | 仅支持预定义操作 |
数据修改 | 定期自动更新 | 通过最终用户发布个人声明进行更新 |
模式设计 | 使用半规格化模式来优化性能 | 使用完全规格化的模式来确保数据一致性 |
数据扫描 | 数千到数百万行 | 一次仅访问少量记录 |
历史数据 | 存储数月或数年的数据 | 仅存储数周或数月的数据 |
零复杂性部署:ADW 业务数据平台
作为数据仓库的最新迭代,自治数据仓库能够利用 AI 和机器学习技术消除手动任务,简化设置、部署和数据管理。以云服务形式提供的自治数据仓库不需要人工数据库管理、硬件配置或管理、软件安装。
创建数据仓库、备份、打补丁和升级数据库以及增加或减少数据库这些工作都自动完成,其灵活性、可伸缩性、敏捷性和低成本都与云平台相同。从而最大限度消除复杂性、加快部署和释放资源,专注为企业创造价值。
Oracle ADW 业务数据平台
Oracle ADW 业务数据平台是一种易于使用、完全自治且支持弹性扩展的数据仓库云服务,它能够为您提供闪电般的查询性能,不需要您进行任何的数据库管理。此外,Oracle ADW 业务数据平台的设置也非常简单便捷,您无需过多等待就可以迅速启动数据分析。