数据仓库是一种面向商务智能 (BI) 活动(尤其是分析)的数据管理系统,它仅适用于查询和分析,通常涉及大量的历史数据。在实际应用中,数据仓库中的数据一般来自应用日志文件和事务应用等广泛来源。
数据仓库能够集中、整合多个来源的大量数据,借助数据仓库的分析功能,企业可从数据中获得宝贵的业务洞察,改善决策。同时,随着时间推移,它还会建立一个对于数据科学家和业务分析人员极具价值的历史记录。得益于这些强大的功能,数据仓库可为企业提供一个“单一信息源”。
一个数据仓库通常包含以下要素:
企业还可以在一个 MySQL Database 服务中集成集事务处理、实时分析(数据仓库和数据湖)和机器学习功能,消除 ETL(提取、转换、加载)复制的复杂性、延迟、成本和风险。
数据仓库在高效分析大量不同的数据,提取数据价值并保留历史记录方面拥有独一无二的强大优势。
数据仓库之父兼计算机科学家 William Inmon 定义了数据仓库的 4 大特征,这 4 大特征为数据仓库的强大优势奠定了坚实基础。根据定义,数据仓库具有以下特点:
一个精心设计的数据仓库支持高速查询、高数据吞吐量,能够凭借出色的灵活性帮助用户细分数据或降低数据量,进而执行更加细致的数据检查,满足高层级和精细化数据管理等各种需求。同时,它还能为中间件 BI 环境(为最终用户提供报告、仪表盘和更多其他界面)提供一个坚实的功能性基础。
数据仓库的架构取决于企业的需求。通用数据仓库架构具有以下特点:
数据仓库首次出现于 20 世纪 80 年代末,其最初目的是帮助数据从操作系统“流入”决策支持系统 (DSS)。早期的数据仓库需要大量冗余:大多数企业为了满足各种用户的需求而采用多个 DSS 环境,虽然各个 DSS 环境使用的数据大部分相同,但通常还是要分别执行数据收集、清理和集成。
而后,随着效率不断提升,数据仓库也从服务传统 BI 平台的信息存储库变成了服务一系列广泛应用(例如运营分析和绩效管理)的分析基础设施。
如今,经过长期迭代,数据仓库取得了长足的发展,企业级数据仓库 (EDW) 能够为企业创造越来越多的价值。
步骤 | 功能 | 业务价值 |
---|---|---|
1 | 事务报告 | 提供关系信息,创建业务绩效快照 |
2 | 细分、即席查询和 BI 工具 | 扩展功能,挖掘更加深入的洞察,实施更加强大的分析 |
3 | 预测未来绩效(数据挖掘) | 开发数据可视化和富有前瞻性的商务智能 |
4 | 战术分析(空间和统计) | 提供“假设”场景,通过更全面的分析为实际决策提供依据 |
5 | 存储数月或数年的数据 | 仅存储数周或数月的数据 |
数据仓库每发展进入一个新的阶段,都离不开更多类型的数据集,最后三个阶段尤其需要更广泛的数据和分析功能。
如今,人工智能和机器学习正在深刻改变几乎每一个行业和每一种服务与企业资产,数据仓库自然也不例外。大数据的扩展和新兴数字技术的应用正在推动数据仓库的需求和功能发生变化。
自治数据仓库就是这一发展进程的最新成果。它能够尽可能降低成本,提高数据仓库的可靠性和性能,助力企业从数据中汲取更多价值。
详细了解自治数据仓库,快速启动您自己的自治数据仓库。
尽管用途相似,但数据仓库与数据集市、操作型数据存储 (ODS) 并不相同。数据集市功能与数据仓库相同,但应用范围非常有限,通常仅限于单个部门或业务线。因此,其创建比数据仓库更简单。然而,如果用户难以统一管理和控制多个数据集市中的数据。则非常容易出现数据不一致的问题。
ODS 则仅支持日常操作,只能提供非常有限的历史数据视图。它们非常适合作为当前数据源,也常常被数据仓库使用,但不支持具有丰富历史的数据的查询。
云数据仓库使用云技术来提取和存储不同数据源的数据。
原始数据仓库一开始是构建在本地服务器上。现在,这些本地数据仓库仍然拥有很多优势,在许多情况下可以提供更高的治理水平、安全性、数据主权以及较低延迟。然而,本地数据仓库的弹性较低,需要企业通过复杂的预测来确定如何扩展数据仓库,以满足未来需求。另外,本地数据仓库在管理上也非常复杂。
相比之下,云数据仓库可提供以下优势:
理想的云数据仓库应当支持完全托管和自治驾驶,确保即使是初学者也只需数次单击操作就能创建和使用数据仓库。有一种简单方法可以迁移到云数据仓库,那就是在符合数据主权和安全要求的数据中心防火墙后面运行本地云数据仓库。
此外,大多数云数据仓库采用“按量计费”模式,可节省更多成本。
企业中不同用户(例如 IT 部门、数据工程、业务分析和数据科学团队的成员)对数据仓库的需求各不相同。
现代数据架构可有效管理所有数据类型、工作负载和分析,满足这些需求。它包含架构模式以及符合行业优秀实践的必要集成组件。现代数据仓库包括:
现代数据仓库可高效简化数据工作流,任何其他仓库都无法企及。这意味着从分析师、数据工程师到数据科学家和 IT 团队的每一个人都可以更加有效地开展工作和创新,从而推动企业发展,而不会发生不计其数的延迟和复杂性。
在开始设计数据仓库前,您首先需要明确业务需求,就业务范围达成一致并拟定概念设计,然后为数据仓库创建逻辑和物理设计。其中,逻辑设计关注对象之间的关系,物理设计则关注如何以最佳方式存储和检索对象。当然,物理设计还包含传输、备份和恢复流程。
任何数据仓库设计都必须解决以下问题:
此外,最终用户的需求也是数据仓库设计中的一个重要问题。通常来说,大多数最终用户关注的是执行分析和查看汇总数据,而不是各个事务。而事实上,直到具体的需求出现时,最终用户才明确知道自己想要什么。因此,请在计划流程中尽可能探索和预测最终用户的需求。最后,数据仓库设计应当留出足够的扩展和发展空间,以适应不断变化的最终用户需求。
云数据仓库不仅具有本地数据仓库的杰出特性,同时又有云计算的强大优势,例如出色的灵活性、可扩展性、敏捷性和安全性,以及更低的成本。利用云数据仓库,企业可以专注挖掘数据价值,而不必耗费时间和精力去构建、管理相关的硬件和软件基础设施。
企业可以使用数据湖和数据仓库来存储来自各种信息源的大量数据。而何时使用数据湖,何时使用数据仓库,取决于具体的数据处理需求。以下是数据湖和数据仓库各自的适用场景:
数据仓库能够提供适用于数据(尤其是历史数据)分析的关系环境。而且随着时间的推移,企业可使用数据仓库高效探索数据模式和数据关系。
相比之下,事务环境适用于连续处理事务,通常应用于订单录入以及财务和零售事务。它们并不依赖历史数据。实际上,在 OLTP 环境下,用户常常需要归档历史数据,或删除历史数据来提高性能。
数据仓库和 OLTP 系统之间存在非常明显的差异。
数据仓库 | OLTP 系统 | |
---|---|---|
工作负载 | 支持即席查询和数据分析 | 仅支持预定义操作 |
数据修改 | 定期自动更新 | 通过最终用户发布个人声明进行更新 |
模式设计 | 使用半规格化模式来优化性能 | 使用完全规格化的模式来确保数据一致性 |
数据扫描 | 数千到数百万行 | 一次仅访问少量记录 |
历史数据 | 存储数月或数年的数据 | 仅存储数周或数月的数据 |
作为数据仓库的最新迭代,自治数据仓库能够利用 AI 和机器学习技术消除手动任务,简化设置、部署和数据管理。以“即服务”形式提供的自治数据仓库不需要人工数据库管理、硬件配置或管理、软件安装。
在自治数据仓库下,您可以凭借与云平台完全相同的灵活性、可扩展性、敏捷性和低成本,自动创建数据仓库并备份、修补、升级、扩展和缩减数据库,从而消除复杂性、加快部署和释放资源,专注为企业创造价值。
Oracle Autonomous Data Warehouse 是一种易于使用、完全自治且支持弹性扩展的数据仓库服务,它能够为您提供闪电般的查询性能,不需要您进行任何的数据库管理。此外,Oracle Autonomous Data Warehouse 的设置也非常简单便捷,您无需过多等待就可以迅速启动数据分析。
注:为免疑义,本网页所用以下术语专指以下含义: