通过集成关系和多维数据获得业务洞察

作者:Ross Sharman 和 Juliana Button

创建统一的平台以实现快速、灵活的数据分析


本文是企业解决方案简明手册的一部分

2009 年 8 月发布

下载
 Oracle SOA Suite
 Oracle Business Intelligence

简介

要建立竞争差异,全球的企业都面临类似的问题 — 需要同时将情境问题(“做什么”)和前瞻性问题(“怎么做”)作为他们日常企业报表和规划需求的一部分。业务智能 (BI) 解决方案可以帮助进行“做什么”分析以提供数据和事务报表的过去和现在视图,而多维联机分析处理 (OLAP) 工具则善于进行“怎么做”分析,提供了建模和预测功能以确定特定行为将如何影响结果。过去,不同的 BI 解决方案已经涉及了无缝 BI 统一体,如图 1 所示。

图 1:无缝 BI 统一体


但是,仅当用户以正确的方式和格式访问数据时,这个转换流程才会发生。寻求快速和灵活的数据分析的企业最终需要一个统一的平台来实现这两个目标。有了统一平台的构想之后,还有我们认为与任何寻求利用整合的关系和 OLAP 基础的益处的 BI 集成项目均相关的三个关键原则。

  • 用于数据填充的异构工具可以处理许多来自不同物理设备和数据存储的数据输入;
  • 公共企业信息模型可以提供一致性、安全性、灵活性和可重用性;
  • 报表格式的灵活性可以满足跨 BI 统一体的用户的各种需求和快速变化的报表需求。

我们将在本文后续部分给出更详细的论述。

通过使用真实示例,本文突出了集成关系数据和多维数据的迫切业务需求。我们将讨论总部位于澳大利亚的 Knowledge Global 是如何使用整合的 BI 和 OLAP 功能来构建碳/能源监视和测量应用程序的。

集成体系结构

企业可以通过整合“做什么”和“怎么做”分析来获得重要、强大的洞察并改进决策。体系结构需要三项重要技术来支持该集成(参见图 2):

图 2:BI、ETL 和 OLAP 共同提供集成解决方案
  • ETL 工具,可以集成来自不同数据源的数据并将它们聚集到公共信息库中
  • 业务智能平台,可以根据关系数据生成灵活的报表并通过不同渠道将报表发送给各个最终用户
  • OLAP 平台,可以使业务用户快速地对复杂业务情形建模以进行预测、发现趋势并了解行为模式

让我们来看一下用于构建这样的解决方案的关键体系结构最佳实践。

第一个原则:集成异构数据填充

所有 BI 集成项目都与数据有关。随着传感器和事件驱动技术的兴起,业务正在生成和收集和以往相比显著增多的数据。因此,第一个挑战就是将所有数据放入一个可管理的源信息库中,我们可以在该信息库中访问数据、根据数据生成报表、分析和分发数据。

处理不同数据源时需要多个 BI 信息库:

  1. OLTP 用于捕获和存储事务性操作数据,
  2. 数据集市/数据仓库用于将上述数据整合为多维数据,
  3. OLAP 用于预测性建模和预测

这些信息库中的数据可能来自不同的数据源。ETL 工具使用基于数据、事件或服务的集成来帮助加载各种不同的信息库。集成的 BI 和 OLAP 环境将返回高额红利。统一的平台支持报表到源的沿袭功能,也就是说能够轻松地从信息板数据回钻即可获取有关数据来源和数据转换的详细信息。

第二个原则:构建公共企业信息模型

BI 和 OLAP 集成能够回答“对于我的企业,客户 X 的生命周期价值是什么。”之类的问题。要准确地回答这样的问题,拥有跨 BI、OLAP 和解决方案其他要素的一个有关“客户生命周期价值”的企业定义很重要。需要使用公共企业信息模型来实现跨集成 BI 平台的一致性、安全性、可重用性和灵活性。

通过集成的 BI 平台,最终用户可以查找 OLAP 信息,一次点击即可快速导航到关系世界。在该情形中,最终用户完全不在意信息来源。统一的元数据模型需要为所有最终用户工具提供服务,因此每个最终用户和每个部门均拥有根据各角色定制的、相同的、一致的信息视图。该模型必须考虑作为企业资产的各种类型数据源,无论是以关系形式还是非关系形式存储的。该模型还必须保留数据源的表达性。

图 3:公共企业信息模型可促进一致性和可重用性

第三个原则:支持灵活的报表

如何整合销售收入报表(“做什么”分析)和显示如何改进特定地区销售的趋势分析(“怎么做”分析)?需要灵活的报表和分析框架来满足 BI 统一体内不同用户的不同需求,从提供过去的历史视图和现在/当前的事务和操作报表,到展望未来的、预测性建模和分析。报表平台应支持 Microsoft Office 和 Outlook 集成,这样建模和预测才能轻松地利用该数据。支持报表标准,如 XBRL(一种基于标准的业务和财务信息通信方式)可以提供所需的更多灵活性。

我们来看看 Knowledge Global 是如何运用 OLAP、BI 和 ETL 的功能并应用上述原则,通过 Oracle 业务智能企业版 (OBIEE) 和 Oracle Essbase 来构建碳/能源管理解决方案的。

使用 EMMA 管理和监视能效

随着日益恶化的全球性碳/能源经济海啸,Knowledge Global(一个专业的咨询机构)希望开发一个可以帮助企业测量、监视、预测和降低碳排放量的应用程序。该应用程序将帮助企业回答有关过去和现在结果的“做什么”问题,包括:

  • 排放和强制能效报表。
  • 能够发现趋势并学习以往的能源消耗趋势。
  • 验证能源来源。
  • 量化能源/碳减排量度。
  • 验证报告的能源/排放数据。

此外,为了提供完整的排放解决方案,该应用程序还需解决展望未来“怎么做”的问题,如:

  • 能效/碳减排项目可行性。
  • 能效/碳减排战略的效力。
  • 碳定价和构建资产建模。
  • 对可再生和可替代能源供应建模。
  • 针对异常的能源消耗发出通知和警报。
  • 工作区中不断变化的行为。
  • 编排和评估能效项目。

该解决方案需要整合 ETL、BI 和 OLAP 技术以准确地报告操作数据并提供建模和预测功能。

EMMA 体系结构

Knowledge Global 选择使用 Oracle BIEE、Oracle Hyperion Essbase 和 Oracle Data Integrator 来构建环境管理和测量应用程序 (EMMA)。

图 4:EMMA 体系结构

  1. Oracle Data Integrator (ODI),即 ETL 工具,可以聚合来自能源(如,智能电表、安全系统、电路等)的数据
  2. Oracle BIEE 可以按联合国、行业和政府机构规定的标准格式准确地报告能量测量数据
  3. Oracle Essbase(分析 OLAP 引擎)可以通过建模和预测制定未来规划并有助于减少碳排放和最大化潜在收入

我们来快速查看该体系结构的三个重要方面。

异构数据填充

该解决方案可以处理多种数据格式。来自智能电表的用电数据、来自气象局的气象数据、来自建筑安全系统的人员流动数据,以及来自各种其他系统的数据。

这些数据可以从最细粒度操作数据存储水平(以秒为单位评估隔离的设备和事件),流到数据集市星型模式结构(计量室和能量电路,通常以小时为单位,最短为几分钟)并最终到达 Essbase OLAP (在此处以月为单位测量建筑物、人口统计分组)。

EMMA 环境使用 Oracle Data Integrator (ODI) 捕获来自这些不同的能量数据源的数据并将数据加载到相应的 BI 存储中,包括 EMMA 操作存储、星型模式数据集市和 Essbase OLAP 信息库。

图 5:ODI 用于填充操作性、BI 和 Essbase 数据存储

ODI 使用 Web 服务从内部(如,智能电表数据)和外部数据源(如,气象和预测数据)收集数据。例如,可以通过公共网站封装的自定义 Web 服务来获取气象数据和预测。输出 XML 数据,可以使用 ODI 直接将该数据填充到 EMMA 信息库中。另一方面,与建筑安全系统的集成是面向文件的。建筑安全系统将数据导出到以逗号分隔的文件中,可以将该文件以邮件的形式发送或复制到处理目录。ODI 在该目录中处理文件并将这些文件加载到操作数据存储中。

  1. 能量数据源到操作数据存储(EMMA 数据库)

    ODI 会定期处理这些文件和 Web 服务,然后通过符合某些业务规则和验证规则的临时表将数据填充到 EMMA 数据库中。然后,应用多个和转换相关的业务规则(定义为知识模型,用于确保数据是干净的)将数据填充到 EMMA 信息库中。
  2. EMMA 数据库到 BI 数据集市

    然后,将数据近乎持续地整合到数据集市,确保了分析层是最新的。ODI 使用 EMMA OLTP 数据库中已更改的数据捕获来确定要复制到数据集市中的数据。有关数据集市维度的信息更改通常很少,大部分更改来自于电表,即以小时为单位的累积电量和碳数据。
  3. BI 数据集市到 Essbase

    ODI 每个星期都会重新填充 Essbase 多维数据集以进行规划和高级分析。我们使用针对 Essbase 的 ODI 适配器直接映射到目标多维数据集。Essbase 多维数据集中的数据粒度以月为单位。ODI 将三个 ELT 流程中出现的任何数据加载问题记录下来,并自动为后续处理这些错误的管理员标记出来。

公共企业信息模型

来自这三个数据源(EMMA OLTP、EMMA 数据集市和 EMMA Essbase OLAP 模型)的所有数据都将通过 Oracle BI 企业版界面显示。

BI 信息库存储在 BIEE 报表、交互式信息板客户端和其他客户端内部提交的业务智能元数据。如何以统一的格式表示数据,而和底层数据源或表示客户端不相关?灵活性来源于表示、逻辑和物理数据之间的分离。BI 信息库定义了三个抽象层:物理层、业务模型与映射层以及表示层。物理层包含接收 BI 服务器提交查询的物理数据源的相关信息。这个物理层使我们能够查询来自 BI 数据集市的分析数据以及来自 Essbase 多维数据集的多维 OLAP 数据。然后,业务模型层将来自 BI 数据集市和 Essbase 的数据元素整合为逻辑星型模式表示以创建公共企业定义的一致性。

要集成 Essbase OLAP 数据,我们使用 BI 管理工具将 Essbase 多维数据集导入到 BI 信息库的物理层中。Essbase 多维数据集与业务模型直接对应,因此可以轻松地创建业务模型与映射层,因为是通过 Essbase 多维数据集的结构来暗示元数据的。

图 6:使用 BI 管理工具将 Essbase 多维数据集导入到 BI 信息库

有关完整的操作说明,请参阅教程集成 Oracle Essbase 与 Oracle 业务智能套件企业版

通过这个无缝集成的体系结构,可以下钻 Essbase OLAP 数据源中高度整合的数据以提供较低级别的粒度(如,数据集市中存储的数据),甚至下钻到 EMMA 操作数据存储。

灵活报表

使用信息板协调来自三个数据信息库的全部数据 — 规划(目标和预算)、针对业务智能和实时警报的数据集市、以及针对操作数据的业务规则。

因为碳已成为一个财务实体,因此需要接收和提交财务信息(包括预计的排放量和减少排放量的措施)。Essbase 和 BIEE 无缝集成后,可以通过 BI 服务器从规划多维数据集直接获取该类型信息。BI 服务器通过 Web 服务和 BI Publisher 具有可以适用任何(基于 XML)报表方法的接口,从而也适用于 XBRL 报表结构。

图 7:BI 服务器可以根据三个数据源无缝生成报表


大学能效管理

了解了 EMMA 体系结构后,我们再来看一个实际使用 EMMA 应用程序的特定示例。这将帮助您了解数据在不同的 EMMA 数据存储之间如何转换以及最终信息板是怎样的。

该示例基于一所拥有 400 多座多层建筑的大型大学。针对该示例选择了一座 CBD 建筑并详细考察了一些楼层。在该建筑中,有两个非常不同的组 — 学生计算机实验室成员和大学管理人员 — 分别位于两个楼层中。

我们通过使用两个分电表来测量这两个楼层的能量(其中 95% 为电能)消耗,从而进一步了解这两个组。例如,我们可以测量安全系统的消耗以了解人员何时位于这些楼层;也可以根据时间表来测量学生和人员的空间占用消耗。因此,我们可以逐渐构建起该建筑各楼层占用组人流的能量消耗的描述文件。这些行为描述文件可以作为减少消耗的新能效活动的基础。可以使用 Essbase 中的情境功能描述这些活动以确定其效益。

一般来说,建筑中各层的大部分能耗来自于空调、通风、照明和个人计算机。各层的照明开关在人员进入或离开时手动控制。而空调会在人员进入楼层时自动启动。因此,一独自工作的人员就会产生数十美元的成本。这就说明了责任和行为的更改可以创造效益。

在本例中,我们看到和管理人员相比,学生使用计算机的时间很分散并且经常通宵工作。而一两个选择在早晨工作的学生会大幅降低每人使用能量的效益。引入了一份教育计划,向学生说明了能量使用效益低下的原因,改善了认知并提升了责任感。该教育活动得到了一个安全活动的支持,该活动规定了晚 10:00 到次日早 8:00 关闭实验室。所有的学生都有笔记本,这意味着可以使用其他工具工作。学生也是一个热衷于减少能耗的人口统计分组。可以使用 OLAP 数据库对该活动节省的财务开支建模。

第 1 步:来自电表和安全系统的数据
下方的电表数据显示了监视整层(即照明、空调和电路)用电量的智能电表的数据。会每隔 15 分钟记录该信息。每隔一小时还有一个来自从安全系统的输入,即人员出入记录,因此我们可以算出每小时的平均占用人数量。

Ref电表 ID时间戳KwH
10014T00002415/05/2009 3:150.188
10014T00002415/05/2009 3:300.188
10014T00002415/05/2009 3:450.188
10014T00002415/05/2009 4:000.188
10014T00002415/05/2009 4:150.125
10014T00002415/05/2009 4:300.125
10014T00002415/05/2009 4:450.125
10014T00002415/05/2009 5:000.062
10014T00002415/05/2009 5:150.125
10014T00002415/05/2009 5:300.188
10014T00002415/05/2009 5:450.188
10014T00002415/05/2009 6:000.062
10014T00002415/05/2009 6:150.125
10014T00002415/05/2009 6:300.062
10014T00002415/05/2009 6:450.125
10014T00002415/05/2009 7:000.125
10014T00002415/05/2009 7:150.062
10014T00002415/05/2009 7:300.125
10014T00002415/05/2009 7:450.062
10014T00002415/05/2009 8:000.125
10014T00002415/05/2009 8:150.062
10014T00002415/05/2009 8:300.375
10014T00002415/05/2009 8:450.312
10014T00002415/05/2009 9:000.188

图 8:以 15 分钟为间隔记录的电表数据

建筑大学建筑 A 校区大学建筑 A 校区大学建筑 A 校区大学建筑 A 校区大学建筑 A 校区大学建筑 A 校区大学建筑 A 校区
日期5/05/20085/05/20085/05/20085/05/20085/05/20085/05/20085/05/2008
时间3:004:005:006:007:008:009:00
楼层12121212121212
当前占用人00001028

图 9:每小时输入的安全系统数据显示了上午 3:00 到 7:00 之间没有人使用

第 2 步:EMMA OLTP 数据结构
通过将原始电表数据和原始安全系统数据整合,EMMA OLTP 系统提供了实时视图,显示了如何通过人员操作来指示电量消耗。

图 10:EMMA 操作数据存储结构

基本 OLTP 设计不允许对大型数据集进行时间序列分析。但是,使用数据源对于在最细粒度级别上验证信息至关重要。可以从该级别到达数据集市。

建筑运行人员大学财产服务大学财产服务大学财产服务大学财产服务大学财产服务大学财产服务大学财产服务
位置大学建筑 A 校区 12 层大学建筑 A 校区 12 层大学建筑 A 校区 12 层大学建筑 A 校区 12 层大学建筑 A 校区 12 层大学建筑 A 校区 12 层大学建筑 A 校区 12 层
楼层承租人学生(经济学院)学生(经济学院)学生(经济学院)学生(经济学院)学生(经济学院)学生(经济学院)学生(经济学院)
日期5/05/20085/05/20085/05/20085/05/20085/05/20085/05/20085/05/2008
时间3:004:005:006:007:008:009:00
用电量 (kwh)171212s12141822
占用人2000028
电表 IDT0000241T0000241T0000241T0000241T0000241T0000241T0000241

图 11:安全和智能电表数据整合在 EMMA 操作数据存储中

第 3 步:EMMA 数据集市结构
然后,将 EMMA OLTP 数据整合到数据集市并从中获取趋势和基准。此处,我们根据特定建筑楼层的人员类型来描述能量使用。通过许多楼层和建筑对基准建模有助于对大学能量使用进行完整建模并识别效益机遇。

图 12:EMMA BI 数据集市结构

数据集市将 OLTP 数据整合为可在不同级别使用不同维度分析量度的格式。也允许进行时间序列分析 — 即要执行的趋势。通过信息板,您可以从该级别下钻到 OLTP 源以获取初始值,或到达 OLAP 级别以进行更广泛(更快速)的分析和预测。

图 13:EMMA BI 数据集市允许在不同维度进行分析

 

第 4 步:EMMA OLAP 数据结构OLAP 多维数据集将数据集市整合到 MOLAP 模型以进行快速、即席分析、高级趋势分析和预测。可以从信息板下钻整合的数据以获取数据集市,甚至 OLTP 级别中的更多详细信息。

图 14:OLAP 模型到基于情境的建模和多维分析

然后,我们可以通过 EMMA OLAP 模型使用这些基准进行预测。此处,我们描述了工作日期间两个组的典型用量,然后观察在 22:00 到 8:00 期间强制关闭学生实验室后节省的开支。可以通过向学生演示几个通宵工作的人导致的人均成本(下方以红色标识的数据)对学生进行教育。如果将该活动推广到该大学的所有学生实验室,每年节省的开支将相当可观。

图 15:整合的数据指明 22:00 到 8:00 期间的人均能源成本最高。
在此期间关闭实验室将每天为各个实验室节省 17.25 美元。

第 5 步:整合的信息板
在这个简单示例中,您将看到整合不同级别数据的功能,应用预测性建模和预测,以及如何在这些功能的帮助下进行规划和预算以确保最有效的使用能量。当然,最好是以直观的方式显示该数据,如下方 OBIEE 信息板所示。

图 16:OLTP 和数据集市数据源协作示例


图 17:OLAP 输出示例

图 17(上方)演示了 OLAP 数据集中的建模示例。我们可以显示原因(红色标识的区域)以及如何节省开支。可以用该数据显示与该活动相关的所有预算成本和预期可节省的总开支。当然,OLAP 模型的真正益处在于可以通过将较少预算应用到整个大学而达到较多预算的方法。

本文举例说明了如何在一所大学中实际使用 EMMA 应用程序来准确地报告、监视和减少碳排放。从开发的角度讲,EMMA 规划包括如下机会:

  • 扩展底层面向服务的体系结构以利用 Oracle Service Bus 进行实时集成,利用业务活动监视进行实时警报。Knowledge Global 也希望通过复杂事件处理来为大量的流数据提供其他智能级别。
  • 也将利用 Oracle Governance, Risk, and Compliance Manager 实现与澳大利亚国家温室和能源报告系统 (NGER) 以及能效机会 (EEO) 报表以规避由于不合规而面临的潜在大量罚款。
  • 电子学习有助于通过员工交互来更改行为。把电子学习工具集成到 EMMA 将为员工提供实时的、交互视图,显示它们如何帮助减少工作区的能量消耗。


总结

企业尝试同步积累的大量数据以实现竞争优势时,会越来越多地求助于业务智能解决方案。企业意识到,通过多维 OLAP 功能来扩增传统的操作业务智能工具可以涵盖整个 BI 统一体以同时解决情境问题(“做什么”)和前瞻性问题(“怎么做”),从而有助于确定特定行为将如何影响结果。在构建解决方案以执行整合分析的同时,必须说明各种数据格式、多个信息库和不同的表示客户端。统一的 ETL、BI 和 OLAP 平台可以提供不同移动部件之间所需的集成级别。

作者希望感谢 Juliana Button、Robin Hazel 和 Alan Lee 在准备本文过程中给予的帮助。


Ross SharmanRoss Sharman 是 Knowledge Global 的技术总监,他设计和构建的 EMMA 可持续性解决方案为他赢得了来自 Oracle Magazine 的 2009 年度绿色 IT 架构师奖。Ross 具有广泛的技术、电子与电气工程智能背景,参与了澳大利亚、美国和欧洲的多个大型集成和业务智能项目。
Juliana ButtonJuliana Button 是 Oracle 融合中间件产品管理总监。从 1992 年开始,Juliana 就在 Oracle Corporation 澳大利亚和红木海岸的 Oracle 总部担任各种技术和管理职务。她负责展示全球客户使用 Oracle 应用网格产品获得的成功,作为 Oracle 融合中间件战略战略性客户计划的一部分。