确保数据质量

确保数据质量

Oracle Warehouse Builder 提供了一些复杂的数据质量特性。

名称和地址操作符通过将输入数据与第三方名称和地址清理软件供应商提供的数据库进行比较来识别和更正错误与不一致性。

匹配与合并操作符识别与合并可能重复的记录。匹配-合并特性能够应用复杂的匹配与合并规则。

主题

本课程将讨论以下主题:

概述
前提条件
介绍匹配/合并操作符
执行映射
总结

完成本课程大约需要 45 分钟。

将鼠标移到该图标上可以显示所有屏幕截图。还可以将鼠标移到特定的图标上来查看相关的屏幕截图。


概述

本课程将介绍匹配合并操作符。您将使用现有的 MAP_MATCH_MERGE_CUSTOMER_STG 映射。本课程着重介绍了用于识别和合并重复记录的匹配合并功能。

返回主题列表

返回主题列表

为使本课程顺利进行,您需要先完成以下准备工作:

1.

完成了概述课程。

2.

完成了登录到 OWB课程。

3.

完成了导入源元数据课程。

4.

完成了定义目标模块课程。

5.

完成了使用 Oracle Warehouse Builder 进行维设计课程。

6 .

完成了设计 ETL 数据流映射课程。

7 .

完成了部署目标课程。

 

介绍映射中的匹配合并操作符

返回主题列表

与名称与地址操作符不同,匹配与合并特性独立于任何第三方软件。在本课程中,我们将介绍一个使用匹配与合并操作符的映射。

该映射用于加载 MAIL_MERGE_CUSTOMERS_STG 表,以识别在下个营销活动期间将要面向的客户。显而易见,应删除重复项或可能的重复项,并且共享同一地址的多个客户应只接收信息一次。Warehouse Builder 在一个非常强大的匹配合并操作符中提供了所有这些功能。

1.

OWB10G_DEMO 项目中,依次展开 DatabasesOracleSTGMappings。双击 MAP_MATCH_MERGE_CUSTOMER_STG 映射。

将鼠标移到该图标上可以查看该图像

 

2.

选定映射在 Mapping Editor 中打开。

将鼠标移到该图标上可以查看该图像

本示例使用两个结构相同的文件(customers_system1_txt 和 customers_system2_txt)。

它使用 UNION ALL 操作将两个数据集合并到 SETOP 操作符中。

 

 

3.

右键单击 MATCH_MERGE 操作符并选择 Edit

将鼠标移到该图标上可以查看该图像

在本示例中,您将使用一个先前设计的映射。如果要构建该映射并从工具箱中调出匹配合并操作符,将有一个向导引导您逐步完成后面几个步骤中在选项卡上看到的步骤。

 

4.

Match-Merge Editor 窗口打开。单击 Groups 选项卡。

将鼠标移到该图标上可以查看该图像

匹配合并操作符有 3 个组:包含输入属性的 INGRP1、包含合并记录的
MERGE(通常记录比 INGRP1 少)
以及 XREF(它是包含 INGRP1 中的所有记录(包括一些合并属性)的交叉引用组
)。

 

5.

单击 Input Connections 选项卡。

将鼠标移到该图标上可以查看该图像

输入是在映射创建过程中从 SETOP 输出中选择的。MATCH_MERGE 中的输入属性与 SETOP 的输出属性匹配。

 

6.

单击 Input Attributes 选项卡。

将鼠标移到该图标上可以查看该图像

检查属性数据类型和长度。通常,逐步完成此向导不需要更改其中的任何输入属性,因为 Warehouse Builder 基于输出属性预先填充了这些输入属性。

 

7.

单击 Merge Output 选项卡。

将鼠标移到该图标上可以查看该图像

Merge Output 显示哪些属性将显示在 MERGE 组中。在本示例中,合并基于名称和地址信息进行,并分配一个 ID。

 

8.

单击 Cross-Reference Output 选项卡。

将鼠标移到该图标上可以查看该图像

交叉引用输出显示传入属性中的信息以及匹配集中的 ID(MM_ID 代表匹配的 ID)。Warehouse Builder 在 Source Attributes 中以默认前缀“MM_”显示合并属性。本示例清理源系统,知道匹配合并操作中与记录合并的用户的 ID。

 

9.

单击 Match Bins 选项卡。

将鼠标移到该图标上可以查看该图像

匹配站 (Match Bins) 用于识别可能的匹配。例如,在本练习中,我们将 CITY、STATE 和 COUNTRY 用作匹配站,这意味着只有与这些属性匹配的记录才是合并候选项。具有不同的 CITY、STATE 和 COUNTRY 值的记录将肯定被视为不同。很明显,在复杂环境中,由于选择的属性越多,系统的速度将越快,因此您需要巧妙地选择匹配站。

 

10.

单击 Match Rules 选项卡。

将鼠标移到该图标上可以查看该图像

匹配规则显示可以创建来确定如何匹配行的规则。

 

11.

选择 MA_NAME 规则(如果尚未选择)。单击 Rule Type 列下的 Person。上部面板中的 Rule Type 显示不同的类型,每个类型都有其自身特性(可以在下拉列表中看到)。

将鼠标移到该图标上可以查看该图像

在此步骤中,已选中规则类型 Person。右下角面板显示了某些属性以及属性扮演的强制角色。

 

12.

确保选择了 MA_NAME 规则。单击 Details 选项卡。伸展此窗口并伸展底部面板。

将鼠标移到该图标上可以查看该图像

通过 Rule Options,您可以了解如何识别匹配项。显然,考虑到规则类型、角色以及角色选项的数量,匹配和合并记录的方法几乎有无限种。该功能并不局限于名称和地址信息。

 

13.

单击 MA_ADDRESS 规则。注意右下角面板中的属性和角色。单击左下角面板上的 Details 选项卡。您将再次看到,可以为地址合并定义的规则选项有很多。

将鼠标移到该图标上可以查看该图像

将鼠标移到该图标上可以查看该图像

 

14.

在 Match-Merge Editor 中,单击 Merge Rules 选项卡。单击左下角的 Details 选项卡,并选择规则 Minimum。单击 OKCancel 关闭 Match-Merge Editor。

将鼠标移到该图标上可以查看该图像

在该步骤中,请指定如何合并属性集。可以按属性逐个定义合并规则,也可以一次性为一组属性(称作记录)定义合并规则。在本示例中,我们并未指定首选记录或记录中的首选属性。

 

执行映射

返回主题列表

在本主题中,您将学习如何执行一个成功部署的映射。

 

1.

关闭 Mapping Editor。

在 OWB 客户端中,选择 Project > Deployment Manager。在 Select Runtime Repository Connection 对话框的 Connection 下拉列表中,选择 OBE_RUNTIME_CONNECTION 或使用 <您在第 7 课中创建的运行时连接>,然后单击 OK。在 Connection Information 对话框的 Password 域中,键入 connect_user 或使用 <以用户帐户的身份连接时使用的口令>,然后单击 OK

依次展开 TARGET_LOCSTG 并选择映射 MAP_MATCH_MERGE_CUSTOMERS_STG

将鼠标移到该图标上可以查看该图像

将鼠标移到该图标上可以查看该图像

将鼠标移到该图标上可以查看该图像

 

2.

在生成此映射之前,请确保成功部署了 2 个外部表(STG.CUSTOMERS_SYSTEM1_EXT 和 STG.CUSTOMERS_SYSTEM2_EXT)。

TARGET_LOC 位置中,依次展开 STG 模块和 External Tables。选择 CUSTOMERS_SYSTEM1_EXT,按住键盘上的 CTRL 键并选择 CUSTOMERS_SYSTEM2_EXT。单击 Default Action。生成并部署这两个外部表。

必需成功部署这两个表(MAIL_MERGE_CUSTOMERS_STG 和 CLEANUP_CUSTOMERS_STG)。

在 Deployment Manager 窗口中,单击 MAP_MATCH_MERGE_CUSTOMERS_STG 映射并单击 Default Action

将鼠标移到该图标上可以查看该图像

 

3.

在 Deployment Manager 的工具箱中,单击 Generate/Deploy。单击 Confirm Commit 对话框中的 Commit

将鼠标移到该图标上可以查看该图像

 

4.

在 Pre-Deployment Generation results 窗口中,单击 Deploy(如果成功生成了映射)。

将鼠标移到该图标上可以查看该图像

 

5.

在 Deployment results 窗口中,单击 OK

将鼠标移到该图标上可以查看该图像

 

6.

在 Deployment Manager 中,右键单击 MAP_MATCH_MERGE_CUSTOMERS_STG 并选择 Execute

将鼠标移到该图标上可以查看该图像

 

7.

在 Execution Parameters 对话框中,单击 Execute

将鼠标移到该图标上可以查看该图像

注意,有 280 个记录插入到清理表中,而只有 185 个记录识别为邮件合并客户。

将鼠标移到该图标上可以查看该图像

关闭 Execution Results 窗口和 OWB Deployment manager。

 

 

总结

返回主题列表

Warehouse Builder 提供了强大的数据质量特性。名称与地址清理可用于执行名称与地址的清理、验证和标准化。在识别和合并可能重复的记录方面,匹配与合并功能非常强大。

执行以上步骤后您会注意到,对于营销活动而言,在 280 个候选地址中有 95 个 (280-185) 地址重复 (34%)。利用这些特性可以节省大量时间,并向客户提供更一致的视图。

将鼠标移到该图标上可以隐藏所有屏幕截图

 

 

 

 
寄送此页面
打印机视图 打印机视图