etl2

Oracle 技术网 (OTN) > 面向开发人员和数据库管理员的下载、讨论和文档

产品中心

数据库
中间件
企业管理器
应用技术
协作套件
中文白皮书
更多……

技术中心

BI和数据仓库
网格
Java 开发人员
Linux
.NET 开发人员
PHP 开发人员
Web 服务
Windows
XML
更多……

OTN 社区

关于 OTN
Oracle ACE
TechBlast 时事通讯
Oracle 杂志
网志和评论
播客
用户群
合作伙伴白皮书
Oracle 10g 图书
更多……

使用 Oracle 数据库 10g 内部的 ETL 基础架构

OBE 主页 > 10gR2 VMware > 商务智能 > 使用 Oracle 数据库 10g 内部的 ETL 基础架构

使用 Oracle 数据库 10g 内部的 ETL 基础架构

目的

本教程介绍了 Oracle 数据库 10g 的提取、转换和加载 (ETL) 基础架构。

所需时间

大约 1 个小时

主题

本教程包括下列主题：

	概述
	为销售历史模式实施模式更改
	了解多表插入
	了解 DML 错误记录功能
	了解表函数的基础知识
	使用更改数据捕获 (CDC) 跟踪和使用增量式数据更改
	为数据集市填充信息
	清理
	总结

查看屏幕截图

将光标置于此图标上以加载和查看本教程的所有屏幕截图。（警告：因为此操作会同时加载所有屏幕截图，所以网速较慢时，响应时间可能会比较长。）

注意：此外，您还可以在下列步骤中将光标放在每个单独的图标上，从而仅加载和查看与该步骤相关的屏幕截图。您可以单击单个屏幕截图将其隐藏。

概述

ETL 过程中执行哪些操作？

ETL 表示提取、转换和加载。在提取过程中，必须从许多不同的数据源（包括数据库系统和应用程序）中标识并提取所需的数据。通常情况下，无法标识相关的特定数据子集，这意味着必须先提取多余的数据，并在稍后的时刻标识相关数据。根据源系统的功能（例如，OS 资源），此提取过程中可能会发生某些转换。提取的数据大小少则数百 KB，多则数百 GB，具体情况取决于源系统和业务情况。两个（逻辑上）相同的提取之间的时间间隔也存在这种情况：时间跨度从数天/小时和分钟一直到近乎实时。例如，Web 服务器日志文件的大小可在极短的时间内轻松地增至数百 MB。

提取数据后，需要将其物理传输到目标系统或中间系统进行进一步的处理。根据所选择的传输方法，在此过程中也可能会进行某些转换。例如，通过网关直接访问远程目标的 SQL 语句可以在 SELECT 语句中连接两列。

提取并传输数据后，将执行 ETL 中最具挑战性（并且最耗时）的过程：转换并加载到目标系统中。该过程可能包括：

	应用复杂的过滤器
	必须对照目标数据库表中已经存在的信息验证数据
	必须对照目标对象检查在不知道新信息与已更改信息的情况下提取的数据，以决定是否必须更新或插入该数据
	必须以细节级别和聚合信息的形式多次插入同一数据

该过程应在可伸缩的方式下尽快完成，并且不能影响为检索信息而对现有目标进行的并发访问。

Oracle 提供了各种功能来解决 ETL 情形中所有相关的问题和任务。Oracle 数据库 10g 是 ETL 转换引擎。

返回主题列表

为销售历史模式实施模式更改

在开始执行本 OBE 的任务之前，需要对现有的销售历史模式实施一些更改。还需要其他一些对象，并且必须将其他系统权限授予用户 SH。用于应用这些更改的 SQL 文件为 modifySH_10gR2.sql。您可以在 /home/oracle/wkdir 文件夹中找到该文件。要使用数据仓库教程的设置文件，执行下列步骤：

启动终端窗口。从终端会话中执行以下命令，将工作目录更改为 /home/oracle/wkdir 文件夹：

注意：本教程假设您拥有一个 /home/oracle/wkdir 文件夹，其中包含可供使用的物化视图文件。

cd wkdir

启动 SQL*Plus 会话。使用 sh/sh 作为用户名和口令。

从 SQL*Plus 会话中运行 modifySH_10gR2.sql 脚本。

@modifySH_10gR2.sql

输出的结尾应与下图相符。

返回主题列表

了解多表插入

MyCompany 从它的某个合作伙伴公司那里收到一些非关系数据结构，该公司当时在销售某个特殊广告活动所宣传的产品。该数据结构是从专有大型机系统中提取的一个非规范化的非关系记录结构，并按照每个客户和每周的产品分别对应一个记录的方式构成。而且必须将这些数据结构插入到数据仓库中。由于销售记录数据是按照每个客户和每天的产品进行存储的，因此需要对传入的数据进行转换。

作为转换过程的一部分，必须将非关系的非规范化数据结构从每周一个记录转换为每周七个记录，每个记录包含一个工作日的信息（第一个业务转换示例）。此外，数据仓库还跟踪信贷限额超过某个限制的所有新客户。分别跟踪这些客户。

在本部分中，您将利用 Oracle 新的多表插入功能实施这些业务转换。为此，执行以下步骤：

使用多表插入实现旋转
使用多表插入实现条件插入

返回主题列表

使用多表插入实现旋转

显示新多表插入的执行计划。在登录 SH 模式的 SQL*Plus 会话中，执行以下 SQL 脚本：

@explain_mti_new.sql

DELETE
FROM PLAN_TABLE;

EXPLAIN PLAN FOR
INSERT ALL
INTO sales
VALUES(product_id, customer_id,weekly_start_date,2,9999, q_sun,sales_sun)
INTO sales
VALUES(product_id, customer_id,weekly_start_date+1,2,9999, q_mon,sales_mon)
INTO sales
VALUES(product_id, customer_id,weekly_start_date+2,2,9999, q_tue,sales_tue)
INTO sales
VALUES(product_id, customer_id,weekly_start_date+3,2,9999, q_wed,sales_wed)
INTO sales
VALUES(product_id, customer_id,weekly_start_date+4,2,9999, q_thu,sales_thu)
INTO sales
VALUES(product_id, customer_id,weekly_start_date+5,2,9999, q_fri,sales_fri)
INTO sales
VALUES(product_id, customer_id,weekly_start_date+6,2,9999, q_sat,sales_sat)
SELECT * FROM sales_input_table;

SET linesize 140
SELECT * from table(dbms_xplan.display);

注意：只对输入源表扫描一次！由于非规范化的复杂性在多个 INSERT INTO 分支中得到处理，从而避免多次扫描。

现在，显示基于 UNION ALL 设置操作的多表插入的执行计划。在登录 SH 模式的 SQL*Plus 会话中，执行以下 SQL 脚本：

@explain_mti_old.sql

DELETE FROM PLAN_TABLE;
COMMIT;

EXPLAIN PLAN FOR
INSERT INTO sales
(prod_id, cust_id, time_id, channel_id,promo_id,amount_sold,quantity_sold)
SELECT product_id, customer_id,weekly_start_date,2,9999,sales_sun,q_sun
FROM sales_input_table
UNION ALL
SELECT product_id, customer_id,weekly_start_date+1,2,9999,sales_mon,q_mon
FROM sales_input_table
UNION ALL
SELECT product_id, customer_id,weekly_start_date+2,2,9999,sales_tue,q_tue
FROM sales_input_table
UNION ALL
SELECT product_id, customer_id,weekly_start_date+3,2,9999,sales_wed,q_wed
FROM sales_input_table
UNION ALL
SELECT product_id, customer_id,weekly_start_date+4,2,9999,sales_thu,q_thu
FROM sales_input_table
UNION ALL
SELECT product_id, customer_id,weekly_start_date+5,2,9999,sales_fri,q_fri
FROM sales_input_table
UNION ALL
SELECT product_id, customer_id,weekly_start_date+6,2,9999,sales_sat,q_sat
FROM sales_input_table;

SET linesize 140
SELECT * from table(dbms_xplan.display);

COMMIT;

注意：对输入源表扫描七次！非规范化的复杂性在多个 SELECT 操作中得到处理。

With an increasing number of input records, the superiority and the performance improvement of the new multi-table insert statement—by reducing the statement to only one SCAN—will become more and more obvious.

OBE 主页 > 10gR2 VMware > 商务智能 > 使用 Oracle 数据库 10g 内部的 ETL 基础架构

目的

主题

查看屏幕截图

概述

为销售历史模式实施模式更改

了解多表插入

使用多表插入实现旋转 使用多表插入实现条件插入

使用多表插入实现条件插入

使用 Upsert 功能 - SQL MERGE 关键字概述

1. 为外部产品信息创建外部表（和目录）。 2. 使用 SQL MERGE 命令执行 Upsert。 3. 显示 MERGE 命令的执行计划。 4. 使用两个单独的 SQL 命令执行 Upsert（在没有 MERGE 功能的情况下）

了解 DML 错误记录功能

表函数概述

使用同步更改数据捕获 (CDC) 跟踪和使用增量式源更改

从数据仓库传送到数据集市

清理

总结

使用多表插入实现旋转
使用多表插入实现条件插入

1. 为外部产品信息创建外部表（和目录）。
2. 使用 SQL MERGE 命令执行 Upsert。
3. 显示 MERGE 命令的执行计划。
4. 使用两个单独的 SQL 命令执行 Upsert（在没有 MERGE 功能的情况下）