如何集成来自多个来源的数据

Michael Chen | 内容策略师 | 2024 年 1 月 4 日

在数字化的商业世界中,数据源无处不在 — 从物联网设备、ERP 系统中的应用用户群到 CRM 软件中的客户服务请求。随着大量数据不断流入,企业应该如何提取所需的信息呢?像分析平台这样的工具可以获得洞察,但前提是数据集已经集成在一起,支持系统建立连接。否则,用户不得不花费时间和精力在手动整理电子表格上,同时还需要承担被过时、损坏或重复性数据带偏的风险。

技术的进步简化了整合数据、存储数据和业务用户访问数据的过程。首先,我们需要整合来自多个来源的数据。这是建立一个数据驱动型企业的关键,有助于解锁一系列涉及自助分析和商务智能的可能性。支持用户自己创建查询也可以带来惊人的洞察。

然而,要达到这一阶段,需要数据集成策略、能够支持有效连接多个数据源的基础设施以及数据湖或数据仓库。

什么是数据集成?

数据集成、数据融合和数据联接的第一步是一样的:整合多个数据源。这些技术在定义和术语的标准化程度以及过程转换发生的位置上有所不同。当您在决定要使用哪一种方法时,可以参考这些问题,例如:提取的数据集是否接近您的内部标准,或者是否需要大量转换?数据源是否经常产生重复性数据或涉及其他需要进行数据清理的问题?

通过了解数据源的质量,您的企业将能够朝着您的数据目标迈进。

数据集成、数据联接与数据融合

数据集成、数据联接和数据融合是现代 IT 领域常用的三个术语。很多人经常分不清这三个术语,因为三者之间的区别不大。这三者的共同点是:无论数据转换是在加载到存储库之前还是之后进行,通常都是该过程中十分麻烦和费力的一步,因此需要尽可能实现自动化。

下面是这三个术语的基本定义及其区别。

  • 数据集成:使用既定流程对多个数据源进行系统、全面的整合,通常会将其整合为标准化格式,以清理和提炼数据。待完成清理后,再将数据加载到数据湖数据仓库等资料档案库中。转换和集成通常由数据管理员、数据科学家或其他 IT 人员负责完成。
  • 数据融合:将多个数据集整合到一个数据集中以供分析的过程。然而,与数据集成不同,混合数据通常从多个来源整合原生数据,即尚未转换或清理的数据。例如,如果 HR 团队将当前季度的内部招聘指标与政府关于招聘趋势的开源数据集结合起来,他们所使用的就是融合数据。与数据集成不同,这需要用户在融合数据后对数据进行清理和标准化。
  • 数据联接:像数据融合一样,数据联接也需要整合多个数据集。数据联接与数据融合的主要区别在于,前者要求数据集来自相同的来源,或者至少在列和定义之间有一些重叠。我们进一步扩展刚才的 HR 例子,HR 专业人员从当前季度获取政府来源的国家招聘指标,然后下载四年前的季度数据进行比较时,就会发生数据联接。这些数据集来自同一个系统,使用相同的格式,但需要根据特定数据范围进行联接。这些已联接的数据可以进一步与内部 HR 数据集融合在一起,但需要进行清理和标准化。

主要差异

下表详细列出了数据集成、数据融合和数据联接之间的差异。

数据集成 数据融合 数据联接
整合多个数据源?
通常由 IT 或用户处理? IT 用户 用户
需要在输出之前清理数据?
需要在输出后清理数据?
是否建议使用相同的数据源?
提取/加载/转换还是提取/转换/加载? 提取/转换/加载 提取/转换/加载 提取/转换/加载

关键要点

  • 审核数据源时,一定记得您的目标。虽然您无法始终控制大数据世界中数据源的质量,但却可以采取一些措施使集成更容易。
  • 尽可能实现更多的流程自动化。当您的企业需要频繁地从数据源中提取数据时,工具和脚本将对您的集成工作大有助益。
  • 要想知道哪种数据集成方法更适合您的企业,您需要列出所涉及到的全部变量 — 数据源、硬件和数量。
  • 持续改进您的工作流程和标准。成功的数据集成需要不断地改善流程。

集成来自多个来源的数据详解

工具在进步,数据源不断扩展,功能也在不断优化。这些都为改进数据集成工作流程和引入更为稳健和高效的流程提供了源源不断的机会。

虽然每个企业都有自己的特定需求,但数据集成通常都会遵循一套标准流程。

  1. 最终用户的请求或企业做出的决定将确定数据整合需求。其中,通常也会涉及参数(例如日期范围)和其他限制因素。
  2. 确定相关数据源以及需要从这些来源获取的具体数据。
  3. 从来源中以原始格式提取数据,并将其整合成一个数据集。

在此阶段,经过整合的数据集可供请求者手动清理和分析,或者由数据科学家或数据管理员在将数据提供给企业之前对其进行规范化。无论如何,这些数据通常都需要经过额外的流程,以确保列与列之间的命名保持一致,删除重复数据,更正不准确或错误的数据,修复不完整的记录等等。

完成这些任务后,数据即可加载到分析应用、商务智能系统甚至是 Excel 中,以供最终用户分析和处理,从中获得洞察并实现可视化。

IT 部门的目标应该是尽可能提高此流程的效率。这需要做好自动化转型规划,尽量减少手动工作量。然而,企业如何实现这一目标取决于许多变量:数据源来自哪里、这些来源是否经过审核、优先考虑哪些字段、是否存在既定的数据规则,以及存在哪些类型的工作流程。

在使用多个数据源时,需要将重点放在打造自动化数据清理过程上,从而实现自助服务环境,让数据能够更快地到达用户手中。

整合来自多个数据源的数据的重要性

如果看起来建立数据集成流程需要花费很多精力,那是因为事实确实如此。从审核来源到制定和完善数据清理工作流程,打造一个顺畅的数据集成过程离不开谨慎规划。不过,我们很快就能够看到其中的价值。

在商场上,时间就是金钱。然而,在这个大数据时代,来自全球供应商和客户的实时信息不断流入,大大增加了时间的重要性。市场瞬息万变,企业的起伏往往难以预测。当数据位于孤岛中,业务线想要分析新信息或探索创新机会时,常常会感觉落后了几步。事实上,之所以会有这种感觉,是因为他们确实是这样。当业务单位必须依赖其他团队进行数据提取和分析报告时,就会拖慢进展。

最后,信息只有在流动时才有价值。

集成多个来源的数据可消除许多手动处理的障碍。不仅如此,这种做法还为更广泛的数据源打开了大门,发掘隐藏的洞察并做出真正由数据驱动的决策。这提高了员工的能力和效率,从而帮助企业推动创新并获得更多机会。最终,通过集成多个数据源,企业可以快速找到新的构思和解决方案,并在竞争中保持优势。

数据集成的优势和挑战

随着数据带来的机遇不断增加,成功的数据集成可使企业在现在和将来保持竞争优势。但是,要实现这一目标,需要结合技术配置和企业视角。通过应对这些挑战,企业可以改变运营、销售、财务、制造等几乎所有部门的决策方式。

以下是数据集成的优势以及取得成功需要克服的障碍。

优势

  • 统一数据。通过将数据整合到一个存储库中,简化和加速整个数据采集过程。一个统一的视图可帮助企业更好地协调各个部门,同时减少采购和处理数据所涉及的资源。
  • 改善协作。数据使用传统方式存储时,不同的小组可能会使用过时或略有不同的数据集版本。使用不同的定义或命名法可能会带来混乱或导致错误的结论。统一数据能够确保各个小组使用相同的信息。
  • 简化运营。当数据共享仅可通过手动请求和准备时,就会拖慢工作进展。运营团队将受益于简化流程、集中式数据和更少的手动步骤。
  • 节省时间。除了简化操作外,合并多个数据源也有助于消除将数据从一个小组手动迁移到另一个小组的实际步骤。当相邻的小组(例如销售和营销)具有重叠的数据需求,或者当工作流的下游参与者需要请求数据集时,就可能会出现延迟。
  • 减少人为错误。从流程中消除手动步骤不仅可以提高效率,还可以降低整体风险。减少手动步骤可以减少出错的机会,例如在复制/粘贴时发送错误的数据集或缺少记录。
  • 改善预测分析。分析平台的数据源越多越好。数据源的整合扩大了分析的可能性,增强了创造力和创新能力。这会带来直接利益,不仅能够让更多用户能够控制业务分析,还可以建立数据驱动文化的长期利益。

挑战

  • 数据兼容性。来自不同来源的数据几乎一定会使用不同的定义和命名。这个清理过程称为数据转换,除非有系统性流程,否则可能会很麻烦和复杂,具体取决于原始源的状态。
  • 数据孤岛。各小组(包括销售、营销、财务和 HR)都根据自己的内部需求跟踪数据。当数据分散在各个孤岛时,这些小组必须手动请求访问,即使收到了数据,命名和定义也可能会有所不同,进一步造成兼容性障碍。
  • 数据质量。高质量的数据有利于生成精准、数据驱动的洞察。为了实现这一目标,企业需要建立标准和流程来确保数据质量。准确性、完整性和更新节奏(如果使用定期刷新)都需要成为讨论的一部分。想要改善跨部门的决策,需要结合 IT 基础设施、小组工作流和个人支持,在这些方面达到标准。
  • 遗留系统。数据是由各种系统生成的,其中包括遗留工具。要想将这些数据源进行清理后集成到一个存储库中,需要先评估遗留系统输出的状态,然后确定如何使其兼容。不要跳过此步骤:这些较旧的系统通常会包含企业专有的信息。
  • 未优化数据。数据优化是指使分析操作尽可能高效和成本效益更高的过程。未优化的数据通常是来自数据源的原始数据,在使用前需要转化为适当的值和记录。OLAP 工具可以自动执行此过程。

预集成核对清单

成功的数据集成需要在多个领域做好基础工作,其中包括技术支持、业务目标和企业文化。以下是启动数据集成计划之前需要完成的三个关键事项。

1. 获得利益相关方的支持

为了取得成功,数据集成策略需要技术的支持,需要团队来管理源数据和数据摄取,需要业务用户下载和有效使用经过合并的数据,更需要领导层批准这项工作的预算。每个利益相关方都是至关重要的。如果无法获得整个企业的支持,相关战略就会脱轨,有时甚至会半途夭折。

2. 确保项目与业务目标保持一致

企业必须搞清楚与数据集成项目相关的种种“为什么”。该项目是为了加快流程、增强数据分析、获得更多数据驱动的洞察、提高数据准确性,或者是想要同时获得这些成果?该项目是针对一个部门,还是针对范围更广的计划?

通过确定具体目标和参数,企业可以制定重点更明确和更有效的方法来实现数据目标。

3. 分析现有数据流程

在启动数据集成项目之前,您需要先了解您正在使用的现有系统和数据。在理想的情况下,数据可以轻松导出,并且各部门之间已经就格式和标准达成一致。如果各部门的目标、流程或原始数据格式有很大差异,会发生什么情况?这就需获得高管的支持。

集成来自多个来源的数据的五个步骤

集成来自多个来源的数据涉及多个步骤。然而,在整个过程中,重要的是要保持数据质量和完整性,以及遵循相关的数据安全和隐私法规。此外,完成数据集成后,您需要定期进行监视和维护,以确保数据质量和完整性。

1. 确定需要集成的数据源

数据源有多种不同的格式,散布在多个位置。每个部门都有不同的数据源组合,例如:

  • 关系型数据库:数据集成流程可以直接连接到具有标准表格行/列设置的关系型数据库。
  • 平面文件:大多数数据库以平面文件的形式导出数据集,这些平面文件的格式为二维表,可提供独立上下文,而无需引用其他表。主要的导出格式包括 CSV 和分隔格式,通常可以根据需要轻松转换。
  • XML 和 JSON:XML 和 JSON 是现代数据传输的通用标准,尤其适用于网站和基于 Web 的应用。从技术上来讲,JSON 是一种数据格式,而 XML 则是一种语言。这些差异带来了不同的考量因素,例如 XML 是如何构建的,JSON 如何更快地解析数据。对于数据集成而言,更重要的是,如果您从网站或基于 Web 的应用获取数据,您可能会遇到两种情况。
  • API:应用编程接口 (API) 连接不同的系统并从多个源检索数据。API 支持实时数据集成,并且可以进行定制以满足专门的集成要求。
  • 基于云技术的数据源:某些数据集公开可用,并且可以通过云技术进行更新。这类指标通常来自政府、教育或研究领域,而这些来源的数据可供研究人员进一步研究。
  • 物联网 (IoT) 设备:物联网设备不断收集信息,有时每天会收集数千个数据点。物联网设备的例子包括有持续传输患者数据的医疗设备、您家中的智能设备以及控制工厂和智能城市的工业物联网 (IioT) 设备。物联网设备中的数据通常会上载到云端,以供其他系统使用。

无论格式和其他变量如何,更重要的是,您需要识别和选择有助于业务目标的数据源,然后找到适合整合数据源的方式。

2. 准备需要集成的数据

确定了数据源后,我们来看看数据集是如何格式化和定义的。其中,有两个主要的准备步骤。

  • 数据清理:数据集可能包含了不完整或重复的记录、受损的部分或其他问题。数据清理指的是通过清理数据集来获得一组完整的可工作记录的过程。
  • 标准化:虽然数据清理可以删除有问题的记录,但无法解决标准化问题。在集成数据时,如果能够定义和应用标准化的规则(包括日期格式设置、分类和元数据字段),流程将会变得更加顺畅,结果也更为理想。因此,在集成之前,请尽可能确保记录符合标准。这将能够大大减少下游的工作量,同时提高及时性和准确性。
  • 转换技术:您可以使用一系列技术和实践进行数据转换,其中包括数据平滑,即通过算法减少数据集内的噪声;数据规范化,即在可行范围内缩放数据;数据泛化,即在字段之间建立层次结构;以及数据操作,即识别模式以创建可行格式。

究竟哪个方法更有效,具体取决于各个数据集的状态和企业的目标。但是,通常在实现自动化流程后,数据清理和标准化工作的效果也会更好。通过使用工具协助完成数据准备工作,整个过程再也无需手动干预。现在,IT 人员可以专注于标记的事件,而不是手动处理每个数据集。低代码和无代码工具可以简化转换,而定制脚本和编码则可以为流程带来更大的灵活性。

3. 选择数据集成方法

您的集成方法将在定义数据的整体 IT 架构方面发挥重要作用。这就是为什么将您的资源和业务目标与所选方法相结合至关重要,其中也包括您是否要构建具有持续集成或定期刷新的系统。以下是一些常见的数据集成方法:

  • 手动:手动数据集成并不是说需要有人逐一点击每个数据字段。但是,这确实需要有人负责编写代码来处理过程的每个步骤。虽然手动方式既繁琐又耗时,但在某些情况下,由于受限于数据源的质量或企业资源的现实情况,手动集成是更可行的选择。
  • 提取/转换/加载 (ETL):ETL 进程在将数据加载到系统信息库之前处理转换。当系统转换标准到位,并且能够在将数据集摄取到数据湖或数据仓库之前进行处理时,ETL 会更有效。
  • 提取/加载/转换 (ELT):ELT 进程在加载到系统信息库之后处理数据转换。因此,使用 ELT 的数据集通常会采用原始格式,未经过标准化。当我们无法进行系统性转换,例如当用户找到新的数据源时,可以考虑使用 ELT。
  • 变更数据捕获 (CDC):CDC 是一个在更新数据集的同时减少资源使用的过程。CDC 可以接收记录的变更并近乎实时地进行更新,而不是定期刷新整个数据集。由于更新是单独发生的,并且是以小规模且快速突发进行的,因此 CDC 不会影响数据库正常运行时间或导致资源使用量激增。
  • 数据复制:数据复制将原始版本的数据保留在数据源中,并创建供小组使用的副本。此副本可能只是记录的一小部分,例如某些列或用于操作的其他子集。如果需要长期保留太多的版本,数据复制可能会耗尽资源。
  • 数据虚拟化:通过数据虚拟化,所有数据集都保留在其原始数据库中。转换和操作发生在虚拟层,可以使用联合指向单个记录,而无需真正将其拉入新文件。
  • 流数据集成 (SDI):SDI 可用作 ELT 处理的实时版本。数据流从源头开始发送并实时进行转换,然后再发送到存储库。这种做法有两大好处。首先,通过不断更新记录,数据集可以始终保持更新。其次,这消除了大规模刷新数据集的需要,从而稳定了资源使用。然而,SDI 也带来了基础设施方面的挑战,需要从功能上支持该流程,并确保输入的数据是合格的。

4. 实施集成计划

实施开发完善的数据集成计划也可能是一个复杂的过程。但通过系统的方法,这种投资将会带来长期回报,同时为您的企业打造可扩展的未来。

首先,我们需要识别数据元素和数据源,然后映射它们之间的关系。什么是干净的重叠?列和定义在哪些方面有所不同?需要做些什么来实现统一?

这一步,您将需要构建一个数据转换模型。您可以使用自定义脚本、预构建的行业工具或选择两者兼施,具体取决于您的需求和可用资源。这个过程的目标是将数据转换并合并为一种通用格式,解决数据源之间的任何冲突,通过系统的方式打造可重复的流程,并减轻数据消费者的工作量。

在此过程中,数据管理者和数据工程师可以使用一系列的集成工具和技术,其中包括在三个主要阶段工作的 ETL 工具。

  • 提取数据:从各种数据源提取数据,例如智能手机应用、数据库、Web 应用和软件应用。
  • 转换数据:从数据源中转换数据,满足定义、命名和分类的内部标准。
  • 加载转换后的数据:将转换后的数据加载到数据仓库、数据湖或其他可通过商务智能或自助分析等工具访问的存储库中。

各种格式和平台提供了各种 ETL 工具。除了传统的 ETL 软件应用外,基于云技术的 ETL 工具还支持灵活访问,因为这些工具可以更轻松地连接不同的数据源和资料档案库。假设您掌握了相关的 IT 专业知识,开源 ETL 工具能够以低前期成本带来强大的功能。然而,这些工具在功能开发、安全性或质量保证方面可能达不到商业产品的水平,因此未来可能还需进一步进行资源投资。市场上有定制化的 ETL 工具,但通常需要大量的前期投资。

如何知道哪个 ETL 工具更适合您的企业?您需要考虑的因素包括所支持的连接器类型、可实现的定制程度、性能和资源要求,以及涵盖了专业知识和支持基础设施的总体成本。更重要的是,您需要对 ETL 工具进行自动化功能方面的评估,因为自动化是系统数据转换的关键,决定了是否能够实现自助数据分析。

5. 保证数据质量

数据集的质量指的是其完整性、准确性、及时性和是否符合标准。数据质量在集成数据中的重要性再怎么强调也不为过。高质量的数据集在准备集成时会更省力。虽然从资源的角度来看,这一点很重要,但数据质量也会对产出结果产生重大影响。例如,如果企业在计算中使用了四个有效数字,但外部来源仅提供两个有效数字的数据,这意味着该数据达不到预期的质量水平。如果使用这些数据,分析结果可能会包含有缺陷的洞察。

因此,高质量的数据对于集成数据至关重要,有助于减少转换/清理工作并确保输出的准确性。

如何衡量和维护数据质量:许多方法都有助于保证数据质量。

  • 数据分析:对源数据进行高级分析,检查质量、完整性、准确性等元素,并创建汇总。
  • 数据标准化:创建格式、定义、命名等元素标准以确保数据与企业内部的其他数据集完全兼容的过程。如果数据不符合标准,就需要对其进行转换。
  • 数据清理:清理数据集以更正和删除重复、留空、不准确或损坏的条目,准备好数据集以供处理。
  • 数据匹配:这涉及跨不同数据集匹配记录,以验证记录是否反映相同的主题,同时标记重复性记录以供删除。
  • 数据验证:通过一系列检查和参数,检查数据是否按照给定规则运行,从而验证数据的准确性和质量。
  • 数据治理:监视数据的过程,以确保存储、安保、获取等任务符合企业制定的标准和原则以及可能适用的任何相关法规。
  • 持续监视:使用各种工具,根据内部标准和治理标准,持续检查数据集的运行状况。

利用 Oracle Analytics 轻松实现多源数据集成

将数据整合到存储库中后,您的企业就可以进行下一步行动:自助分析。Oracle Analytics 可在为从业务用户到数据科学家的全部用户构建的直观用户界面中提供完整的自助分析。Oracle Analytics 可在云端、本地或混合环境中使用机器学习和 AI 来发现隐藏的洞察并生成即时可视化。通过 Oracle Cloud 免费套餐,免费试用 Oracle Analytics Cloud

集成来自多个来源(例如客户画像分析、销售数字和市场趋势)的数据,主要的优势是员工可以更全面地了解任何给定的业务问题或商机。如果数据集成妥善完成,您将能够获得在单独分析每个数据源时可能从未见过的宝贵洞察和模式。如此一来,企业可能收获的成果是:能够在当今数据驱动的业务环境中,做出更明智的决策,制定更有效的战略,改善数据质量控制,并提高运营效率和竞争优势。

企业训练 AI 以供业务使用时,需要各种各样的数据。只有在 CIO 掌握数据集成后,企业才能迎来启动 AI 计划的时机。

多源数据集成的常见问题解答

为集成选择数据源时应考虑哪些因素?

规划数据集成时,需要考虑到这两个重要的因素:第一,了解您目前和未来拥有哪些资源;第二,了解您的业务目标。由此,您可以确定符合您的策略的数据源,并判断访问这些数据源是否切合实际。

集成来自多个来源的数据有哪些优秀实践?

虽然许多数据集成策略都是基于一家企业的需求而制定的,但仍有一些普遍适用且较为广泛的优秀实践,例如:

  • 了解数据源在数据质量方面的水平
  • 制定计划时,牢记业务目标
  • 了解您的 IT 资源和预算
  • 优先考虑哪些部门可以从数据集成中获益更多
  • 考虑长期扩展和可扩展性

多源数据集成的使用场景有哪些?

多源数据集成有两个实际使用场景。首先是智能手机应用,该应用会不断将使用数据传输到云端。这涉及与两个相关数据集交叉引用,即电子邮件营销活动数据和销售数据。统一的视图有助于更深入地了解使用情况、营销和采购之间的关联。第二个例子是医疗物联网设备,可将记录传输到患者账户。这些信息会立即提供给医生,医生也可以访问患者记录以观察病情是否改善或判断是否需要调整。

为什么我们需要集成多个数据源?

随着数据源的数量和类型越来越多,整合数据集对于企业而言已经从“想要”变成了“必要”。如今,很少有操作无法从数据集成中受益。然而,其中的窍门在于如何执行一个适合企业的战略。

如何整合来自多个来源的数据?

将数据源与系统数据准备步骤相结合的过程称为数据集成。如果数据源在没有这种转换/清理的情况下整合在一起,在整合后仍旧需要经过这些步骤,这种过程称为数据联接或数据混合。

注:为免疑义,本网页所用以下术语专指以下含义:

  1. 除Oracle隐私政策外,本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国 。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。