Michael Chen | 内容策略师 | 2024 年 1 月 4 日
在数字化的商业世界中,数据源无处不在 — 从物联网设备、ERP 系统中的应用用户群到 CRM 软件中的客户服务请求。随着大量数据不断流入,企业应该如何提取所需的信息呢?像分析平台这样的工具可以获得洞察,但前提是数据集已经集成在一起,支持系统建立连接。否则,用户不得不花费时间和精力在手动整理电子表格上,同时还需要承担被过时、损坏或重复性数据带偏的风险。
技术的进步简化了整合数据、存储数据和业务用户访问数据的过程。首先,我们需要整合来自多个来源的数据。这是建立一个数据驱动型企业的关键,有助于解锁一系列涉及自助分析和商务智能的可能性。支持用户自己创建查询也可以带来惊人的洞察。
然而,要达到这一阶段,需要数据集成策略、能够支持有效连接多个数据源的基础设施以及数据湖或数据仓库。
数据集成、数据融合和数据联接的第一步是一样的:整合多个数据源。这些技术在定义和术语的标准化程度以及过程转换发生的位置上有所不同。当您在决定要使用哪一种方法时,可以参考这些问题,例如:提取的数据集是否接近您的内部标准,或者是否需要大量转换?数据源是否经常产生重复性数据或涉及其他需要进行数据清理的问题?
通过了解数据源的质量,您的企业将能够朝着您的数据目标迈进。
数据集成、数据联接和数据融合是现代 IT 领域常用的三个术语。很多人经常分不清这三个术语,因为三者之间的区别不大。这三者的共同点是:无论数据转换是在加载到存储库之前还是之后进行,通常都是该过程中十分麻烦和费力的一步,因此需要尽可能实现自动化。
下面是这三个术语的基本定义及其区别。
下表详细列出了数据集成、数据融合和数据联接之间的差异。
数据集成 | 数据融合 | 数据联接 | |
---|---|---|---|
整合多个数据源? | 是 | 是 | 是 |
通常由 IT 或用户处理? | IT | 用户 | 用户 |
需要在输出之前清理数据? | 是 | 否 | 否 |
需要在输出后清理数据? | 否 | 是 | 是 |
是否建议使用相同的数据源? | 否 | 否 | 是 |
提取/加载/转换还是提取/转换/加载? | 提取/转换/加载 | 提取/转换/加载 | 提取/转换/加载 |
关键要点
工具在进步,数据源不断扩展,功能也在不断优化。这些都为改进数据集成工作流程和引入更为稳健和高效的流程提供了源源不断的机会。
虽然每个企业都有自己的特定需求,但数据集成通常都会遵循一套标准流程。
在此阶段,经过整合的数据集可供请求者手动清理和分析,或者由数据科学家或数据管理员在将数据提供给企业之前对其进行规范化。无论如何,这些数据通常都需要经过额外的流程,以确保列与列之间的命名保持一致,删除重复数据,更正不准确或错误的数据,修复不完整的记录等等。
完成这些任务后,数据即可加载到分析应用、商务智能系统甚至是 Excel 中,以供最终用户分析和处理,从中获得洞察并实现可视化。
IT 部门的目标应该是尽可能提高此流程的效率。这需要做好自动化转型规划,尽量减少手动工作量。然而,企业如何实现这一目标取决于许多变量:数据源来自哪里、这些来源是否经过审核、优先考虑哪些字段、是否存在既定的数据规则,以及存在哪些类型的工作流程。
在使用多个数据源时,需要将重点放在打造自动化数据清理过程上,从而实现自助服务环境,让数据能够更快地到达用户手中。
如果看起来建立数据集成流程需要花费很多精力,那是因为事实确实如此。从审核来源到制定和完善数据清理工作流程,打造一个顺畅的数据集成过程离不开谨慎规划。不过,我们很快就能够看到其中的价值。
在商场上,时间就是金钱。然而,在这个大数据时代,来自全球供应商和客户的实时信息不断流入,大大增加了时间的重要性。市场瞬息万变,企业的起伏往往难以预测。当数据位于孤岛中,业务线想要分析新信息或探索创新机会时,常常会感觉落后了几步。事实上,之所以会有这种感觉,是因为他们确实是这样。当业务单位必须依赖其他团队进行数据提取和分析报告时,就会拖慢进展。
最后,信息只有在流动时才有价值。
集成多个来源的数据可消除许多手动处理的障碍。不仅如此,这种做法还为更广泛的数据源打开了大门,发掘隐藏的洞察并做出真正由数据驱动的决策。这提高了员工的能力和效率,从而帮助企业推动创新并获得更多机会。最终,通过集成多个数据源,企业可以快速找到新的构思和解决方案,并在竞争中保持优势。
随着数据带来的机遇不断增加,成功的数据集成可使企业在现在和将来保持竞争优势。但是,要实现这一目标,需要结合技术配置和企业视角。通过应对这些挑战,企业可以改变运营、销售、财务、制造等几乎所有部门的决策方式。
以下是数据集成的优势以及取得成功需要克服的障碍。
成功的数据集成需要在多个领域做好基础工作,其中包括技术支持、业务目标和企业文化。以下是启动数据集成计划之前需要完成的三个关键事项。
为了取得成功,数据集成策略需要技术的支持,需要团队来管理源数据和数据摄取,需要业务用户下载和有效使用经过合并的数据,更需要领导层批准这项工作的预算。每个利益相关方都是至关重要的。如果无法获得整个企业的支持,相关战略就会脱轨,有时甚至会半途夭折。
企业必须搞清楚与数据集成项目相关的种种“为什么”。该项目是为了加快流程、增强数据分析、获得更多数据驱动的洞察、提高数据准确性,或者是想要同时获得这些成果?该项目是针对一个部门,还是针对范围更广的计划?
通过确定具体目标和参数,企业可以制定重点更明确和更有效的方法来实现数据目标。
在启动数据集成项目之前,您需要先了解您正在使用的现有系统和数据。在理想的情况下,数据可以轻松导出,并且各部门之间已经就格式和标准达成一致。如果各部门的目标、流程或原始数据格式有很大差异,会发生什么情况?这就需获得高管的支持。
集成来自多个来源的数据涉及多个步骤。然而,在整个过程中,重要的是要保持数据质量和完整性,以及遵循相关的数据安全和隐私法规。此外,完成数据集成后,您需要定期进行监视和维护,以确保数据质量和完整性。
数据源有多种不同的格式,散布在多个位置。每个部门都有不同的数据源组合,例如:
无论格式和其他变量如何,更重要的是,您需要识别和选择有助于业务目标的数据源,然后找到适合整合数据源的方式。
确定了数据源后,我们来看看数据集是如何格式化和定义的。其中,有两个主要的准备步骤。
究竟哪个方法更有效,具体取决于各个数据集的状态和企业的目标。但是,通常在实现自动化流程后,数据清理和标准化工作的效果也会更好。通过使用工具协助完成数据准备工作,整个过程再也无需手动干预。现在,IT 人员可以专注于标记的事件,而不是手动处理每个数据集。低代码和无代码工具可以简化转换,而定制脚本和编码则可以为流程带来更大的灵活性。
您的集成方法将在定义数据的整体 IT 架构方面发挥重要作用。这就是为什么将您的资源和业务目标与所选方法相结合至关重要,其中也包括您是否要构建具有持续集成或定期刷新的系统。以下是一些常见的数据集成方法:
实施开发完善的数据集成计划也可能是一个复杂的过程。但通过系统的方法,这种投资将会带来长期回报,同时为您的企业打造可扩展的未来。
首先,我们需要识别数据元素和数据源,然后映射它们之间的关系。什么是干净的重叠?列和定义在哪些方面有所不同?需要做些什么来实现统一?
这一步,您将需要构建一个数据转换模型。您可以使用自定义脚本、预构建的行业工具或选择两者兼施,具体取决于您的需求和可用资源。这个过程的目标是将数据转换并合并为一种通用格式,解决数据源之间的任何冲突,通过系统的方式打造可重复的流程,并减轻数据消费者的工作量。
在此过程中,数据管理者和数据工程师可以使用一系列的集成工具和技术,其中包括在三个主要阶段工作的 ETL 工具。
各种格式和平台提供了各种 ETL 工具。除了传统的 ETL 软件应用外,基于云技术的 ETL 工具还支持灵活访问,因为这些工具可以更轻松地连接不同的数据源和资料档案库。假设您掌握了相关的 IT 专业知识,开源 ETL 工具能够以低前期成本带来强大的功能。然而,这些工具在功能开发、安全性或质量保证方面可能达不到商业产品的水平,因此未来可能还需进一步进行资源投资。市场上有定制化的 ETL 工具,但通常需要大量的前期投资。
如何知道哪个 ETL 工具更适合您的企业?您需要考虑的因素包括所支持的连接器类型、可实现的定制程度、性能和资源要求,以及涵盖了专业知识和支持基础设施的总体成本。更重要的是,您需要对 ETL 工具进行自动化功能方面的评估,因为自动化是系统数据转换的关键,决定了是否能够实现自助数据分析。
数据集的质量指的是其完整性、准确性、及时性和是否符合标准。数据质量在集成数据中的重要性再怎么强调也不为过。高质量的数据集在准备集成时会更省力。虽然从资源的角度来看,这一点很重要,但数据质量也会对产出结果产生重大影响。例如,如果企业在计算中使用了四个有效数字,但外部来源仅提供两个有效数字的数据,这意味着该数据达不到预期的质量水平。如果使用这些数据,分析结果可能会包含有缺陷的洞察。
因此,高质量的数据对于集成数据至关重要,有助于减少转换/清理工作并确保输出的准确性。
如何衡量和维护数据质量:许多方法都有助于保证数据质量。
将数据整合到存储库中后,您的企业就可以进行下一步行动:自助分析。Oracle Analytics 可在为从业务用户到数据科学家的全部用户构建的直观用户界面中提供完整的自助分析。Oracle Analytics 可在云端、本地或混合环境中使用机器学习和 AI 来发现隐藏的洞察并生成即时可视化。通过 Oracle Cloud 免费套餐,免费试用 Oracle Analytics Cloud。
集成来自多个来源(例如客户画像分析、销售数字和市场趋势)的数据,主要的优势是员工可以更全面地了解任何给定的业务问题或商机。如果数据集成妥善完成,您将能够获得在单独分析每个数据源时可能从未见过的宝贵洞察和模式。如此一来,企业可能收获的成果是:能够在当今数据驱动的业务环境中,做出更明智的决策,制定更有效的战略,改善数据质量控制,并提高运营效率和竞争优势。
企业训练 AI 以供业务使用时,需要各种各样的数据。只有在 CIO 掌握数据集成后,企业才能迎来启动 AI 计划的时机。
为集成选择数据源时应考虑哪些因素?
规划数据集成时,需要考虑到这两个重要的因素:第一,了解您目前和未来拥有哪些资源;第二,了解您的业务目标。由此,您可以确定符合您的策略的数据源,并判断访问这些数据源是否切合实际。
集成来自多个来源的数据有哪些优秀实践?
虽然许多数据集成策略都是基于一家企业的需求而制定的,但仍有一些普遍适用且较为广泛的优秀实践,例如:
多源数据集成的使用场景有哪些?
多源数据集成有两个实际使用场景。首先是智能手机应用,该应用会不断将使用数据传输到云端。这涉及与两个相关数据集交叉引用,即电子邮件营销活动数据和销售数据。统一的视图有助于更深入地了解使用情况、营销和采购之间的关联。第二个例子是医疗物联网设备,可将记录传输到患者账户。这些信息会立即提供给医生,医生也可以访问患者记录以观察病情是否改善或判断是否需要调整。
为什么我们需要集成多个数据源?
随着数据源的数量和类型越来越多,整合数据集对于企业而言已经从“想要”变成了“必要”。如今,很少有操作无法从数据集成中受益。然而,其中的窍门在于如何执行一个适合企业的战略。
如何整合来自多个来源的数据?
将数据源与系统数据准备步骤相结合的过程称为数据集成。如果数据源在没有这种转换/清理的情况下整合在一起,在整合后仍旧需要经过这些步骤,这种过程称为数据联接或数据混合。
注:为免疑义,本网页所用以下术语专指以下含义: