Michael Hickins | 内容策略师 | 2024 年 9 月 4 日
数据重复是一个简单的概念:任何数据在组织基础设施的某个地方都有一个或多个完全重复的数据。它可以是数据库中的记录、存储卷中的文件或 VM 映像。就其本身而言,重复似乎是良性的,甚至是有益的。谁不喜欢额外的副本?但是,当扩展到企业规模时,问题的范围变得清晰。几乎每个现代设备都会定期生成数据、备份和归档文件,文件也会在多个平台上共享,因此数据重复已从一种烦恼发展成为了巨大的成本和技术负担。解决问题首先要了解数据重复的发生方式和原因。
数据重复是指创建一个或多个相同版本数据的过程,可以是有意的(例如计划备份),也可以是无意的。重复数据可能以数据库或其他数据类型的文件、VM 映像、块或记录中存储的数据形式存在。无论出于何种原因,数据重复都会浪费存储空间,随着数据存储规模的增长,成本也在增加。它也可能导致数据管理问题。例如,如果文件的所有副本未同时更新,则不一致可能会导致分析错误。
与数据重复相关的是数据冗余,或者具有多个记录以充当数据主要版本的冗余安全网。与数据重复相反的是数据去重,这需要消除重复数据以释放资源并删除可能过时的副本。
关键要点
数据重复不一定是件坏事。故意复制的数据可以带来显著的好处,包括易于访问的备份、全面的存档以及更有效的灾难恢复。但是,想要获得这些好处而不会产生不必要的成本,需要制定策略,执行备份并定期按计划进行数据去重。否则,重复性数据轻则会占用额外的存储空间,重则会混淆用户和影响数据分析。
虽然术语“数据重复”和“数据冗余”通常可以互换使用,但存在差异。数据重复并不一定是故意产生的,有时是人或机器因粗心或出错造成的。然而,从工程角度来看,冗余的概念是为了在出现问题时建立安全网。这时就需要进行有意的复制。冗余本身就是强大的工程实践的基石,尽管确实有可能造成过度冗余。在这种情况下,即使额外的一组重复项是有目的生成的,它们对于它们使用的资源量也提供有限的值。
人类和自动化流程可能会以多种方式造成数据重复。在文档的修订过程中,大多数人都会保存多个版本,每个版本的名称略有不同,而且通常改动很小,例如“salesreport_final.docx”和“salesreport_final_v2.docx”等等。一旦报告真正定稿,这些内容一般不会被删除。或者,一个文件可能会通过电子邮件发送到整个组织,两个不同的人会将同一版本保存在共享驱动器上的不同位置。某个应用的 .exe 或媒体文件可能会被下载多次,虚拟机实例也可能会保存在多个位置。同样,在数据库中,相同的数据可以输入两次。客户或员工可能上传了两次信息,可能由多人导入文件或者是手动录入。当不同部门在本地应用或具有兼容文件类型的不同应用上创建相同的记录(如客户信息)时,也会发生此类重复的情况。这意味着您可能具有不同备份版本的冗余副本,这些副本本身可能是重复的。
组织的数据驱动程度越高,重复问题就越严重。大数据可能导致存储过量而产生高昂的成本。自动化也可能创建重复性数据。在这种情况下,自动备份过程可能会创建具有冗余意图的重复文件。但是,当同一文件多次备份时,会出现问题。不必要的冗余级别会导致存储使用效率低下。
通常情况下,意外事件会导致数据重复。例如,如果在备份过程中发生断电或自然灾害,则备份可能会重置,并在已写入一些文件后重新启动该过程。硬件故障也会造成类似问题,导致在备份或归档过程中出现计划外的重复。
数据重复不一定是件坏事。IT 团队需要了解数据重复是否是故意的,有多少资源用于存储重复性数据,以及目前的成本有多高。在第二代归档中,包含指向完全克隆副本的指针的有意第三代归档文件的情况与共享驱动器中同一巨型 PowerPoint 文件的多个已保存实例完全不同。
下面是常见的数据重复类型及其可能对您的组织产生的影响。
重复数据会给硬件、带宽、维护和数据管理带来额外的负担,所有这些都会带来大量不必要的成本。在某些情况下,问题很小;但在不理想的情况下,结果可能是灾难性的。以下是数据重复影响数据科学的一些方式。
存储空间。这是数据重复的直接成本。冗余副本消耗了本地硬盘、服务器和云存储上的宝贵容量,从而导致更高的成本。想象一下,一个部门拥有 10 TB 的数据,10% 是重复的。这意味着浪费了数 TB 的存储空间,可能会带来巨大的成本,特别是如果它位于基于云技术的主存储而不是归档存储中。
数据去重工具。另一个硬成本,数据去重工具可以清除存储卷中的重复项。这些服务和工具通常基于每个记录的卷。因此,需要删除的重复性数据越多,成本就越高。
倾斜数据。重复的记录会产生不准确的指标,从而导致数据分析和可视化出现错误。例如,假设一个新客户被输入两次到名称稍有不同的销售数据库中,或者两个管理员输入了相同的采购订单。
上述每个要素也需要昂贵的工作人员工作。必须维护存储卷。需要评估、购买和运行数据去重系统。如果数据有偏差,就需要删除记录和清理数据库。如果不良数据转发到进一步的报告或通信中,则所有后续工作都必须回溯和撤消,然后进行修复。
如果不加以控制,无意中复制的文件和数据库记录可能会导致整个组织出现问题。以下是数据重复出现的一些常见的问题。
通过共享驱动器、物联网设备、导入的公共和合作伙伴数据、分层云存储、更强大的复制和灾难恢复以及无数其他来源,企业拥有的数据比以往任何时候都多。这带来了更多的重复机会,这意味着组织应该优先考虑战略,以尽可能减少创建重复的数据,并在传播时消除重复数据。
实现这个目标的一些常见的策略如下:
随着组织变得越来越数据驱动,消除重复数据变得越来越必要和有益。采取主动措施尽可能减少冗余,可以优化存储基础设施,提高数据管理效率,提高合规性,并为其他优先事项释放资金和员工资源。
以下详细介绍了数据去重的一些常见的好处:
尽可能减少数据重复问题的好方法是先防止出现重复问题。Oracle HeatWave 将在线事务处理、跨数据仓库和数据湖的实时分析、机器学习 (ML) 和生成式 AI 整合到一个云技术服务中。客户可以通过多种方式获益。
总体而言,数据去重可打破信息孤岛,提高数据可访问性,并促进协作环境,让团队可以利用组织的集体数据洞察来制定更明智的决策。您可以避免营销团队使用包含客户联系信息的 CRM 系统,而销售团队使用具有类似数据的单独销售线索管理系统的情况。消除重复的计划可以整合这些信息,让两个团队都可以访问统一的客户视图,并更有效地协作开展营销活动和销售推广。
希望利用 AI 的潜力?这一切都取决于您的数据基础设施。这本全面的指南为 CIO 提供了充分利用数据和 AI 来制定战略决策、优化运营并获得竞争优势的策略。
数据重复的未来趋势是什么?
随着技术能力的不断发展,IT 越来越有能力尽可能减少重复数据量。这些进步的一些例子包括:
如何监控数据重复?
可使用不同的策略来监视和识别重复数据。其中包括数据分析、数据匹配和数据编目等工具。用于传入数据源的数据清理工具可以提供一定程度的识别,而专门的数据数据去重工具可以发现和消除重复性数据。
数据重复会带来哪些挑战?
数据重复会为各种规模的企业都构成重大挑战。其中一个明显的问题是浪费了存储空间。重复的副本消耗了服务器、硬盘驱动器和云存储的宝贵容量,从而导致更高的成本。对于需要识别重复项、确定主要版本以及删除冗余副本的 IT 员工来说,跨系统管理重复数据也非常耗时。过多的重复性数据也会降低系统的速度,因为分散在存储位置上的重复文件访问和检索所需的时间较长。
当更新未应用于所有副本时,也会出现数据不一致。这可能会导致报告不准确、基于过时信息而浪费工作量,以及当不同的团队依赖相互冲突的数据集时会出现混乱。重复数据可能会使您难以遵守需要准确数据保留和删除实践的法规,从安全角度来看,您拥有的数据越多,攻击面就越大。
拥有重复数据是否有任何好处?
故意复制的数据(例如备份和归档)对于与业务连续性和灾难恢复相关的功能具有许多优势。为了成功使用重复数据,组织必须采用有助于确保将重复数据保留到特定和有限量的战略方法,从而防止过度使用资源和其他问题。
注:为免疑义,本网页所用以下术语专指以下含义:
