简而言之,数据目录就是关于企业数据资产的一个有序清单。它可以使用元数据来帮助企业管理数据,帮助数据专业人员收集、组织、访问和充实元数据,从而为数据发现和治理提供支持。
在上文我们简单介绍数据目录的定义,也就是使用元数据来帮助企业管理数据。接下来,我们使用图书馆作类比,带您详细了解数据目录。
当您前往图书馆查找某一图书时,您可以使用图书目录来查找该图书是否存在,了解它的版本、位置以及相关描述。您可以使用所有这些信息来决定是否真的需要这本书,了解如何找到它。
当今的许多对象存储、数据库和数据仓库就相当于一座座图书馆。
我们再回到图书馆和图书目录。现在,我们对图书目录进行扩展,涵盖整个国家的所有图书馆。想象一下,这样您就可以在一个界面中查找整个国家中储藏了您所需图书的所有图书馆,查找关于您所需的每一本图书的所有详细信息。
企业数据目录之于数据,正如图书目录之于图书。它可以为您提供一个整体视图,提供关于您所有数据的深度可见性,而不仅仅是一次只查看某一项数据。
您为什么需要这样一个视图呢?
与过去相比,想从如今前所未有的数据海洋中找到正确的数据更加困难。同时,关于数据的监管条例和法规(例如 GDPR)也比过去更多、更严格。
在这一背景下,除了数据访问之外,数据治理也成为了一个严峻的挑战。您不仅要了解当前您所拥有数据的类型、哪些人在移动数据、数据的用途以及如何保护数据,还必须避免过多的数据层和封装,避免数据因太难使用而毫无用处。
遗憾的是,很多企业和用户在查找和访问数据上面临着很多问题,包括:
数据工程师、数据科学家、数据管理员和首席数据官等用户无不受到以上数据管理问题的困扰,无不希望能够轻松访问可靠的数据。他们面临的一些常见的挑战包括:
数据工程师想知道任意更改将对整个系统产生哪些影响,他们可能会问:
数据科学家希望能够轻松访问数据并进一步了解数据质量,他们想了解以下信息:
数据管理员负责管理数据流程,关注概念、利益相关者间协议以及数据生命周期管理。他们希望了解:
首席数据官关心哪些人在组织中做了哪些事,一般不使用数据目录。但是,他们仍然希望了解:
有了数据目录,这些问题就能迎刃而解。
在过去几年中,随着需要管理和访问的数据的数量日益增长,数据目录这一概念开始流行起来。在这一切的背后,是云技术、大数据分析、人工智能和机器学习正逐渐改变人们查看、管理和使用数据的方式 — 不仅要管理数据,还要访问和充分利用数据。
使用数据目录,您可以更好地使用数据,获得以下优势:
这些只是数据目录的一部分使用场景。实际上,数据目录的使用方式多种多样。从根本上说,它的宗旨就是提供更广泛的数据可见性和更深入的数据访问支持。
自助分析:许多用户难以找到正确的数据,同时,除了查找数据外,他们还难以判断数据是否有用。例如,您可能会发现一个名为 customer_info.csv 的文件,而又恰好需要一个关于客户的文件。但这并不意味着它就是您需要的,它可能只是 50 个类似文件中的一个。同时,该文件可能包含许多字段,您可能并不了解所有这些数据元素代表什么。对此,您需要通过一种更简单的方法来查看数据的业务上下文,例如它是否是来自正确的数据存储的托管资源以及它与其他数据工件之间的关系。
数据发现还包括通过各种方式来理解数据的形态和特征,例如简单的值分布和统计信息,或者重要且复杂的个人身份信息 (PII) 或个人健康信息 (PHI)。
审计、合规和变更管理:随着关于数据的政府监管法规数量不断增长,企业经常需要证明数据的来源,例如特定数据工件的来源,或在实现最终目标之前进行了哪些数据转换;在查看表格、报告或文件时,数据用户通常也希望理解数据的具体来源以及数据通过各种方式在整个组织中的移动过程。同时,对于变更管理来说,一项重要任务就是查看数据管道中某部分的变更将如何影响系统的其他部分。这就是为什么客户希望详细了解数据沿袭的原因。
使用业务术语表增强数据治理:如今大多数企业都建立了一个所有人都认可的术语表,就业务概念达成了一致。通常,业务术语表记录在 Excel 工作簿中。其实,数据目录比 Excel 工作簿更适合存储和管理这一重要业务信息。
此外,数据目录还支持在业务术语之间建立链接,从而创建分类;可以记录业务术语与实物资产(例如表和列)之间的关系;可以帮助用户理解哪些业务概念与哪些技术工件相关;可以帮助用户按业务概念线对数据资产分类,随后直接使用业务概念(而不是技术名称)来进行数据搜索和发现。数据目录让用户可以看到与数据相关的所有内容,增强对所查看内容的信任度,为数据治理奠定一个绝佳的起点。
许多人可能不熟悉元数据,我们有必要先介绍一些简单的概念。什么是元数据?元数据分为 3 类:
在过去几年里,这些宝贵的元数据的使用方式发生了一次细微的变革。曾经,元数据仅用于审计、来历追溯和报告。如今,无服务器处理、图形数据库等技术创新,尤其是全新、更加便捷的 AI 和机器学习技术正在突破元数据的界限,带来新的可能。
在今天,元数据可增强数据管理。从自助数据准备到角色和数据内容库访问控制,自动化数据打通,异常监视和警报,自动化资源供应和扩展等等,元数据可以全面增强所有这些功能。
数据目录可以使用元数据帮助您实现比数据管理更强大的功能。
一个优秀的数据目录应当具备以下功能:
数据搜索和发现:数据目录应当具备灵活的搜索和过滤选项,从而赋能用户快速找到相关数据集,以实施数据科学、分析或数据工程;按照数据资产的技术层级来浏览元数据。此外,如支持用户输入技术信息、自定义标签或业务术语,数据目录可以进一步改善搜索功能。
从各种数据源收集元数据:请确保您的数据目录可以从各种互联数据资产中收集技术元数据,包括对象存储、自治驾驶数据库、本地部署系统等等。
元数据管理:数据目录应支持主题专家通过企业业务术语表、标签、关联、用户自定义注释、分类、评级等形式来贡献业务知识。
自动化和数据智能: 对于大规模数据,人工智能和机器学习通常必不可少。因此,数据目录应利用 AI 和机器学习技术来处理所收集的元数据,让所有可以自动化的手动任务都实现自动化。此外,人工智能和机器学习还可以切实增强数据功能,例如为数据目录用户以及现代化数据平台上其他服务的用户提供数据建议。
企业级功能:您需要利用强大的企业级功能来正确使用您至关重要的数据资产,例如身份与访问管理功能以及基于 REST API 的重要功能。同时,这还意味着客户和合作伙伴可以贡献元数据(例如自定义收集器),通过 REST 公开其应用中的数据目录功能。
除此之外,您的数据目录还应当成为事实上的系统目录,从而为所有持久层(例如对象存储、Hadoop、数据库和数据仓库)以及跨所有数据存储运行的查询服务提供抽象。
正是因为如此,数据目录已不再仅仅是锦上添花,而是成为了一项必不可少的工具。
如今每一家企业都应拥有一个强大的数据目录。为什么要选择 Oracle Cloud Infrastructure 数据目录呢?
所有 Oracle Cloud Infrastructure 订阅均随带 Oracle Cloud Infrastructure 数据目录,可帮助客户组织和管理数据资产。它可以为数据专业人员提供一个统一的协作式解决方案,在组织和管理数据之外收集、访问、充实和激活技术、业务及操作元数据,为 Oracle Cloud 以及更多其他来源的可信数据资产提供自助式数据发现和治理支持。
它具备以下实用功能:
如今许多组织都在努力转型成为数据驱动型企业,希望实现更加快速、强大的数据分析,而又不影响数据治理。在这一背景下,数据管理正成为一项日益重要但又极富挑战的工作。数据目录可以简化数据管理,更加轻松地满足众多需求。凭借 Oracle Cloud Infrastructure 数据目录,Oracle 将采取措施,帮助每一个用户按照自己所需的方式来发现和使用数据。
注:为免疑义,本网页所用以下术语专指以下含义: