结构化数据类型与非结构化数据类型

了解结构化和非结构化数据类型之间的区别

结构化和非结构化数据有何区别？您应该怎么看？对于许多企业和组织，此类区别可能感觉仅属于处理大数据的 IT 部门。

尽管存在一些事实，但每个人都应该了解差异，因为一旦掌握了结构化和非结构化数据的定义（以及数据的存在和处理方式），您将了解如何使用此定义来改进数据驱动的流程。

销售、营销、运营和人力资源 - 所有这些组都生成数据。即使是小型企业，例如包含实物库存的实体店和本地客户群的实体店，也会从电子邮件、信用卡交易、库存采购和社交媒体等方面生成结构化和非结构化数据。利用企业生成的数据，了解两者以及它们如何协同工作。

什么是结构化数据？

结构化数据是使用预定义和预期格式的数据。这可能来自许多不同的来源，但共同的因素是，字段是固定的，就像它存储的方式一样（因此，结构化）。通过这种预先确定的数据模型，可以轻松地进行输入、查询和分析。

例如，考虑在线购买的交易数据。在此数据中，每条记录都有一个时间戳、购买金额、关联的账户信息（或来宾账户）、购买的货品、付款信息和确认编号。由于每个字段都具有定义的用途，因此可以轻松地手动查询（相当于在 Excel 电子表格中命中 CTRL+F）此数据。机器学习算法还可以轻松识别模式，在许多情况下，识别这些模式之外的异常。

结构化数据向下钻取到已建立和预计的元素。时间戳将以定义的格式到达；它不会（或不能）传输用文字描述的时间戳，因为这是结构之外的。预定义的格式允许轻松扩展和处理，即使最终在手动级别进行处理也是如此。

只要来源定义结构，结构化数据便可用于任何用途。企业中常见的一些用途包括 CRM 表单、在线交易、股票数据、公司网络监控数据和网站表单。

什么是非结构化数据？

正如结构化数据随定义而来，非结构化数据缺乏定义。非结构化数据可以采用所有配置和大小，而不能以有目的的格式预定义字段。尽管通常为文本（如表单中的打开文本字段），但非结构化数据可以采用多种形式存储为对象：图像、音频、视频、文档文件和其他文件格式。包含所有非结构化数据的公用线程缺乏定义。

非结构化数据更普遍可用（详见下文），字段可能没有与结构化数据相同的字符或空间限制。考虑到由非结构化数据构成的广泛格式，这种类型通常占组织数据的 80% 左右并不奇怪。

媒体文件是非结构化数据的示例。像播客这样的内容没有结构。默认情况下，搜索播客的 MP3 文件并不容易；元数据（如文件名、时间戳和手动分配的标记）可能有助于搜索，但音频文件本身缺少上下文而无需进一步分析或关系。

这也适用于视频文件。如今，视频资产无处不在，从社交媒体上的简短片段到显示完整网络研讨会或讨论的大型文件。与播客 MP3 文件一样，此数据的内容在元数据之外缺乏具体性。您根本无法根据数据库中的实际内容搜索特定的视频文件。

结构化和非结构化数据如何协同工作？

在当今数据驱动的商业环境中，使用结构化和非结构化数据是一种发展洞察的好方法。我们再来看一下公司的社交媒体帖子示例，特别是带有某种形式媒体附件的帖子。组织如何发展对营销互动的洞察？

首先，使用结构化数据按最高参与度对社交媒体帖子进行排序，然后筛选出与营销无关的主题标签（例如，删除具有与客户服务相关的主题标签的任何高参与度帖子）。从那里，可以检查相关的非结构化数据 - 实际的社交媒体帖子内容 - 查看消息传递、媒体类型、语调和其他元素，从而深入了解帖子生成互动的原因。

这可能听起来像涉及到大量的人工劳动，这是几年前的。但是，机器学习和人工智能的进步使自动化水平得以提高。例如，如果通过自然语言处理运行音频文件来创建语音到文本输出，则可以分析文本以了解关键字模式或正/负消息传递。这些洞察由于先进的工具变得越来越重要，因为大数据越来越大，而大多数大数据都是非结构化的，所以这些工具变得越来越重要。

数据来自何处及其位置

目前，数据是从许多不同的来源生成的。我们来看一个具有标准电子商务设置的中型企业。在这种情况下，数据可能来自以下领域：

交易数据
客户账户数据
库存采购
物流跟踪
社交媒体互动
内部 HR 数据
搜索引擎搜索关键词

还有更多的数据源。事实上，现在任何公司提取的数据量都令人惊叹。你不必成为大数据革命的一部分的大公司。但是，如何处理这些数据是能够利用数据的关键。在许多情况下，最好的解决方案是数据湖。

数据池是接收结构化和非结构化数据的资料档案库。通过将多个数据输入整合到一个源中，数据湖成为任何大数据基础设施的重要组成部分。当数据进入数据湖时，任何固有结构都会被剥离出来，以使其成为原始数据，从而轻松扩展和灵活。在读取和处理数据时，会根据需要为其提供结构和方案，从而平衡卷和效率。

了解 Oracle Big Data

了解有关 Oracle 大数据的更多信息

注：为免疑义，本网页所用以下术语专指以下含义：

除Oracle隐私政策外，本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国。
相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。