结构化和非结构化数据有何区别?您应该怎么看?对于许多企业和组织,此类区别可能感觉仅属于处理大数据的 IT 部门。
尽管存在一些事实,但每个人都应该了解差异,因为一旦掌握了结构化和非结构化数据的定义(以及数据的存在和处理方式),您将了解如何使用此定义来改进数据驱动的流程。
销售、营销、运营和人力资源 - 所有这些组都生成数据。即使是小型企业,例如包含实物库存的实体店和本地客户群的实体店,也会从电子邮件、信用卡交易、库存采购和社交媒体等方面生成结构化和非结构化数据。利用企业生成的数据,了解两者以及它们如何协同工作。
结构化数据是使用预定义和预期格式的数据。这可能来自许多不同的来源,但共同的因素是,字段是固定的,就像它存储的方式一样(因此,结构化)。通过这种预先确定的数据模型,可以轻松地进行输入、查询和分析。
例如,考虑在线购买的交易数据。在此数据中,每条记录都有一个时间戳、购买金额、关联的账户信息(或来宾账户)、购买的货品、付款信息和确认编号。由于每个字段都具有定义的用途,因此可以轻松地手动查询(相当于在 Excel 电子表格中命中 CTRL+F)此数据。机器学习算法还可以轻松识别模式,在许多情况下,识别这些模式之外的异常。
结构化数据向下钻取到已建立和预计的元素。时间戳将以定义的格式到达;它不会(或不能)传输用文字描述的时间戳,因为这是结构之外的。预定义的格式允许轻松扩展和处理,即使最终在手动级别进行处理也是如此。
只要来源定义结构,结构化数据便可用于任何用途。企业中常见的一些用途包括 CRM 表单、在线交易、股票数据、公司网络监控数据和网站表单。
正如结构化数据随定义而来,非结构化数据缺乏定义。非结构化数据可以采用所有配置和大小,而不能以有目的的格式预定义字段。尽管通常为文本(如表单中的打开文本字段),但非结构化数据可以采用多种形式存储为对象:图像、音频、视频、文档文件和其他文件格式。包含所有非结构化数据的公用线程缺乏定义。
非结构化数据更普遍可用(详见下文),字段可能没有与结构化数据相同的字符或空间限制。考虑到由非结构化数据构成的广泛格式,这种类型通常占组织数据的 80% 左右并不奇怪。
媒体文件是非结构化数据的示例。像播客这样的内容没有结构。默认情况下,搜索播客的 MP3 文件并不容易;元数据(如文件名、时间戳和手动分配的标记)可能有助于搜索,但音频文件本身缺少上下文而无需进一步分析或关系。
这也适用于视频文件。如今,视频资产无处不在,从社交媒体上的简短片段到显示完整网络研讨会或讨论的大型文件。与播客 MP3 文件一样,此数据的内容在元数据之外缺乏具体性。您根本无法根据数据库中的实际内容搜索特定的视频文件。
在当今数据驱动的商业环境中,使用结构化和非结构化数据是一种发展洞察的好方法。我们再来看一下公司的社交媒体帖子示例,特别是带有某种形式媒体附件的帖子。组织如何发展对营销互动的洞察?
首先,使用结构化数据按最高参与度对社交媒体帖子进行排序,然后筛选出与营销无关的主题标签(例如,删除具有与客户服务相关的主题标签的任何高参与度帖子)。从那里,可以检查相关的非结构化数据 - 实际的社交媒体帖子内容 - 查看消息传递、媒体类型、语调和其他元素,从而深入了解帖子生成互动的原因。
这可能听起来像涉及到大量的人工劳动,这是几年前的。但是,机器学习和人工智能的进步使自动化水平得以提高。例如,如果通过自然语言处理运行音频文件来创建语音到文本输出,则可以分析文本以了解关键字模式或正/负消息传递。这些洞察由于先进的工具变得越来越重要,因为大数据越来越大,而大多数大数据都是非结构化的,所以这些工具变得越来越重要。
目前,数据是从许多不同的来源生成的。我们来看一个具有标准电子商务设置的中型企业。在这种情况下,数据可能来自以下领域:
还有更多的数据源。事实上,现在任何公司提取的数据量都令人惊叹。你不必成为大数据革命的一部分的大公司。但是,如何处理这些数据是能够利用数据的关键。在许多情况下,最好的解决方案是数据湖。
数据池是接收结构化和非结构化数据的资料档案库。通过将多个数据输入整合到一个源中,数据湖成为任何大数据基础设施的重要组成部分。当数据进入数据湖时,任何固有结构都会被剥离出来,以使其成为原始数据,从而轻松扩展和灵活。在读取和处理数据时,会根据需要为其提供结构和方案,从而平衡卷和效率。
Powered by Oracle Cloud 提供支持,可加快原始数据的管理和处理速度。从块存储到数据池,Oracle 提供了灵活的解决方案来处理结构化和非结构化数据。
注:为免疑义,本网页所用以下术语专指以下含义: