什么是数据挖掘?

2022 年 5 月 2 日

数据挖掘的定义

什么是数据挖掘?简单地说,这是在处理大量数据时发现洞察的过程。这些数据可能来自多个来源或单个数据库,并且可以通过手动发现或自动化来生成洞察。存在许多不同的方法来生成洞察,这通常取决于各种变量,例如资源、机器学习/人工智能功能、数据复杂性、数据量以及员工的培训和经验。这个过程涉及对数据的深入分析,以发现模式和潜在因素,所有这些都是为了得出结论并做出明智的决策。

大数据中的数据挖掘

在过去二十年中,数据挖掘的使用显著增加,因为更多的数据源提供了大数据环境。大数据是指海量数据,通常位于多个来源的连续流中,高速传输。在商务智能的早期阶段,数据表通常从设备导出,并手动准备以获得洞察力。但是,随着全球互联程度的提高,数据量可能变得过于庞大,无法进行人工分析,尤其是同时存在结构化和非结构化数据时。

数据挖掘是一个让大数据发挥作用的过程。如果没有数据挖掘,企业将从各种来源获得数 TB 的数据:物联网 (IoT) 设备、数据库、企业社交媒体、营销电子邮件、传感器、网站使用等,每个设备都有自己的元数据集。从物理上讲,梳理大量数据是不可能的。数据挖掘技术采用算法通过大量记录来识别模式,然后输出一组建议供团队采取行动。

一个简单的例子来自零售商的在线购物。在这些情况下,客户历史记录都编译成一个庞大的数据库。算法会从这些数据中筛选出相关数据,例如,只购买特定品牌的狗粮的人。该算法会查找相关购买的信息,例如补充剂或零食品牌。随着模式的出现,可以将此信息提供给营销团队,以创建触发与此特定品牌相关的促销。

数据挖掘的工作原理

以上部分从宏观角度解释了数据挖掘,但让我们探索数据挖掘的实际过程。自动处理和人工分析都用于充分利用数据挖掘,工作人员制定了指导方针,而机器学习和人工智能则筛选大量数据。通常,使用以下工作流:

  1. 目标:您的数据挖掘目标是什么?在所有利益相关者之间建立这一点是该流程中至关重要的一环。如果目标没有明确且经过深思熟虑地制定,那么整个努力可能不得不被放弃并重新开始。
  2. 数据准备:数据准备可以涉及广泛的过程,包括清理数据源,建立格式,以及清理异常和噪声数据集。
  3. 构建模型:然后,数据科学家将构建模型,并通过迭代开发和训练模型。在许多情况下,将构建和测试多个模型,以找到实现目标的合适路径。此评估流程需要采用广泛的方法进行验证,并采用交叉验证和接收器操作特性 (ROC) 曲线分析等技术。

构建数据挖掘模型后,是时候跨数据集进行部署了。需要主动监控,以确保没有意外或理由来调整和优化模型。如果一切按计划进行,则生成的数据应明确有效性和有用性的标准,并因此可供业务用户审查数据驱动的决策。

数据挖掘的使用场景

除了上述零售实例外,数据挖掘对于许多行业来说都是一个变革性的过程。下面的示例重点介绍了如何将数据挖掘应用于行业特定的需求。

面向医疗卫生行业的数据挖掘

数据挖掘可以通过改善和加速提供商和患者的体验来改变医疗卫生行业。提供商可以使用数据挖掘来加速和参与研究,了解运营数据以更好地支持人员配备需求,并识别保险和记录欺诈的危险信号。对于患者,数据挖掘可以识别驱动预防性护理选项的模式,确保在需要治疗之前就开始对话。它还可以识别事物中的隐藏模式,例如副作用,为更好地了解治疗如何受到患者特定和独特状况的影响打开了大门。


面向制造业的数据挖掘

对于制造行业,整个流程都会生成数据:物料采购、装配物流、质量控制、发运日期以及制造缺陷导致的退货。数据挖掘可以检查过程中的各个步骤和更大的图景。这使团队能够解决微观和宏观问题。

例如,数据挖掘可以确定某个特定供应商的发运时间较长,但总体缺陷较少,因此经理可以决定风险是否值得,因为可以并行运行步骤以减轻延迟的影响。另一方面,它还可以表明一个供应商始终如一地交付商品,但其较高的缺陷率会对流程产生更大的影响。数据挖掘可以创建这些连接,从而优化整个制造流程,而不是在真空中做出决策。


面向金融服务的数据挖掘

数据挖掘为金融服务提供商提供了许多优势,包括内部运营和客户体验。在运营方面,数据挖掘可以影响从人力资源到营销的一切。然而,对于该行业来说,数据挖掘可以尽可能降低 IT 风险,因为可用性和安全性是任何涉及财务的事情的重中之重。

在客户方面,数据挖掘既提供了保护性元素,也提供了更好的客户体验。跨交易模式的数据挖掘可以根据地理位置、一天中的时间、购买类别或所有这些情况来识别和标记看起来不寻常的事项。然后可以将结果转发给欺诈团队,看看是否需要跟进。对于最终用户,数据挖掘模式可以为专门的促销活动创建营销触发器,例如再融资或 HELOC 贷款。

面向企业的数据挖掘

从内部运营到客户服务,企业中的每个组织都可以从数据挖掘中受益。成功的数据挖掘始于拥有强大的基础设施来利用多个高速数据源。免费试用 Oracle Cloud Infrastructure,了解它如何为数据挖掘奠定基础。

注:为免疑义,本网页所用以下术语专指以下含义:

  1. 除Oracle隐私政策外,本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国 。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。