Oracle 大数据

大数据介绍
什么是大数据?
 

大数据的定义

 

什么是大数据? (2:32)

如今几乎所有人都在谈论大数据,希望了解大数据工作原理,通过广泛的大数据用例增强企业优势,那么到底 什么是大数据

在 2001 年左右,Gartner 就大数据提出了如下定义(目前仍是关于大数据的权威解释):大数据指高速 (Velocity) 涌现的大量 (Volume) 的多样化 (Variety) 数据。这一定义表明大数据具有 3V 特性。

简而言之,大数据指越来越庞大、越来越复杂的数据集,特别是来自全新数据源的数据集,其规模之大令传统数据处理软件束手无策,却能帮助我们解决以往非常棘手的业务难题。

大数据的 3V 特性

大量 (Volume)

大数据的“大”首先体现在数据量上。在大数据领域,您需要处理海量的低密度的非结构化数据,数据价值可能未知,例如 Twitter 数据流、网页或移动应用点击流,以及设备传感器所捕获的数据等等。在实际应用中,大数据的数据量通常高达数十 TB 乃至数百 PB。

高速 (Velocity)

大数据的“高速”指高速接收乃至处理数据 — 数据通常直接流入内存而非写入磁盘。在实际应用中,某些联网的智能产品需要实时或近乎实时地运行,要求基于数据实时评估和操作,而大数据只有具备“高速”特性才能满足这些要求。

多样化 (Variety)

多样化是指可用数据的类型众多。通常来说,传统数据属于结构化数据,能够整齐地纳入关系数据库中。 随着大数据的兴起,各种新的非结构化和半结构化数据类型不断涌现,例如文本、音频和视频等等,它们需要经过额外的预处理操作才能真正提供洞察和支持性元数据。

大数据的价值和真实性

在过去几年里,大数据的定义又新增加了两个 "V":价值 (Value)真实性 (Veracity)

首先,数据固然蕴含着价值,但是如果不通过适当方法将其价值挖掘出来,数据就毫无用处。其次,只有真实、可靠的数据才有意义。

如今,大数据已成为一种资本,全球各个大型技术公司都基于大数据工作原理,在各种大数据用例中通过持续分析数据提高运营效率,促进新产品研发,他们所创造的大部分价值无不来自于他们掌握的数据。

目前,众多前沿技术突破令数据存储和计算成本呈指数级下降。相比过去,企业能够以更低的经济投入更轻松地存储更多数据,而凭借经济、易于访问的海量大数据,您可以轻松做出更准确、更精准的业务决策。

然而,从大数据工作原理角度来讲,大数据价值挖掘是一个完整的探索过程而不仅仅是数据分析,它需要富有洞察力的分析师、业务用户和管理人员在大数据用例中有针对性地提出有效问题、识别数据模式、提出合理假设并准确开展行为预测。

那么怎样才能实现这个目标呢?

下载白皮书:

大数据的历史

虽然大数据这个概念是最近才提出的,但大型数据集的起源却可追溯至 1960 - 70 年代。当时数据世界尚处于萌芽阶段,全球第一批数据中心和首个关系数据库便是在那个时代出现的。

2005 年左右,人们开始意识到用户在使用 Facebook、YouTube 以及其他在线服务时生成了海量数据。 同一年,专为存储和分析大型数据集而开发的开源框架 Hadoop 问世,NoSQL 也在同一时期开始慢慢普及开来。

Hadoop 及后来 Spark 等开源框架的问世对于大数据的发展具有重要意义,正是它们降低了数据存储成本,让大数据更易于使用。在随后几年里,大数据数量进一步呈爆炸式增长。时至今日,全世界“用户”— 不仅有人,还有机器 — 仍在持续生成海量数据。

随着物联网 (IoT) 的兴起,如今越来越多的设备接入了互联网,它们大量收集客户的使用模式和产品性能数据,而机器学习的出现也进一步加速了数据量的增长。

然而,尽管已经出现了很长一段时间,人们对大数据的利用才刚刚开始。今天,云计算进一步释放了大数据的潜力,通过提供真正的弹性/可扩展性,它让开发人员能够轻松启动 Ad Hoc 集群来测试数据子集。

大数据和数据分析的优势:

  • 大数据意味着更多信息,可为您提供更全面的洞察。
  • 更全面的洞察意味着更高的可靠性,有助于您开发全新解决方案。
 

更多大数据资源:


大数据用例

从客户体验到智能分析,大数据可帮助您轻松处理各种业务活动。以下是企业运营中的常见大数据用例。(更多用例请参阅 Oracle 大数据解决方案。)

产品开发
在当今时代,Netflix 和 Procter & Gamble 等公司普遍利用大数据预测客户需求。 他们对过去及当前产品或服务的关键属性进行分类,对这些属性和商业成功产品进行关系建模,进而构建新产品和新服务预测模型。 此外,P&G 还根据来自焦点小组、社交媒体、试销市场和前期铺货的数据和分析结果来规划、生产和发布新产品。

预测性维护
各种结构化数据(例如设备年份、品牌、型号等信息)以及非结构化数据(包括数以百万计的日志条目、传感器数据、错误消息和引擎温度)中往往深藏着可供预测机械故障的信息,通过分析这些数据,企业可在事故发生前识别潜在问题,从而更加经济高效地安排维护活动,最大限度地延长零部件和设备的正常运行时间。

客户体验
当今市场竞争的核心在于赢得客户。相比过去,如今企业更有条件清楚地了解客户体验。其中,大数据让您能够通过社交媒体、网站访问、呼叫记录以及其他来源收集数据,进而改善客户互动,为客户提供个性化产品,降低客户流失率,主动解决问题,最终以卓越体验创造更多价值。

欺诈和合规性
在今天,您的系统面临的威胁远不止几个心怀不轨的黑客,还有人员配置完善的专家团队,此外,安全形势与合规要求也在不断变化,带来了重重挑战。借助大数据,您可以通过识别数据模式发现欺诈迹象,在汇总海量信息的基础上加速生成监管报告。

机器学习
机器学习是当今的一个热门话题,而数据(特别是大数据)正是这一现象背后的重要推动因素之一。通过利用大数据训练机器学习模型,我们能够“训练”机器使之具备特定能力而无需为其编写程序。

运营效率
运营效率通常来说不算是一个热门话题,但大数据在该领域的影响却最为深远。借助大数据,您可以深入分析和评估生产、客户反馈、退货率以及更多其他问题,从而减少缺货现象,预测未来需求,还可以利用大数据根据当前市场需求改善决策。

推动创新
大数据有助于您研究人、组织、实体以及流程之间的相互关系,进而基于深度洞察以全新方式推动创新。在大数据的帮助下,您可以有效改善财务和企业计划决策,验证趋势和客户需求,更好地为客户提供新产品和新服务,还可以实施动态定价,从而实现收益最大化。简而言之,大数据将打开创新世界的大门,为您带来无穷的可能性。


大数据的挑战

大数据蕴含着无穷潜力,同时也带来了诸多挑战。

首先,大数据体量庞大。虽然如今人们针对数据存储开发了许多新技术,但数据量却在以每两年 翻一番的速度增长。目前,各企业都在努力应对数据的快速增长,在不断寻找更高效的数据存储方式。

其次,仅存储数据是不够的。 数据的价值在于运用,而这取决于数据管理。目前,我们需要做很多工作才能获得清洁数据,也就是与客户密切相关并以有利于分析的方式整理的数据,例如数据科学家在真正开始使用数据之前,通常要耗费 50% 到 80% 的时间来管理和准备数据。

最后,大数据技术的更新速度非常快。 几年前,Apache Hadoop 是最流行的大数据处理技术。2014 年,Apache Spark 问世。如今,只有结合这两种框架才能打造出最佳解决方案。总而言之,紧跟大数据技术的发展脚步是一项持久性挑战。

更多大数据资源:

 

大数据的工作原理

大数据可为您提供全新洞察,带来新的商机和业务模式,那么大数据的工作原理是什么呢?

集成

大数据首先需要将来自不同来源和应用的数据汇集在一起,而提取、转换和加载 (ETL) 之类的传统数据集成机制通常无法胜任这项工作。换言之,我们需要新的策略和技术来分析 TB 甚至 PB 级的大数据集。

在集成期间,您需要导入和处理数据、执行格式化操作,以符合业务分析师要求的适当形式整理数据。

 

管理

大数据需要妥善存储。首先,存储解决方案既可以部署在本地,也可以部署在云端。其次,您可以采用任何形式存储数据,根据需要为数据集设置处理要求,引入必要的处理引擎。目前,许多客户都不得不根据数据当前所在位置来选择存储方案。对此,云解决方案不仅能够满足客户当前的计算需求,同时还支持用户按需、快速地访问所有数据,因此越来越受到人们的青睐。

分析

只有真正分析数据并根据数据数据洞察采取有效行动,您的大数据投资才会取得回报。您可以:对各种数据集进行可视化分析以获得全新理解;进一步探索数据以获得全新洞察;与他人分享您的洞察;结合机器学习和人工智能来构建数据模型。立即行动起来,释放您的数据价值!

大数据优秀实践

为帮助您成功开启大数据之旅,我们基于大数据工作原理,从各种大数据用例中总结了一些重要的优秀实践。

   
协调大数据与特定业务目标

更广泛的数据集更有助于您获得全新洞察。为此,您首先需要进行新的技能、组织和基础设施投资,在一种业务驱动的环境中保证项目持续获得投入和资金。其次,为确保正确实施,请评估您的大数据能否真正支持并促进您的关键业务和 IT 工作,包括:了解如何筛选 Web 日志以揭示电子商务行为;通过社交媒体和客户支持互动洞察客户舆情;了解统计学相关性方法,以及它们对于客户、产品、制造和工程数据的重要意义。

通过标准化和有效治理缓解技能短缺

企业实施大数据的一大重要障碍是技能不足。首先,通过在 IT 治理计划中添加大数据技术、大数据考量和决策,您可以缓解这一风险。其次,标准化有助于更好地管理成本和充分利用资源。第三,为顺利实施大数据战略和解决方案,请及早并定期评估大数据技能需求,主动识别潜在技能缺失。第四,您需要培训 / 交叉培训现有人员、招聘新人员,并在必要时寻求咨询公司的支持。

通过卓越中心优化知识转移

通过设立卓越中心来分享知识、控制监管、管理项目沟通,无论大数据项目是全新投资还是扩展性投资,您都可以在整个企业范围内分摊所有软件和硬件成本,以一种更加结构化和系统化的方法扩展大数据功能和高度成熟的整体信息架构。

通过协调结构化和非结构化数据获得最大回报

大数据分析可以带来价值,但将低密度的大数据与您目前使用的结构化数据整合到一起,您可以获得更有意义的深度洞察。

在实际应用中,无论是捕获客户、产品、设备还是环境大数据,您的目标都是向核心主数据和分析摘要添加更多相关数据点,从而得出更准确的结论。例如,相比所有客户的舆情,仅优质客户的舆情更加细化,更有针对性。因此,许多人将大数据视为其现有商务智能功能、数据仓储平台以及信息架构的重要扩展。

对此,大数据既可以基于人也可以基于机器来构建分析流程和模型。利用分析模型以及大数据分析功能(包括统计、空间分析、语义、交互式探索以及可视化),您可以将不同类型和来源的数据关联起来,得出有意义的洞察。

打造高效的探索实验室

探索数据价值绝非一条坦途,有时甚至没有一个明确的前进方向。尽管如此,管理团队和 IT 部门仍然需要为这种 “漫无目的” 或者 “缺乏明确需求” 的探索活动提供应有的支持。

与此同时,分析师和数据科学家也需要与业务部门密切合作,在合作过程中确定自身需要哪些关键业务知识及存在哪些知识缺口。最后,为了实施交互式数据探索和统计算法试验,您需要一个高效的工作区,需要为沙盒环境提供支持并进行适当监管。

与云上运营模式保持一致

大数据流程和用户需要访问各种资源来进行迭代试验和开展常规工作,且涉及所有数据区域,包括事务、主数据、参考数据以及摘要数据等等。对此,您需要根据需要建立分析沙盒。同时,资源管理对于整个数据流(包括预处理和后处理、集成、数据库内汇总和分析建模)的控制也至关重要。最后,妥善规划的私有云和公有云供应及安全性策略对于满足这些不断变化的需求也有着非常重要的意义。