您的搜索操作未匹配到任何结果。
我们建议您尝试以下操作,以帮助您找到所需内容:
以下是对数据科学的简单定义:
数据科学涉及统计学、科学方法和数据分析等多个领域,可从数据中提取价值。
在实践中运用数据科学的人称为数据科学家,他们可综合利用一系列技能来分析从网络、智能手机、客户、传感器和其他来源收集的数据。
数据科学是当今最激动人心的领域之一。它何如此重要?
因为企业坐拥海量数据。随着现代技术的发展,越来越多的信息得以创造和存储,数据量也随之激增。据估计,世界上 90% 的数据是在过去两年中创造的。例如,Facebook 用户每小时上传 1000 万张照片。
但是,这些数据通常只是位于数据库和数据湖中,大部分未得到充分利用。
通过技术收集和存储的大量数据可以为世界各地的组织和社会带来变革性的好处,但前提是我们能够对其进行解释。这就是数据科学的意义所在。
数据科学揭示趋势并产生见解,企业可以利用这些见解做出更好的决策并推出更多创新产品和服务。最重要的是,数据科学让机器学习 (ML) 模型能够从收集的大量数据中学习,而不必依靠业务分析人员来手动查看能从数据中发现些什么。
数据是创新的基石,但是只有数据科学家能从数据中收集信息,然后采取行动,才能实现数据的价值。
为了更深入地了解数据科学以及如何利用它,了解与该领域相关的其他术语也同样重要,如人工智能 (AI) 和机器学习。您会发现这些术语经常可以互换使用,但仍有一些细微差别。
简单区分如下:
为了更好地区分,我们将引入另一个定义::
企业正利用数据科学完善产品和服务,将数据转化为竞争优势。数据科学和机器学习用例包括:
许多公司都把数据科学作为重中之重,并在这方面投入巨资。在 Gartner 近期对 3000 多位 CIO 开展的调查中,受访者将分析和商务智能列为其企业内颇具差异化优势的技术。受访 CIO 认为这些技术对其公司具有战略性意义,所以进行了相应投资。
数据分析和处理流程是迭代的,而不是线性的,但这正是数据建模项目中典型的数据科学生命周期流程:
构建、评估、部署和监控机器学习模型是一个复杂的流程。为了应对这些复杂性,数据科学工具越来越多。在数据科学家使用的多种工具中,最常见的一种是开源笔记本。这是一款用于编写和运行代码、可视化呈现数据并查看结果的 web 应用,所有功能均可在同一环境中实现。
一些主流笔记本工具主要包括 Jupyter、RStudio 和 Zeppelin。笔记本工具虽然在执行分析方面非常有用,但在支持数据科学家进行团队协作方面却有一定的局限性。而数据科学平台的出现解决了这一问题。
要确定哪种数据科学工具最适合您,请先回答以下问题:您的数据科学家使用哪种语言?他们喜欢什么样的工作方法?他们使用哪种数据源?
例如,某些用户更喜欢使用基于开源库的、与数据源无关的服务。另一些用户则更喜欢速度更快的数据库内机器学习算法。
在大多数企业中,数据科学项目通常由三类管理者监管:
但在这个过程中,数据科学家才是主角。
作为一门专业,数据科学还很年轻。它源自于统计分析和数据挖掘领域。数据科学期刊 于 2002 年首次发行,由国际科学委员会:科学和技术数据委员会出版。2008 年,“数据科学家”的头衔出现了,数据科学领域迅速发展起来。从此以后,尽管越来越多的学院和大学开始设立数据科学学位,但数据科学家依然短缺。
数据科学家的职责包括:制定数据分析策略;准备要分析的数据;探索、分析数据并实施数据可视化;使用 Python 和 R 等编程语言用数据构建模型;将模型部署到应用中等。
数据科学家的工作不是独立的。事实上,较有效的数据科学是在团队中完成的。除了数据科学家,该团队可能还包括负责定义问题的业务分析师、负责准备数据和确定数据访问方式的数据工程师、负责基本流程和基础设施的 IT 架构师,以及负责将模型或分析结果部署到应用和产品中的应用开发人员。
尽管许多企业看到了数据科学的前景并对数据科学团队投入了巨额资金,但他们并未意识到数据的全部价值。在人才招聘和数据科学项目创建竞争中,某些公司采用的团队工作流程效率低下。不同的人使用不同的工具和流程,无法高效协同工作。如果不进行更严格、更集中的管理,高管们可能无法获得全面的投资回报。
这种混乱的环境带来了很多挑战。
数据科学家不能有效地工作。由于访问数据需经 IT 管理员授权,因此数据科学家往往要等待很长时间才能获得其需要分析的数据和资源。获得访问权限后,数据科学团队可能会使用多种不兼容的工具来分析数据。例如,数据科学家可能使用 R 语言开发一个模型,但使用该模型的应用却是用另一种语言编写的。这就是为什么将模型部署到有效的应用中可能需要几周甚至几个月的时间。
应用开发人员无法获得可用的机器学习。有时,开发人员接收到的机器学习模型并不能直接部署到应用中。而且,由于接入点不灵活,无法在所有场景中部署模型,应用开发人员还需要解决可扩展性问题。
IT 管理员在支持工作上花费太多时间。由于开源工具激增,IT 需要支持的工具越来越多。例如,营销团队和金融团队的数据科学家可能使用不同的工具。不同团队的工作流程也可能不同,这意味着 IT 团队必须不断重建和更新环境。
业务经理与数据科学脱节。数据科学工作流程并不总是会集成到业务决策流程和系统中,这导致业务经理难以与数据科学家进行信息全面的协作。由于集成欠佳,业务经理难以理解为何从原型到生产需要如此长的时间,他们就不太可能支持投资自己认为太慢的项目。
许多企业已经意识到,缺少了集成平台的数据科学工作是低效、不安全且难以扩展的。这种认识促成了数据科学平台的兴起。数据科学平台是所有数据科学工作所围绕的软件中心。一个优秀的平台可以减少数据科学实施过程中的诸多挑战,帮助企业更快速、高效地将数据转化为洞察。
有了集中的机器学习平台,数据科学家可以使用他们喜欢的开源工具在协作环境中工作,并可通过版本控制系统同步所有工作。
数据科学平台支持团队共享代码、结果和报告,从而减少冗余并推进创新。它通过简化管理和融合优秀实践,消除了工作流程中的瓶颈。
总的来说,出色的数据科学平台可以:
数据科学平台专为支持用户协作而构建,这些用户包括数据科学专家、大众数据科学家、数据工程师和机器学习工程师或专家。例如,数据科学平台支持数据科学家将模型部署为 API,从而轻松将它们集成到不同的应用中。数据科学家无需等待 IT 干预即可访问工具、数据和基础设施。
市场对数据科学平台的需求激增。事实上,在接下来的几年里,平台市场预计将以超过 39% 的复合年增长率增长,在 2025 年将达到 3850 亿美元。
在考察数据科学平台的功能时,一些应考虑的关键功能包括:
如果您注意到出现以下情况,则表示您的企业是时候使用数据科学平台了:
数据科学平台可以为您的业务创造切实价值。Oracle 数据科学平台可提供丰富的服务以及全面的端到端体验,加速模型部署并改善数据科学成效。