未找到结果

您的搜索操作未匹配到任何结果。

我们建议您尝试以下操作,以帮助您找到所需内容:

  • 检查关键词搜索的拼写。
  • 使用同义词代替键入的关键词,例如,尝试使用“应用”代替“软件”。
  • 请尝试下方显示的热门搜索之一。
  • 重新搜索。
热门问题

数据科学

以下是对数据科学的简单定义:

数据科学涉及统计学、科学方法和数据分析等多个领域,可从数据中提取价值。

在实践中运用数据科学的人称为数据科学家,他们可综合利用一系列技能来分析从网络、智能手机、客户、传感器和其他来源收集的数据。

数据:有待开发的机器学习资源

数据科学是当今最激动人心的领域之一。它何如此重要?

因为企业坐拥海量数据。随着现代技术的发展,越来越多的信息得以创造和存储,数据量也随之激增。据估计,世界上 90% 的数据是在过去两年中创造的。例如,Facebook 用户每小时上传 1000 万张照片。

但是,这些数据通常只是位于数据库和数据湖中,大部分未得到充分利用。

通过技术收集和存储的大量数据可以为世界各地的组织和社会带来变革性的好处,但前提是我们能够对其进行解释。这就是数据科学的意义所在。

数据科学揭示趋势并产生见解,企业可以利用这些见解做出更好的决策并推出更多创新产品和服务。最重要的是,数据科学让机器学习 (ML) 模型能够从收集的大量数据中学习,而不必依靠业务分析人员来手动查看能从数据中发现些什么。

数据是创新的基石,但是只有数据科学家能从数据中收集信息,然后采取行动,才能实现数据的价值。

数据科学、人工智能和机器学习有什么区别?

数据科学、人工智能和机器学习有什么区别?

为了更深入地了解数据科学以及如何利用它,了解与该领域相关的其他术语也同样重要,如人工智能 (AI) 和机器学习。您会发现这些术语经常可以互换使用,但仍有一些细微差别。

简单区分如下:

  • AI 是指让计算机模仿人类的某些行为。
  • 数据科学是 AI 的一个子集,更多地指统计学、科学方法和数据分析(均用于从数据中提取有意义的洞察)的重叠领域。
  • 机器学习也是 AI 的一个子集,可使用多种技术支持计算机从数据中获取洞察并交付 AI 应用。

为了更好地区分,我们将引入另一个定义::

  • 深度学习是机器学习的一个子集,可支持计算机解决更加复杂的问题

数据科学如何革新业务模式

数据科学与数据增长

企业正利用数据科学完善产品和服务,将数据转化为竞争优势。数据科学和机器学习用例包括:

  • 分析从呼叫中心收集的数据来确定客户流失情况,以便营销部门能够采取行动留住客户。
  • 通过分析交通模式、天气状况和其他因素提高效率,帮助物流公司加快交货速度并降低成本。
  • 分析医疗检测数据和报告症状以改善患者诊断,帮助医生尽早确诊疾病并更有效地开展治疗。
  • 通过预测设备故障时间来优化供应链
  • 检测金融服务中的欺诈行为,包括识别可疑行为和异常行为
  • 根据客户历史购买记录为其提供建议,从而提高销售业绩

许多公司都把数据科学作为重中之重,并在这方面投入巨资。在 Gartner 近期对 3000 多位 CIO 开展的调查中,受访者一致认为分析和商务智能是最能为企业带来差异化优势的技术。受访 CIO 认为这些技术对其公司具有战略性意义,所以进行了相应投资。

数据科学是如何执行的

数据科学是如何执行的

数据分析和处理流程是迭代的,而不是线性的,但这正是数据建模项目中典型的数据科学生命周期流程:

  • 规划:定义项目及其潜在成果。
  • 构建数据模型:数据科学家经常使用各种开源库或数据库内工具来构建机器学习模型。一般来说,用户希望使用 API 来支持数据摄取、数据剖析、可视化或功能设计。他们需要适当的工具来访问适当的数据和其他资源,如计算能力。
  • 评估模型:在部署模型前,数据科学家必须确保模型高度准确。模型评估通常会生成一套全面的评估指标,并以可视化方式呈现,然后根据新数据衡量模型绩效,持续对其进行排名,从而实现最佳生产行为。除了原始性能,模型评估将预期基线行为也纳入了考虑范围内。
  • 解释模型:虽然用人类语言来解释机器学习模型结果的内部机制并非始终具有可行性,但其重要性正日益凸显。数据科学家希望系统能够自动解释生成预测的因素的相对权重和重要性以及模型预测结果的特定模型解释细节。
  • 部署模型:采用经过训练的机器学习模型并将其置入合适的系统中通常是一个困难、费力的过程。通过将模型作为可扩展且安全的 API 来进行操作或使用数据库内机器学习模型,可以让这一过程变得更加简单易行。
  • 监控模型:很遗憾,部署模型并非流程的终点。模型部署后还需要对其进行监控,以确保它们正常运行。经过一段时间后,训练模型所使用的数据将不再适用于未来预测。以欺诈检测为例,犯罪分子总是会想出新方法来破解帐户。

数据科学工具

数据科学工具

构建、评估、部署和监控机器学习模型是一个复杂的流程。为了应对这些复杂性,数据科学工具越来越多。在数据科学家使用的多种工具中,最常见的一种是开源笔记本。这是一款用于编写和运行代码、可视化呈现数据并查看结果的 web 应用,所有功能均可在同一环境中实现。

一些主流笔记本工具主要包括 Jupyter、RStudio 和 Zeppelin。笔记本工具虽然在执行分析方面非常有用,但在支持数据科学家进行团队协作方面却有一定的局限性。而数据科学平台的出现解决了这一问题。

要确定哪种数据科学工具最适合您,请先回答以下问题:您的数据科学家使用哪种语言?他们喜欢什么样的工作方法?他们使用哪种数据源?

例如,某些用户更喜欢使用基于开源库的、与数据源无关的服务。另一些用户则更喜欢速度更快的数据库内机器学习算法。

谁来监督数据科学流程?

谁来监督数据科学流程?

在大多数企业中,数据科学项目通常由三类管理者监管:

  • 业务经理:业务经理与数据科学团队一起定义问题并制定分析策略。他们可能是营销、财务或销售等业务线负责人,数据科学团队需要向他们汇报。他们与数据科学团队和 IT 经理密切合作,以确保项目交付。
  • IT 经理:高级 IT 经理负责基础设施和架构设计,用于支持数据科学的运作。他们会持续监控运作和资源利用情况,以确保数据科学团队高效安全地运作。此外,他们可能还负责为数据科学团队构建和更新 IT 环境。
  • 数据科学经理:数据科学经理监督数据科学团队及其日常工作。他们是团队建设者,能够平衡团队开发与项目计划和监控。

但在这个过程中,数据科学家才是主角。

数据科学家是什么?

数据科学家是什么?

作为一门专业,数据科学还很年轻。它源自于统计分析和数据挖掘领域。数据科学期刊 于 2002 年首次发行,由国际科学委员会:科学和技术数据委员会出版。2008 年,“数据科学家”的头衔出现了,数据科学领域迅速发展起来。从此以后,尽管越来越多的学院和大学开始设立数据科学学位,但数据科学家依然短缺。

数据科学家的职责包括:制定数据分析策略;准备要分析的数据;探索、分析数据并实施数据可视化;使用 Python 和 R 等编程语言用数据构建模型;将模型部署到应用中等。

数据科学家的工作不是独立的。事实上,较有效的数据科学是在团队中完成的。除了数据科学家,该团队可能还包括负责定义问题的业务分析师、负责准备数据和确定数据访问方式的数据工程师、负责基本流程和基础设施的 IT 架构师,以及负责将模型或分析结果部署到应用和产品中的应用开发人员。

实施数据科学项目面临的挑战

数据科学家是什么?

尽管许多企业看到了数据科学的前景并对数据科学团队投入了巨额资金,但他们并未意识到数据的全部价值。在人才招聘和数据科学项目创建竞争中,某些公司采用的团队工作流程效率低下。不同的人使用不同的工具和流程,无法高效协同工作。如果不进行更严格、更集中的管理,高管们可能无法获得全面的投资回报。

这种混乱的环境带来了很多挑战。

数据科学家不能有效地工作。由于访问数据需经 IT 管理员授权,因此数据科学家往往要等待很长时间才能获得其需要分析的数据和资源。获得访问权限后,数据科学团队可能会使用多种不兼容的工具来分析数据。例如,数据科学家可能使用 R 语言开发一个模型,但使用该模型的应用却是用另一种语言编写的。这就是为什么将模型部署到有效的应用中可能需要几周甚至几个月的时间。

应用开发人员无法获得可用的机器学习。有时,开发人员接收到的机器学习模型并不能直接部署到应用中。而且,由于接入点不灵活,无法在所有场景中部署模型,应用开发人员还需要解决可扩展性问题。

IT 管理员在支持工作上花费太多时间。由于开源工具激增,IT 需要支持的工具越来越多。例如,营销团队和金融团队的数据科学家可能使用不同的工具。不同团队的工作流程也可能不同,这意味着 IT 团队必须不断重建和更新环境。

业务经理与数据科学脱节。数据科学工作流程并不总是会集成到业务决策流程和系统中,这导致业务经理难以与数据科学家进行信息全面的协作。由于集成欠佳,业务经理难以理解为何从原型到生产需要如此长的时间,他们就不太可能支持投资自己认为太慢的项目。

数据科学平台提供新功能

数据科学平台应运而生

许多企业已经意识到,缺少了集成平台的数据科学工作是低效、不安全且难以扩展的。这种认识促成了数据科学平台的兴起。数据科学平台是所有数据科学工作所围绕的软件中心。一个优秀的平台可以减少数据科学实施过程中的诸多挑战,帮助企业更快速、高效地将数据转化为洞察。

有了集中的机器学习平台,数据科学家可以使用他们喜欢的开源工具在协作环境中工作,并可通过版本控制系统同步所有工作。

数据科学平台的优势

数据科学平台的优势

数据科学平台支持团队共享代码、结果和报告,从而减少冗余并推进创新。它通过简化管理和融合优秀实践,消除了工作流程中的瓶颈。

总的来说,出色的数据科学平台可以:

  • 帮助数据科学家加快模型交付速度并减少错误,进而提升工作效率
  • 让数据科学家能够更加轻松地处理大量不同类型的数据
  • 提供无偏见、可审计、可复制且值得信任的企业级人工智能

数据科学平台专为支持用户协作而构建,这些用户包括数据科学专家、大众数据科学家数据工程师和机器学习工程师或专家。例如,数据科学平台支持数据科学家将模型部署为 API,从而轻松将它们集成到不同的应用中。数据科学家无需等待 IT 干预即可访问工具、数据和基础设施。

市场对数据科学平台的需求激增。事实上,在接下来的几年里,平台市场预计将以超过 39% 的复合年增长率增长,在 2025 年将达到 3850 亿美元。

数据科学家需要哪些平台功能

数据科学家需要哪些平台功能

在考察数据科学平台的功能时,一些应考虑的关键功能包括:

  • 选择基于项目的 UI,以促进协作。该平台应让工作人员能够在从模型构思到最终开发的整个过程中开展协作。它应当支持所有团队成员自助访问数据和资源。
  • 优先考虑集成和灵活性。确保该平台支持新的开源工具以及常见的版本控制提供程序,如 GitHub、GitLab 和 Bitbucket,并且与其他资源紧密集成。
  • 包含企业级功能。确保该平台可以随着您团队和业务的发展而扩展。该平台应当具备高可用性和强大的访问控制,并支持大量并发用户。
  • 为数据科学提供更强大的自助服务。寻找一个能够减轻 IT 和工程设计负担的平台,让数据科学家能够轻松便捷地即时启动环境,跟踪所有工作,并轻松将模型部署到生产环境中。
  • 简化模型部署。模型部署和运营是机器学习生命周期中非常重要的一个步骤,但经常被忽略。确保您所选择的服务有助于简化模型运营,无论该服务提供 API 还是可确保用户以易于集成的方式构建模型。

让使用数据科学平台成为一项明智举措

如果您注意到出现以下情况,则表示您的企业是时候使用数据科学平台了:

  • 在工作效率和协作方面力有不逮
  • 无法审计或复制机器学习模型
  • 从未将模型部署到生产环境中。

数据科学平台可以为您的业务创造切实价值。Oracle 数据科学平台可提供丰富的服务以及全面的端到端体验,加速模型部署并改善数据科学成效。

数据科学学习库

人工智能是什么?
了解有关人工智能的更多信息

人工智能 (AI) 让技术和机器能够处理数据并学习、成长和执行人工任务。

了解关于机器学习的更多信息
了解关于机器学习的更多信息

机器学习是人工智能 (AI) 的一个子集,专注于构建通过数据进行学习的系统,旨在加快自动化决策流程和价值实现速度。

新闻和观点
新闻和观点

机器学习、人工智能和数据科学正在改变企业处理复杂问题的方式,进而转变各个行业的发展方向。阅读最新文章,了解行业和您的同行都在如何采用这些技术。