数据科学是什么?

数据科学是利用科学方法、流程、算法和系统从数据中提取价值的跨学科领域。 数据科学家结合了一系列技能(包括统计学、计算机科学和业务知识)来分析从网络、智能手机、客户、传感器和其他来源收集的数据。

数据科学揭示趋势并产生见解,企业可以利用这些见解做出更好的决策并推出更多创新产品和服务。 数据是创新的基础,但它的价值主要在于科学家可以从中收集信息,然后采取行动。

 

数据科学家的工具

数据科学家使用的工具有很多种,但常见的一种是开源笔记本,它是用于编写和运行代码、对数据执行可视化并查看结果的 web 应用 — 所有这些均在同一个环境中实现。 一些流行的笔记本包括 Jupyter、RStudio 和 Zepplin。 笔记本在进行分析时非常有用,但在数据科学家需要进行团队协作时,笔记本也有其局限性。 数据科学平台的出现解决了这一问题。

数据科学与数据的增长

随着现代技术的发展,越来越多的信息得以创造和存储,数据量也随之激增。 据估计,世界上 90% 的数据是在过去两年中创造的。 例如,Facebook 用户每小时上传 1000 万张照片。 全球连接设备(物联网或称 IoT)的数量预计到 2025 年将增加到 750 亿以上

通过这些技术收集和存储的大量数据可以为世界各地的组织和社会带来变革性的好处,但前提是我们能够对其进行解释。 这就是数据科学的意义所在。

查看信息图,了解更多有关数据和数据科学的信息。

数据科学家的出现

作为一门专业,数据科学还很年轻。 它源自于统计分析和数据挖掘领域。 数据科学期刊 于 2002 年首次出版,由国际科学委员会: 科学和技术数据委员会出版。 到 2008 年,“数据科学家”的头衔出现了,数据科学领域迅速发展起来。 从此以后,尽管越来越多的学院和大学开始设立数据科学学位,但数据科学家依然短缺。

数据科学家的职责包括制定数据分析策略;准备要分析的数据;探索、分析数据并实施数据可视化;使用 Python 和 R 等编程语言用数据构建模型;将模型部署到应用中。

数据科学家的工作不是独立的。 事实上,较有效的数据科学是在团队中完成的。 除了数据科学家,该团队可能还包括负责定义问题的业务分析师、负责准备数据和确定数据访问方式的数据工程师、负责基本流程和基础设施的 IT 架构师,以及负责将模型或分析结果部署到应用和产品中的应用开发人员。

数据科学如何转变企业

企业正通过数据科学团队完善产品和服务,将数据转化为竞争优势。 例如,企业分析从呼叫中心收集的数据,识别可能会流失的客户,进而使营销部门能够采取行动留住客户。 物流公司分析交通模式、天气状况和其他因素,以提高交货速度并降低成本。 医疗公司分析医疗检测数据和报告的症状,以帮助医生更早地诊断疾病并更有效地开展治疗。

大多数公司都把数据科学作为重中之重,并在这方面投入巨资。 在 Gartner 近期对 3000 多位 CIO 开展的调查中,受访者将分析和商务智能列为其企业内颇具差异化优势的技术。 接受调查的 CIO 认为,这些技术对其公司来说具有战略性意义,公司因此获得了更多新投资。

数据科学是如何执行的

对数据进行分析和操作的过程是迭代的,而不是线性的,这正是数据建模项目的工作流程:

  • 计划: 定义项目及其潜在产出
  • 筹备: 构建工作环境,确保数据科学家拥有合适的工具且能够访问正确的数据和其他资源,如计算能力
  • 提取: 将数据加载到工作环境中
  • 探索: 数据的分析、探索和可视化
  • 模型: 构建、训练和验证模型,使其按要求执行
  • 部署: 将模型部署到生产环境

谁监督数据科学流程?

数据科学流程通常由三类管理者监管:

  • 业务经理: 业务经理与数据科学团队一起定义问题并制定分析策略。 他们可能是营销、财务或销售等业务线负责人,并有一个数据科学团队向他们汇报。 他们与数据科学团队和 IT 经理密切合作,以确保项目的交付。
  • IT 经理: 高级 IT 经理负责基础设施的计划和架构设计,用于支持数据科学的运作。 他们会持续监视运作和资源利用情况,以确保数据科学团队高效安全地运作。 他们可能还负责为数据科学团队构建和更新环境。
  • 数据科学经理: 数据科学经理监督数据科学团队及其日常工作。 他们是团队建设者,能够平衡团队开发与项目计划和监控。

实施数据科学的挑战

尽管有数据科学的承诺和对数据科学团队的巨大投资,许多企业并未意识到其数据的全部价值。 在人才招聘和数据科学项目创建的竞争中,一些公司经历了低效的团队工作流程,不同的人使用不同的工具和流程,而这些工具和流程不能很好地协同工作。 如果没有更严格、更集中的管理,高管们可能无法获得全面的投资回报。 这种混乱的环境带来了很多挑战。

数据科学家不能有效地工作。 由于访问数据需经 IT 管理员授权,因此数据科学家往往要等待很长时间才能获得其需要分析的数据和资源。 获得访问权限后,数据科学团队可能会使用不同且不兼容的工具来分析数据。 例如,数据科学家可能使用 R 语言开发一个模型,但是将使用该模型的应用则是用另一种语言编写的。 这就是为什么将模型部署到有效的应用中可能要几周甚至几个月的时间。

应用开发人员无法获得可用的机器学习。 有时,开发人员接收到的机器学习模型需要重新编码,或者不能直接部署到应用中。 而且,由于接入点不灵活,无法在所有场景中部署模型,应用开发人员仍需面对可扩展性问题。

IT 管理员在支持工作上花费太多时间。 由于开源工具的激增,IT 需要支持的工具越来越多。 例如,营销领域与金融领域的数据科学家可能使用不同的工具。 不同团队的工作流程也可能不同,这意味着 IT 必须不断重建和更新环境。

业务经理也无法有效参与数据科学流程。 数据科学工作流程并不总是会集成到业务决策流程和系统中,这导致业务经理难以与数据科学家进行信息全面的协作。 如果集成欠佳,那么业务经理会难于理解为什么从原型到生产需要这么长的时间 — 并且他们不太可能对自己认为太慢的项目上的投资表示支持。

数据科学平台应运而生

企业已经意识到,缺少了集成平台的数据科学工作是低效、不安全且难以扩展的。 这种认识促成了数据科学平台的兴起。 数据科学平台是所有数据科学工作所围绕的软件中心。 一个优秀的平台可以减轻实施数据科学过程中的诸多挑战,并帮助企业更快速、高效地将数据转化为洞察。

有了集中的平台,数据科学家可以使用他们喜欢的开源工具在协作环境中工作,他们的所有工作都通过版本控制系统进行同步。

通过自主独立的数据科学平台产生积极的影响。

数据科学平台的优势

数据科学平台允许团队共享代码、结果和报告,从而减少冗余并推进创新。 它通过简化管理并使用开源工具、框架和基础设施,消除了工作流程中的瓶颈。

例如,数据科学平台允许数据科学家将模型部署为 API,从而轻松将它们集成到不同的应用中。 数据科学家无需等待 IT 干预即可访问工具、数据和基础设施。

市场对数据科学平台的需求激增。 事实上,在接下来的几年里,平台市场将以超过 39% 的复合年增长率增长,预计到 2025 年将达到 3850 亿美元。

在考察数据科学平台的功能时,一些应考虑的关键功能包括:

  • 选择基于项目的 UI 来促进协作。 . 该平台应让工作人员能够在从模型构思到最终开发的整个过程中开展协作。 它应当支持所有团队成员自助访问数据和资源。
  • 优先考虑集成和灵活性。 确保该平台支持新的开源工具以及常见的版本控制提供程序,如 GitHub、GitLab 和 Bitbucket,并与其他资源紧密集成。
  • 包含企业级功能。 确保该平台可以随着您团队和业务的发展而扩展。 该平台应当具备高可用性和强大的访问控制,并支持大量并发用户。
  • 为数据科学提供更强大的自助服务。 寻找一个能够减轻 IT 和工程负担的平台,让数据科学家能够轻松便捷地即时启动环境,跟踪其所有工作,并轻松将模型部署到生产环境中。

企业难以找到数据科学人才

寻找和招募人才是企业在利用数据科学获取竞争优势时面临的一大障碍。 McKinsey 近期开展的一项&企业调查显示,在来自不同地区和行业的高管中,有一半的人表示,与其他任何一种技能相比,招募分析人才的难度更大。 40% 的受访者表示,留住人才也是一个问题。

除了数据科学家之外,McKinsey 报告还指出,其他分析领域也存在人才短缺。 尤其是缺乏能够在业务问题与正确运用数据科学之间自由切换的技术人员,以及擅长数据可视化的人员。

Indeed.com、Glassdoor 和 Bloomberg 进一步证实了对数据科学人才的巨大需求:

  • 据 Bloomberg 报道,2015 年 1 月至 2018 年 1 月,Indeed.com 上发布的数据科学家工作岗位增长了 75%。针对数据科学家职位的搜索量增长了 65%。
  • Glassdoor 估计,2018 年数据科学家的需求量比供应量高 50%。
  • Glassdoor 连续第三年将数据科学家评为美国最佳工作。

人工智能学习库

人工智能是什么?
了解有关人工智能的更多信息

人工智能 (AI) 让技术和机器能够处理数据并学习、成长和执行人工任务。

了解关于机器学习的更多信息
了解关于机器学习的更多信息

机器学习是人工智能 (AI) 的一个子集,专注于构建通过数据进行学习的系统,旨在加快自动化决策流程和价值实现速度。

新闻和观点
新闻和观点

机器学习、人工智能和数据科学正在改变企业处理复杂问题的方式,进而转变各个行业的发展方向。 阅读最新文章,了解行业和您的同行是如何采用这些技术的。