Jeffrey Erickson | 内容策略师 | 2024 年 7 月 17 日
一个企业的数据储备可能是一个金矿。如果使用得当,这些数据可以促进分析,帮助企业更高效地运行,避免失误,并抓住生成式 AI 等各种机会,其中生成式 AI 需要大量干净、组织良好的数据来完成工作。然而,要发挥所有这些数据的潜力,企业必须制定正确的策略并优化其数据基础设施。
数据基础设施是由技术、流程和负责企业数据的人员组成的生态系统,包括数据收集、存储、维护和分发。该基础设施的技术组件包括本地部署硬件(例如服务器和存储设备)和软件(包括 OLTP 数据库和数据仓库以及网络技术)。它通常还包括各种云技术服务。参与者包括应用开发人员、数据库管理员、数据分析师和数据科学家。
数据基础设施的一个关键目标是提供一个安全的存储库以及用于数据处理和分析的计算资源。同样重要的是管理数据使用方式以及谁可以访问数据的规则和策略。最终,目标是通过高效的管理和分析充分发挥企业数据的价值,实现数据驱动的决策。
关键要点
数据基础设施由企业的物理基础设施组成,包括服务器和存储设备等硬件组件以及用于存储、检索、共享和分析数据的软件。主要组件包括数据库、数据湖和数据仓库,企业使用它们来存储和分析各种数据类型,如图形、空间、文本、图像、JSON 和向量数据等。
在这些技术的基础上,还有保护敏感数据免受未经授权访问的安全措施。除此之外,还有支持基于数据分析进行决策的工具和技术,包括仪表盘和生成式 AI 副驾驶。
功能完备的数据基础设施可实现高效的数据处理、分析和决策,同时有助于满足安全性和合规性要求。拥有有效数据基础设施的企业可以通过将复杂的数据类型组合转变为易于理解、切实可行的洞察来获得价值。
这些洞察可以来自于交互式仪表盘,让用户能够浏览和分析信息(理想状态是实时的),从而识别原始数据中可能并不明显的趋势、模式和关系。仪表盘可能包括图表、图形、热图和信息图,以便于比较不同决策可能产生的结果。
一个有效的数据基础设施还将致力于在不影响安全性的情况下实现数据访问民主化。当不同层次的利益相关方能够合作并为战略决策做出贡献时,企业就能从中受益。此外,数据基础设施还能为生成式 AI 举措(包括智能自动化)提供支持,从而提高业务运营效率。
多年来,有效使用数据一直是业务决策的重要组成部分。当一家公司能够轻松分析其运营数据时,它就能够更清楚地看到哪些是有效的,哪些是无效的,准确地做出瞬间决策,或者从更长远的角度看问题,看清需要利用或避免的趋势。现在,随着生成式 AI 的不断涌现,数据基础设施比以往任何时候都更加重要。AI 基于数据运行,只有采用正确的数据基础设施(现在应该包括检索增强生成 (RAG) 和向量存储等技术),新的生成式 AI 模型才能充分发挥潜力。
优化数据基础设施时需要从多个角度考虑。以下 10 个想法可帮助您考虑周全。
除了硬件和软件投资之外,数据治理也是发挥数据强大力量的重要因素。数据治理是有效管理和使用数据的框架,可确保数据的准确性、一致性、可用性和安全性,并使与数据相关的实践与企业的目标保持一致。
数据治理计划应为参与数据管理的个人确定明确的角色和责任,以确保问责制。第一步是定义角色并指定数据所有者、数据管理员和数据用户,每个角色都有特定的权利和责任。数据治理还包括面向有权访问数据的 IT 团队的规则和准则。这些策略应涵盖数据安全、数据质量、数据保留和数据共享等主题。
最后,稳健的治理要求定期进行数据审计和监视数据质量指标,以便及时发现和解决任何问题。
参与构建和维护数据基础设施的 IT 专业人员擅长使任务自动化,他们通常通过编写脚本来自动执行预配、监视和更新软件所涉及的步骤。近来,云技术提供商一直在使用强大的 AI 和机器学习 (ML) 工具来帮助企业自动执行更广泛的任务,包括预配、数据加载、查询执行和故障处理,并实现大规模的高查询性能。
在业务方面,这种程度的性能可以推动预测分析,有助于提高财务、数据安全、物流等领域决策的准确性和速度。
对于任何数据基础设施来说,将数据组织成逻辑分组都很重要,这便于高效管理和传输。这项工作有两个部分:数据分类和数据分级。分类是根据共享属性(如来源或敏感度)将数据归入不同类别,而分级则是根据规则或算法将数据分配给预定义分类。
例如,一份产品研发文档可能被归入多个类别(如“技术数据”和“市场研究”),但仅属于特定层次结构中的一个分级(如“公共”、“内部机密”或“秘密”)。
元数据是描述数据资产的信息。当您拍照时,元数据会显示照片拍摄的地点和时间,以及许多其他可能的属性。数据基础设施中的元数据存储用于组织和保留系统内有关数据资产、进程和模式的元数据。元数据存储可改善混合环境(如数据湖仓一体)的数据可发现性和数据治理。元数据存储还可以通过提供数据沿袭、访问控制、加密和审计日志等有助于数据隐私和保护的信息,帮助确保合规。生成式 AI 系统越来越多地利用元数据为其输出带来透明度和可解释性。
合适的数据基础设施有助于保护企业的数字资产,进而赢得客户和利益相关者的信任,并有助于遵守行业法规。
在数据安全方面,有几个要考虑的角度,有些是技术性的,有些是社会性的。首先,实施静态和动态数据加密,以防未经授权的人员拦截或访问。然后,通过实施控制来限制谁可以查看敏感数据,从而防范这些威胁。这可以通过用户身份验证和基于角色的访问控制来实现。由于对数据安全的威胁不断演变,因此要定期监视和更新保护措施,当然,还要及时应用新的安全补丁和软件更新。一旦发现漏洞,云技术提供商通常会主动修补和更新软件。
另一条防线是员工教育。确保员工在日常工作中了解数据安全。开展培训,提高对强密码、网络钓鱼诈骗和社会工程攻击的认识,并提供可疑活动报告机制。最后,数据泄露时有发生,但您可以通过协议尽可能减少其影响,可采取的措施包括遏制和恢复,还可通过沟通程序帮助维护客户和利益相关者的信任。
监视您的数据基础设施,在潜在问题影响生产力之前发现这些问题至关重要。为了监视各种基础设施组件,数据工程师使用软件 agent 来收集操作系统、CPU 利用率、内存使用率、网络流量和许多其他组件的性能数据。当检测到可能影响用户的问题时,监视系统可以帮助诊断甚至修复问题。通过对数据中心和云技术提供商进行实时监视,技术甚至可以预测停机或性能下降,以便在用户发现之前解决问题。
您的企业可能正在生成和收集大量数据。针对加速发展制定计划是明智之举。如何确保您的数据基础设施能够应对增长并适应不断变化的需求?
了解当前的硬件、软件和云技术服务将如何适应不断增长的数据量和计算需求。了解哪些地方可能会出现中断和瓶颈,并开始围绕它们进行设计。这需要您及时了解新兴技术及其对数据管理策略的潜在影响。例如,随着生成式 AI 的影响力与日俱增,您希望了解如何从新的数据类型(如向量和 RAG)中受益。
企业的计算需求每天、每周、每月和每年都在变化。例如,在线零售商需要针对节假日期间的频繁使用做好计划,而大学则需要在短时间内迅速纵向扩展,因为可能有成千上万的学生报名选课。使用具有自动扩展和缩减功能的数据基础设施可以降低整体 IT 成本,尤其是在为云技术服务中的实例付费时。
除了选择合适的云技术提供商之外,您还可以使用专为集成、建模、编排、监视和可视化而设计的架构和工具来帮助确保可扩展性。负载均衡器等技术可以在服务器之间分配流量。此外,合适的数据库解决方案(无论是本地部署还是数据库即服务产品)都将采用索引、缓存和查询优化等技术充分提高可扩展性。
快速的数据处理和充足的存储容量是高效数据架构的基石。实现这一目标更简单且通常成本更低的方法是将一些工作负载卸载到云端,包括数据库服务和软件定义的存储即服务,使用单个云端服务器上的虚拟机集合来提高资源利用率。
对于留在数据中心的工作负载,应投资于现代化的高性能硬件,以替换过时的设备并提高吞吐量。现代网络硬件和软件对于在数据中心内或数据中心与云数据中心之间移动数据非常重要。升级时,应尽量避免在数据库之间移动数据以进行机器学习和分析;只用一个云数据库服务,即可完成所有任务,从而提高速度并降低复杂性。
高效的数据基础设施有很多移动部件,包括物理基础设施(包括存储硬件、处理硬件和网络)、信息基础设施(包括业务应用和数据存储库)以及业务基础设施(如商务智能系统和分析工具)。为了确保每个元素都正常运行且安全,就要求员工在技能上做到与时俱进。例如,现代数据系统需要考虑生成式 AI,这可能需要熟练掌握新的数据类型、软件工具、计算架构和组织结构。鼓励员工从技能提升公司、用户组和技术活动中寻求培训,以便他们能够掌握现代数据系统,了解全栈开发流程中的数据库,探索数据网格架构,并掌握分析数据和呈现结果所涉及的原则。
技术专业人员还可以访问云技术提供商或社区提供的有关特定技术的培训。
MySQL 是全球广受欢迎的开源数据库,但到目前为止,数据分析仍必须在单独的数据库中进行。现在,HeatWave MySQL 提供了一个全托管式数据库云技术服务,结合了事务处理和实时分析,消除了 ETL 复制的复杂性、延迟、成本和风险。使用其他内置 HeatWave 功能进一步简化您的数据基础设施,无需将数据迁移到单独的云技术服务:
HeatWave 现已在 Oracle Cloud Infrastructure (OCI)、Amazon Web Services (AWS) 和 Microsoft Azure 上可用。
如果数据基础设施系统出现故障,会发生什么情况?
有故障的数据基础设施可能会导致几种结果,但都不是好结果。对于依赖高效、干净数据的网站、应用、分析工具和 AI 系统,这可能会导致响应速度变慢。更糟糕的是,有故障的基础设施系统会打开漏洞,使数据面临因人为错误或系统崩溃而丢失的风险,或者如果不良行为者获得对有故障的数据基础设施的访问权限,数据可能会泄露。
如何管理数据基础设施?
您可以通过一系列技术和策略来管理数据基础设施,这有助于确保数据的安全,并将数据提供给需要的人。重点领域包括数据存储硬件、数据库软件以及网络软件和设备,旨在确保数据在内部系统和云技术服务提供商之间高效流动。管理数据基础设施是一项炙手可热的技能,尤其是在生成式 AI 日益普及的情况下,因为它需要稳定的干净数据流才能运行。
我如何知道要为我的数据基础设施投资哪些技术?
优先考虑能增加价值而不增加复杂性的技术。例如,您可以投资于能够处理事务处理和机器学习的数据库,这样就可以避免耗时的 ETL 流程。您可能还需要一个能够处理多种数据类型(如文本、空间、图形、JSON 和向量)的数据库。这也将帮助您简化数据基础设施。
我应该多久检查一次数据基础设施?
数据基础设施的组装和维护通常比较复杂。当您想采用新技术(如机器学习或 AI)或需要新的数据安全措施时,最好检查数据基础设施,以便进行升级。企业成长或变革(如兼并或收购)也应触发审查。对于持续维护,确保数据基础设施收集有关各组件运行状况的日志,并定期进行审查。这些日志将提醒数据专家注意正在发生或即将发生的问题。
注:为免疑义,本网页所用以下术语专指以下含义: