Jeffrey Erickson | 内容策略师 | 2024 年 7 月 17 日
一个企业的数据储备可能是一个金矿。如果使用得当,这些数据可以促进分析,帮助公司更高效地运行,避免失误,并利用包括生成式 AI 在内的机会,生成式 AI 需要大量干净、组织良好的数据来完成工作。然而,为了利用所有这些数据的可能性,组织必须制定正确的战略并优化其数据基础设施。
数据基础设施是由技术、流程和负责组织数据的人员组成的生态系统,包括数据收集、存储、维护和分发。该基础设施的技术组件包括内部部署硬件(例如服务器和存储设备)和软件(包括 OLTP 数据库和数据仓库以及网络技术)。它通常还包括各种云服务。参与者包括应用开发人员、数据库管理员、数据分析师和数据科学家。
数据基础设施的一个关键目标是提供一个安全的存储存储库以及用于数据处理和分析的计算资源。同样重要的是管理数据使用方式以及谁可以访问数据的规则和策略。最终,目标是通过高效的管理和分析从组织数据中获得最大价值,以实现数据驱动的决策。
关键要点
数据基础设施由组织的物理基础设施组成,包括服务器和存储设备等硬件组件以及用于存储、检索、共享和分析数据的软件。主要组件包括数据库、数据湖和数据仓库,企业可以使用这些数据库、数据湖和数据仓库来存储和分析各种数据类型,例如图形、空间、文本、图像、JSON 和向量数据等。
这些技术上的叠加是保护敏感数据免受未经授权访问的安全措施。除此之外,还有支持基于数据分析(包括仪表盘和生成式 AI 副驾驶)的决策的工具和技术。
功能性数据基础设施可实现高效的数据处理、分析和决策,同时有助于满足法规的安全性和合规性要求。具有有效数据基础设施的组织可以通过将通常复杂的数据类型组合转变为易于理解和可操作的洞察来获得价值。
这些洞察可以来自交互式仪表盘,让用户能够实时探索和分析信息,从而识别原始数据中可能不明显的趋势、模式和关系。仪表盘可能包括图表、图形、热图和信息图,以便于比较不同决策的可能结果。
一个有效的数据基础设施还将旨在使数据访问民主化,而不会损害安全性。当不同层次的利益相关者可以协作并促进战略决策时,组织就会受益。此外,数据基础设施还可以为生成式 AI 计划(包括智能自动化)提供支持,从而提高业务运营效率。
多年来,有效使用数据一直是业务决策的重要组成部分。当一家公司可以轻松分析其运营数据时,它可以更清楚地看到什么有效,什么无效,准确地做出一秒钟的决策,或者更长时间地查看并查看利用或避免的趋势。现在,随着生成式 AI 的出现,数据基础设施比以往任何时候都更加重要。AI 基于数据运行,只有使用适当的数据基础设施(现在应该包括检索增强生成 (RAG) 和向量存储等技术)才能充分发挥新的生成式 AI 模型的潜力。
优化数据基础设施时需要考虑许多角度。这里有 10 个想法,帮助你覆盖所有的基础。
除了硬件和软件投资,数据治理是释放数据力量的基本要素。数据治理是有效管理和使用数据的框架,可确保数据的准确性、一致性、可用性和安全性,并使与数据相关的实践与组织的目标和目标保持一致。
数据治理计划应该为参与数据管理的个人确定明确的角色和责任,以确保问责制。第一步是定义角色并指定数据所有者、数据管理员和数据用户,每个角色都有特定的权限和责任。数据治理还包括面向有权访问数据的 IT 团队的规则和准则。策略应解决以下主题:数据安全、数据质量、数据保留和数据共享。
最后,稳健的治理要求定期进行数据审计和监视数据质量指标,以便及时发现和解决任何问题。
参与构建和维护数据基础设施的 IT 专业人员擅长自动化任务,通常是通过编写脚本来自动执行预配,监视和更新软件所涉及的步骤。最近,云技术提供商一直在使用强大的 AI 和机器学习 (ML) 工具来帮助企业自动执行更广泛的任务,包括预配、数据加载、查询执行和故障处理,并实现大规模的高查询性能。
在业务方面,这种级别的性能可以推动预测分析,这有助于提高财务、数据安全、物流等领域的决策准确性和速度。
对于任何数据基础设施来说,将数据组织成逻辑分组是很重要的,以便高效管理和传输。这项工作有两个部分:数据分类和数据分类。分类根据共享属性(例如来源或敏感性)将数据分组到类别中,而分类根据规则或算法将数据分配给预定义分类。
例如,产品研发文档可能适合多种类别,例如“技术数据”和“市场研究”,但仅属于特定层次结构中的一个分类,例如“公共”、“机密内部”或“机密”。
元数据是描述数据资产的信息。当您拍照时,元数据会说明拍摄图片的位置和时间,以及其他许多可能的属性。数据基础结构中的元数据存储可组织和保留有关系统内数据资产、进程和模式的元数据。元数据存储可以改善混合环境(例如数据湖仓)的数据可发现性和数据治理。元数据存储还可以通过提供数据沿袭、访问控制、加密和审计日志信息来帮助确保合规性,所有这些都有助于数据隐私和保护。生成式 AI 系统越来越多地利用元数据为其输出带来透明度和可解释性。
正确的数据基础设施有助于保护组织的数字资产,进而赢得客户和利益相关者的信任,并有助于遵守行业法规。
在数据安全方面,有几个要考虑的角度,有些是技术性的,有些是社会性的。首先,对 rest 数据进行加密,并在数据被未经授权的人员拦截或访问时对其进行传输。然后,通过实施控制来限制谁可以查看敏感数据,以防范这些威胁。这可以通过用户身份验证和基于角色的访问控制来实现。由于对数据安全的威胁不断变化,定期监视和更新保护措施,当然,还会及时更新最新的安全补丁和软件更新。一旦发现漏洞,云提供商通常会主动修补和更新软件。
另一条防线是员工教育。确保员工在工作日了解数据安全性。建立培训以提高对强密码、网络钓鱼诈骗和社会工程攻击的认识,并为可疑活动提供报告结构。最后,数据泄露会发生,但您可以通过协议尽可能减少其影响,以采取措施,包括遏制和恢复,以及有助于保持客户和利益相关者的信任的通信程序。
监控您的数据基础设施,在潜在问题影响生产力之前识别这些问题至关重要。为了监视一系列基础设施组件,数据工程师使用软件代理来收集有关操作系统、CPU 利用率、内存使用情况、网络流量和许多其他组件的性能数据。当检测到可能影响用户的问题时,监视系统可以帮助诊断甚至修复问题。借助跨数据中心和云提供商的实时监视,技术甚至可以预测停机或减速,以便在用户检测到停机或减速之前解决问题。
您的组织可能正在生成和收集大量数据。明智的做法是计划加快步伐。您如何帮助确保您的数据基础设施能够应对增长并适应不断变化的需求?
了解当前的硬件、软件和云服务将如何适应不断增长的数据量和计算需求。了解哪些地方可能会出现中断和瓶颈,并开始围绕它们进行设计。这需要您及时了解新兴技术及其对数据管理策略的潜在影响。例如,随着生成式 AI 的影响力不断增强,您会希望了解如何从新的数据类型(例如向量和 RAG)中受益。
组织的计算需求会在一天、一周、一个月和一年中发生变化。例如,在线零售商需要在假期期间计划大量使用,而大学需要在短时间内迅速扩大规模,因为可能有成千上万的学生报名上课。使用具有自动扩展和收缩功能的数据基础设施可以降低整体 IT 成本,尤其是在为 cloud service 中的实例付费时。
除了选择合适的云提供商之外,您还可以使用专为集成、建模、编排、监视和可视化而设计的架构和工具来确保可扩展性。负载均衡器等技术可以在服务器之间分配流量。此外,合适的数据库解决方案(无论是本地部署还是数据库即服务产品)将采用各种技术来最大限度地提高可扩展性,例如索引、缓存和查询优化。
快速的数据处理和充足的存储容量是高效数据架构的基石。实现这一目标的最简单且通常成本最低的方法是将一些工作负载转移到云端。这些服务包括数据库服务和软件定义的存储即服务,使用单个云服务器上的虚拟机的集合来提高资源利用率。
对于留在数据中心的工作负载,投资于现代化的高性能硬件来替换过时的设备并提高吞吐量。现代网络硬件和软件对于在您的数据中心内或在您的位置与云数据中心之间移动数据非常重要。升级时,您需要避免在数据库之间移动数据以进行机器学习和分析;使用一项云数据库服务可以提高速度并降低复杂性。
高效的数据基础设施中有很多移动部件,包括物理基础设施,包括存储硬件、处理硬件和网络;信息基础设施,包括业务应用程序和数据存储库;以及业务基础设施,如商业智能系统和分析工具。要使每个元素都正常运行且安全,需要掌握必须保持最新状态的技能集。例如,现代数据系统需要考虑生成式 AI,这可能需要熟练掌握新的数据类型、软件工具、计算架构和组织结构。鼓励员工从技能提升公司、用户组和技术活动中寻求培训,以便他们能够掌握现代数据系统,了解全栈开发流程中的数据库,探索数据网格架构,并掌握分析数据和呈现调查结果所涉及的原则。
技术专业人员还可以访问云提供商或社区提供的有关特定技术的培训。
MySQL 是世界上最流行的开源数据库,但到目前为止,数据分析必须在一个单独的数据库中进行。现在,HeatWave MySQL 提供了完全托管的 database cloud service,该服务结合了事务处理和实时分析,消除了 ETL 复制的复杂性、延迟、成本和风险。使用其他内置 HeatWave 功能进一步简化数据基础设施,无需将数据迁移到单独的云服务:
HeatWave 现已在 Oracle Cloud Infrastructure (OCI)、Amazon Web Services (AWS) 和 Microsoft Azure 上可用。
如果数据基础设施系统出现故障,会发生什么情况?
故障数据基础设施可能会导致多种结果,但都不是好结果。对于依赖高效、干净数据的网站、应用程序、分析工具和 AI 系统,这可能会导致响应时间变慢。更糟糕的是,有故障的基础设施系统可以打开漏洞,使数据面临因人为错误或系统崩溃而丢失的风险,或者如果不良行为者获得对有故障的数据基础设施的访问权限,数据可能会受到损害。
如何管理数据基础设施?
您可以通过一系列技术和策略来管理数据基础设施,这些技术和策略有助于确保数据保持安全,并惠及设计为服务的人员。重点领域包括数据存储硬件、数据库软件以及网络软件和设备,这些软件和设备旨在确保内部系统和 cloud service 提供商之间高效的数据流。管理数据基础设施是一项备受追捧的技能,特别是随着生成式 AI 越来越普遍,因为它需要稳定的干净数据流才能运行。
我如何知道要为我的数据基础设施投资哪些技术?
优先考虑增加价值的技术,而不会增加复杂性。例如,您可能投资于可以处理事务处理和机器学习的数据库,这可以帮助您避免耗时的 ETL 流程。您还可以查找可与许多不同数据类型(例如文本、空间、图形、JSON 和向量)原生运行的数据库。这也将帮助您简化数据基础设施。
我应该多久检查一次数据基础设施?
数据基础设施通常非常复杂,易于组装和维护。当您需要采用新技术(例如机器学习或 AI)或需要新的数据安全措施时,最好检查数据基础设施以进行升级。组织成长或变革,如兼并或收购,也应该触发审查。对于持续维护,请确保数据基础设施收集有关各个组件工作情况的日志,并定期查看日志。这些日志将提醒数据专家注意正在发生或即将出现的问题。
注:为免疑义,本网页所用以下术语专指以下含义: