简单来说,数据湖可存储结构化和非结构化数据,是一种面向大规模、多来源、高度多样化数据的组织方法。
如今,数据湖越来越重要,尤其是对于业务用户和技术用户。他们希望开展广泛数据探索和数据发现,而将数据(或者大部分数据)整合到一个位置可以简化这一过程。
数据湖可极大简化数据探索和发现。它支持多种数据结构,例如非结构化数据和多结构化数据,能够帮助用户发挥数据的真正价值。
为了确保发挥所有优势,一个领先的数据湖解决方案应能够改善以下工作:
在数据管理平台中,数据湖可发挥更大的作用。通过将数据湖与现有数据和工具紧密集成,企业可构建功能更强大的数据湖。
对于全渠道营销(有时又称为多渠道营销),企业通常使用数据湖来扩展数据仓库。在营销数据生态系统中,每一个渠道和每一个接触点都可以被视为一个数据库。此外,很多营销人员还会购买第三方数据。
例如,一个营销人员可能会购买包含更多客户/潜在客户人口统计和消费偏好信息的数据,然后构建关于每一个客户的完整视图,创建更个性化、更有针对性的营销活动。
面对这样一个无论是规模还是复杂性都时刻处在增长之中的复杂的数据生态系统,企业常常使用数据湖来捕获各个渠道和接触点的数据,而且其中很多数据是流数据。
如果企业向客户提供了智能手机应用,企业还可以实时或近乎实时地捕获数据。在现实中,很多时候企业并不需要实时数据,只需要在一两个小时内获得数据即可。但基于实时数据,营销部门可以高细粒度地监视业务情况,更好地创建特价商品/服务、激励、折扣和微营销活动。
数字供应链的数据环境是高度多样化的,而数据湖可以满足这一多样化数据环境的需求,尤其是在 Hadoop 平台上。Hadoop 是一个基于文件的系统,最初设计用于满足来自 Web 服务器的大规模、海量日志文件的需求。在供应链中,用户常常面临大量的基于文件的数据,例如来自 EDI 系统的基于文件和基于文档的数据、XML 数据以及当今日渐流行的 JSON 数据。这些数据会带来多样化的信息。
此外,数字供应链中还存在大量的互联网信息,例如制造商一般都掌握着车间、转运和计费环节的数据。对此,数据湖可帮助制造商聚合数据,并通过基于文件的方式管理数据。
在很多企业中,物联网几乎每天都会带来新的数据源。这些数据源多种多样,会带来更多数据。此外,更多设备上更多数量的传感器也无时无刻不在生成数据。例如,通过为每一次铁路货运或卡车货运装备大量传感器,企业可通过时空数据来跟踪车辆以及车辆运行情况。车辆运行是否安全?车辆运行方式是否有助于降低燃油消耗?数据湖可以为这些海量信息提供一个信息库,正越来越受到企业的欢迎。
除了以上适用于特定部门或特定 IT 计划的数据湖外,另一种数据湖使用方法是在集中式 IT 场景下部署单一的多租户数据湖,来满足多个不同部门、业务单元和技术计划的需求。随着数据湖的使用越来越广泛,企业逐渐探索出了如何优化数据湖的方法,来满足各种场景和运营、分析甚至合规要求。
企业可通过多种方法使用数据湖,相应地,如今市场上也出现了多种数据湖平台。例如,Hadoop 就是广为流行(但不是唯一)的数据湖平台。
Hadoop 极富吸引力,它支持线性扩展,相比关系数据库扩展成本更低。Hadoop 不仅仅意味着低成本存储,而且还是一个强大的处理平台。对于算法分析,Hadoop 可谓一个理想选择。
有的企业希望将海量的结构化和关系数据注入数据湖,对此,关系数据库管理系统也能发挥数据湖平台作用。如果您的数据是关系数据,DBMS 正是您数据湖的理想选择。如果您的使用场景涉及关系功能,例如 SQL 或复杂表连接,DBMS 也能出色满足您的需求。
云系统,尤其是云存储,是未来大势所趋。云技术的优势主要在于弹性的可扩展能力,即它支持随着工作负载增长而灵活扩展服务器资源和其他资源。此外,云技术的成本也低于本地系统。之所以如此,是因为它无需进行系统集成。
如果您选择本地系统,您将不得不耗费数月时间来将大量系统集成在一起。相比之下,云技术提供商将提供预先集成的云系统。您只需购买许可,然后就能在几个小时(而不是几个月)内将云系统投入运行。此外,云端对象存储(参见数据湖优秀实践)也具有多重优势。
如有需要,您可以部署混合式数据湖平台。如果您熟悉逻辑数据仓库,您还可以部署逻辑数据湖,即将数据物理地分布在多个平台上。在现实中,逻辑数据湖面临多重挑战,例如需使用适用于联合查询的特殊工具,或用于广泛分析查询的数据虚拟化。
但逻辑数据湖在工具层面可用,目前很多企业都在使用。
在挖掘更多数据价值的旅程中,企业不断拓展边界。在云计算的帮助下,企业常常将数据湖技术与数据仓库整合到一个架构中,即“湖仓一体”。湖仓一体可带来更多优势,例如更紧密的集成、更少的数据移动、更出色的数据治理,以及支持更多使用场景。
注:为免疑义,本网页所用以下术语专指以下含义: