图形数据库的定义:一种专用于创建和处理图形的专业化单一用途平台。其中,图形包括节点、边和属性,它们能够以关系数据库无法实现的方式来表示和存储数据。
图形分析则是另一个常用术语,专指图形格式(以数据点作为节点,以数据关系作为边)数据的分析过程。图形分析离不开支持图形格式的数据库:专用图形数据库或支持多种数据模型(包括图形)的融合数据库。
有两种常用的图形数据库模型:属性图和 RDF 图。属性图侧重于分析和查询,而 RDF 图则侧重于数据集成。这两种图形均是由一系列点(顶点)以及这些点之间的连接(边)构成的集合。但它们是有区别的。
属性图用于对数据之间的关系进行建模,能够基于这些关系进行查询和数据分析。属性图具有顶点(包含有关主题的详细信息)和边(表示顶点之间的关系)。顶点和边可以具有相关联的属性。
在本示例中,将一组同事及其关系表示为属性图。
属性图用途广泛,因此被广泛用于金融、制造、公共安全、零售等众多行业和领域。
RDF 图(RDF 即资源描述框架)符合一系列 W3C(万维网联盟)标准,旨在表示各种语句,适合用于表示复杂的元数据和主数据。它们通常用于关联数据、数据集成和知识图谱。它们可以表示域中的复杂概念,也可以提供丰富的语义和数据推断。
在 RDF 模型中,语句由三个元素表示:一条边连接两个顶点,反映语句的主语、谓语和宾语 — 叫做 RDF 三元组。每个顶点和边都由唯一的 URI(即唯一资源标识符)来标识。RDF 模型支持通过定义明确的语义以标准格式发布数据,从而实现信息交换。政府统计机构、制药公司和医疗机构现已广泛采用 RDF 图。
图形和图形数据库通过图形模型来表示数据中的关系。它们支持用户基于连接执行“遍历查询”,并应用图形算法来查找模式、路径、社区、影响者、单点故障和其他关系,从而更高效地对大量数据进行大规模分析。图形可在分析、提供洞察以及链接不同数据源方面表现强大功能。
在分析图形时,算法会探究顶点之间的路径和距离、顶点的重要性以及顶点的群集。例如,要确定重要算法,算法通常会查看入边、相邻顶点的重要性以及其他指标。
图形算法(专用于分析图形中数据间关系和行为的操作)可揭示其他方法难以揭示的内在本质。在分析图形时,算法会探究顶点之间的路径和距离、顶点的重要性以及顶点的群集。算法通常会查看入边、相邻顶点的重要性以及其他指标,以此确定重要性。例如,在探索社交网络或业务流程中最密切的人物或事物的关系时,图形算法可以识别社区、异常、常见模式以及连通个人或相关事务的路径。
由于图形数据库以显式方式存储关系,因此利用顶点间连接的查询和算法可以达到亚秒(而不是小时或天)级别。用户无需执行无数次联接,可以更轻松地将数据用于分析和机器学习,高效探索周围世界。
图形格式可提供一个更灵活的平台,帮助用户基于关系强度或关系质量等因素查找远关系或分析数据。您可以使用图形来探索和发现社交网络、物联网、大数据、数据仓库以及多种业务使用场景(包括银行中的欺诈检测、社交网络中的关系发现以及 360 度客户视图)下复杂事务数据中的关系和模式。如今,图形数据库正越来越广泛地应用于数据科学,帮助用户更加清晰地呈现数据关系。
由于图形数据库以显式方式存储关系,因此利用顶点间连接的查询和算法可以达到亚秒(而不是小时或天)级别。用户无需执行无数次联接,可以更轻松地将数据用于分析和机器学习,高效探索周围世界。
图形数据库高度灵活,功能超强,可助您通过图形格式,更轻松地识别复杂关系,捕获更深入的洞察。它通常使用 PGQL 一类的语言来运行查询。请查看以下示例,了解使用 PGQL 和 SQL 进行查询有何不同。
从示例中可以看出,PGQL 代码更简单,更高效。由于图形强调的是数据之间的关系,因此非常适合多种不同类型的分析。图形数据库尤其擅长:
下图是一个简单的图形数据库应用示例,图中以可视化方式显示了流行派对游戏“六度分离 (Six Degrees of Kevin Bacon)”。对于不熟悉这个游戏的人而言,它是基于一系列相互关联的电影,在 Kevin Bacon 与另一位演员之间建立联系。该游戏以关系为主,是演示图形分析的最佳方式。
试想一个具有两类节点的数据集:曾经拍摄过的每一部电影,以及出现在这些电影中的每一位演员。然后,我们使用图形运行查询,在 Kevin Bacon 与布偶秀的 Miss Piggy 之间建立联系。结果如下:
在这一示例中,可用节点(顶点)既是演员也是电影,关系(边)则是“出演”状态。在此基础上,查询将返回以下结果:
图形数据库可以查询多种关系,例如:
当然,与大多数图形分析应用相比,这个示例比较有趣。但这种方法几乎适用于所有大数据 — 在任何情况下,大量记录都可以显示出彼此之间的自然联系。图形分析最常见的应用包括分析社交网络、通信网络、网站流量和使用情况、真实道路数据以及金融交易和账户。
从概念上讲,洗钱很简单。非法资金被转移至合法资金中,然后变成硬资产。这是巴拿马文件分析中所使用的流程。
更确切地说,在循环转账中,犯罪分子向自己发送大量从欺诈中获得的资金,但通过“正常”账户之间的一系列漫长而复杂的有效转账将其隐藏起来。实际上,这些“正常”账户是使用综合身份创建的。它们是用被盗的身份(电子邮件地址、地址等)生成的,因此通常共享某些相似的信息,正是这种相关信息让图形分析非常适合用于揭示欺诈来源。
为了简化欺诈检测,用户可以基于实体之间以及共享某些信息(包括电子邮件地址、密码、地址等)的实体之间的交易来创建图形。创建图形之后,随即运行一个简单查询查找所有具有类似信息的客户,并揭示哪些客户彼此之间相互汇款。
图形数据库适用于很多场景,但最常见的是社交网络分析。事实上,社交网络是图形数据库的一个理想使用场景,因为它涉及大量的节点(用户账户)和多维联系(多个不同方向的交互)。通过对社交网络进行图形分析,您可以了解:
但是,如果僵尸程序扭曲了这些信息,这些信息就毫无意义。对此,图形分析可以有效识别和过滤僵尸程序。
例如,Oracle 团队曾使用 Oracle Marketing Cloud 来评估社交媒体广告的效果和牵引力,尤其是识别可能扭曲数据的僵尸程序。这些僵尸程序一般会通过转发来人为提升目标账户的知名度,而简单的模式分析可基于转发计数以及与邻居的连接密度来明辨真伪。与背后有僵尸程序作祟的账户相比,自然热门账户具有不同的邻居关系。
下图所示为自然热门账户。
下图所示为僵尸程序驱动的账户行为。
其中,关键是利用图形分析来识别自然模式与僵尸程序模式,然后过滤僵尸程序账户。当然,您也可以进行更深入的分析,比如分析僵尸程序与被转发账户之间的关系。
一般来说,社交媒体网络会倾尽全力来清除僵尸程序账户,避免整体用户体验受到影响。为了验证这一僵尸程序检测流程是否准确,一个月后对标记账户进行检查,结果如下:
高达 91.2% 的账户受罚证明了模式识别和清理的准确性。简而言之,图形分析可以快速识别复杂模式 — 标准的表格数据库要花费更多时间才能实现类似结果。
图形数据库已成为金融业的一种强大的欺诈检测工具。在信用卡领域,尽管反欺诈技术一直在进步,例如在卡片中嵌入芯片,但仍然无法避免各种各样的欺诈行为。例如,读卡机侧录器(常见于未安装芯片卡读卡器的场所)可以通过磁条来窃取信息,而一旦这些信息被恶意收集和存储起来,就可以加载到伪造卡上来购物或取款。
作为一种欺诈检测方法,模式识别通常是欺诈检测的第一道防线。具体来说,就是基于位置、频率、商店类型以及与客户档案契合的其他因素来识别客户的预期购买模式,当发生完全反常的行为时,例如某客户大部分时间都在旧金山湾区,却突然深夜在佛罗里达州购物,则将其标记为潜在欺诈。
图形分析可以大大降低模式识别的计算要求。它擅长在节点之间建立模式,在本例中,节点即账户(持卡人)、购买地点、购买类别、交易和终端。自然行为模式非常易于识别,例如在特定月份中一个客户可以:
欺诈检测通常离不开机器学习,但图形分析可以创建一个更准确、更高效的流程。凭借对关系的关注,图形分析结果已成为确定和标记欺诈记录的有效预测指标,可以在实际使用数据之前做好数据整理和准备工作。
在过去十年里,随着计算能力和大数据的增长,图形数据库和图形技术也在不断发展。越来越多的事实表明,它们将成为分析复杂数据关系的标准工具。如今,各种企业和组织不断推进大数据和分析功能发展,而图形数据库支持通过日益复杂的方式获取洞察,是当下及未来企业成功的必要装备。
Oracle 可帮助您轻松采用图形技术。Oracle Database 和 Oracle Autonomous Database 均包含一个图形数据库和图形分析引擎,因此用户可以使用图形算法、模式匹配查询和可视化功能从数据获得更多洞察。Oracle 融合数据库中包含图形数据库,基于一个现代融合数据库引擎满足多模型、多工作负载和多租户需求。
尽管所有图形数据库都声称自己高性能,但 Oracle 的图形数据库在查询性能和算法方面都表现出色,而且与 Oracle 数据库紧密集成。开发人员可以轻松地向现有应用添加图形分析,利用数据库默认提供的可伸缩性、一致性、恢复、访问控制和安全性。
注:为免疑义,本网页所用以下术语专指以下含义: