Oracle Machine Learning for R (OML4R) 使开源 R 统计编程语言及运行环境适用于企业级和大数据场景。OML4R 面向大小两种规模的数据场景而设计,实现了 R 语言与 Oracle Database 的深度集成。
数据科学家及广大 R 语言用户可在 Oracle Database 管理的数据上使用 R 生态系统。R 为数据处理、图形、统计功能和机器学习算法提供了一套软件包。Oracle Machine Learning for R 主要从三个方面扩展了 R 的能力:从 R 语言对数据库数据进行透明访问与操作;数据库内机器学习算法;通过嵌入式 R 执行实现便捷部署。
Oracle Machine Learning 还支持“拖放式”图形用户界面 Oracle Data Miner,该工具与 Oracle SQL Developer 集成,能够将用户自定义的 R 函数作为用户创建的分析工作流的一部分来执行。

透明层 — 借助 R data.frame 代理对象,使数据始终保持为数据库表和视图。重载后的 R 函数可将选定的 R 功能转换为等效的 SQL 语句,以实现数据库内处理、并行计算、可扩展性和安全性。数据科学家可以使用熟悉的 R 语法来处理存储在数据库中的数据库数据。此外还可利用软件包 OREdplyr(该软件包提供了对开源热门 R 软件包 dplyr 的重载功能)。
机器学习算法 — R 用户可通过 R 语言使用 Oracle Machine Learning 提供的数据库内并行算法库。用户可使用熟悉的 R 公式语法指定机器学习模型。这些算法支持分类、回归、异常检测、聚类、特征提取、时间序列和关联规则。
嵌入式 R 执行 — 在 Oracle Database 中管理和调用用户自定义的 R 函数,支持数据并行、任务并行和非并行执行,同时还可使用第三方 R 程序包(例如来自 CRAN 仓库的程序包)。当数据科学家需要借助 R 生态系统中的技术来满足特定需求时,可直接利用 R 生态系统。

集成文本挖掘 —数据库内算法可接受来自表和视图的文本列,然后自动提取术语和主题。提取出的数据将与其他预测变量结合,用于构建模型和数据评分。
分区模型 — 借助数据库内模型,用户可以自动创建模型组合,其中每个组件模型均基于用户指定的数据分区进行构建。通过单一集成模型即可启用并简化数据评分。
注:为免疑义,本网页所用以下术语专指以下含义: