机器学习 (machine learning, ml) 是计算机可以学习而不需要事先编程的能力。 由于数字数据的广泛增长和大数据的计算能力提高,机器学习的时代已经到来。 apache systemml 是由 ibm 开源的机器学习系统,现在是 apache 顶级项目,它所具备的能力在机器学习领域独领风骚。 ibm biginsights 是业界领先的 hadoop 企业级发行版本,在 ibm biginsights 发行版中已经包含了 apache systemml 用于大数据平台的机器学习。 本文阐述了 apache systemml 的原理和基于 ibm biginsights 的机器学习实践。
机器学习是让计算机从数据中学习的科学和艺术。换句话说,可以训练计算机来了解数据科学家创建的模型。该计算机将使用算法从其接收的数据中迭代学习,并发现该数据中的模式。当新数据进入时,计算机可以根据以前学习的模式进行预测。例如,像亚马逊和 netflix 这样的公司利用机器学习算法来分析客户的历史产品购买数据或他们观看过的电影。亚马逊然后可以向您推荐新产品,netfix 可以推荐您可能感兴趣的电影。另外一个例子,通过收集社交媒体情绪数据,零售商可以更多地了解客户的购买习惯,从而提供更令人满意的购物体验。还比如,随着搜索引擎收集越来越多的搜索和选择数据,引擎可以提取与其用户相关的更准确的信息,然后提供更相关的搜索结果,其原理是通过大量分析数据可以让您看到通常可能看不到的内容,从而更好地为客户服务。
ml 是机器学习 machine learning 的缩写,所以 systemml 显而易见是机器学习系统,由 ibm 的 almaden 实验室 10 年前开发。它用 java 语言编写,可支持描述性分析、分类、聚类、回归、矩阵分解及生存分析等机器学习算法。ibm 人工智能 waston 平台就整合了 systemml 的功能,例如 systemml 用于 watson 医疗用于预测治疗结果的机器学习算法,精确度大幅度提高。
systemml 在 2015 年由 ibm 开源,于 2015 年 8 月 27 日在 github 上公开发布,并于 2015 年 11 月 2 日成为 apache incubator 孵化项目。apache systemml 作为开源大数据机学习平台受到广泛认可,在 cadent technology 和 ibm watson health 等客户实践中备受赞誉。apache software foundation 在 2017 年 5 月 31 日宣布将 apache systemml 孵化毕业,自此成为 apache 顶级项目。目前 systemml 作为 apache 顶级项目的最新版本是 0.14,支持 spark 2.x。apache systemml 在 2016 年被 datamation.com 列为 15 款开源人工智能软件之一。在部署方面, systemml 运行环境支持单机和分布式部署。单机部署显然有利于本地开发的工作,而分布式部署则可以真正发挥机器学习的威力,支持的框架包括 hadoop 和 spark。
apache systemml 目前支持的机器学习算法有:
1. 描述性统计 descriptive statistics
该类中的算法用于描述数据集的主要特征。它们提供了对不同观察或数据记录计算的有意义的摘要收集在研究中。这些摘要通常构成初步数据探索的基础,作为其中的一部分更广泛的统计分析。
o 单变量统计 univariate statistics
o 双变量统计 bivariate statistics
o 分层双变量统计 stratified bivariate statistics
2. 分类 classification
该类中的算法用于基于一些预定义的类或对象对数据进行分组。这是监督学习的特点。分类算法的一个例子是将社交媒体的评论分为正面评价,负面评价或中立评价。
o 多项 logistic 回归 multinomial logistic regression
o 支持向量机 support vector machines
§ 二进制类支持向量机 binary-class support vector machines
§ 多类支持向量机 multi-class support vector machines
o 朴素贝叶斯 naive bayes
o 决策树 decision trees
o 随机森林 random forests
3. 聚类 clustering
聚类是一种无监督的学习类算法。数据集中没有预定义的类 - 算法在数据中找到关系。聚类算法将数据排列或聚类成若干数量的逻辑组。例如,确定商店客户的购买模式。
o k 均值聚类 k-means clustering
4. 回归 regression
回归是另一类监督学习算法。该数据集中的目标变量是连续的。股票市场预测是回归算法的一个例子。这里的股票价格是目标变量,或者是我们想预测的,而且每天都有变化。
o 线性回归 linear regression
o 逐步线性回归 stepwise linear regression
o 广义线性模型 generalized linear models
o 逐步广义线性回归 stepwise generalized linear regression
o 回归计分与预测 regression scoring and prediction
5. 矩阵分解 matrix factorization
矩阵分解算法用于发现嵌入在不同实体之间的交互中的潜在特征。它们利用多个矩阵,当它们相乘时,生成一个类似于原先矩阵的新矩阵。亚马逊和 netflix 使用矩阵因式分解算法来提出产品建议。例如每行代表您的一个客户,每列表示您的一个产品,矩阵是大而稀疏的。因此,每个单元代表由特定客户购买的特定产品。该矩阵首先填充历史数据,然后将原始矩阵分解为"产品因素"和"客户因素"两个因素。通过将这两个因子相乘在一起,我们产生添加到矩阵中的新的非零值。这些新的非零值表示产品建议。
o 主成分分析 principal component analysis
o 通过交替最小化完成矩阵 matrix completion via alternating minimizations
6. 生存分析 survival analysis
生存分析检查感兴趣的特定事件发生所需的时间。换句话说,它们用于估计生存概率。例如,在医学研究中,原型的这种事件是患者的死亡,但是该方法可以应用于其他应用领域,例如在心理实验中完成个人的任务或者在工程中的电气部件的故障。
o kaplan-meier 生存分析 kaplan-meier survival analysis
o cox 比例风险回归模型 cox proportional hazard regression model
apache systemml 具备两种非常的能力在机器学 习领 域独 领风骚 。声明式机器学 习 ( declarative machine learning 简称 dml ) 使表达 ml 算法更容易和更自然。 算法可以用 类 似 r 的 语 法或 类 python 语法来表示。 dml 通 过 提供表达自定 义 分析的完全灵活性以及与底 层输 入格式和物理数据表示形式的数据独立性, 显 着提高了数据科学家的生 产 力。其次, apache systemml 根据数据和集群特性提供自 动优 化,以确保效率和可 扩 展性。 apache systemml 为使用大数据的机器学习提供了最佳性能。它可以在 mapreduce 或 spark 环境中运行,它可以自动优化并实现性能扩展,自动确定算法是在单机还是在集群上运行。
当对小数据量进行机器学习时,数据科学家可以利用 r 或 python 编写专为数据解读而设计的高级代码。该代码可以在单机上上运行,返回给数据科学家的结果可能不是预期的,而是一个迭代的结果,然后开始修改代码和重新评估结果的过程,这一直持续到科学家认为结果是可以接受的,这种方法适用于小数据量。对于大数据的情况,则需要采用 hadoop 或者 spark 计算机集群,在这种情况下,数据科学家像以前一样写高级代码,但必须依靠程序员将代码重新实现或转换为分布式平台的代码,这经常需要消耗大量的时间和精力。进行第一次迭代的结果被传回给数据科学家,与小数据一样,结果不太可能是数据科学家预期,并且需要对算法进行一些调整。取决于算法的复杂性和要分析的数据量,迭代可能需要几天甚至几周才能运行,每个代码重写和重新转换都容易产生错误。
如图 1 所示,systemml 的作用是翻译数据科学家的代码为可扩展的可执行程序,这有利于大大减少每次迭代的运行时间,同时 systemml 将性能和可扩展性结合在一起,代码量远远小于其他方式。
为了说明 apache systemml 的性能,比较了三种不同的稀疏集合:小数据量,中等数据规模和大量数据。小数据量包含 1.2 gb 数据,中等数据量包含 12 gb 数据,大量数据 120 gb 数据,在 6 节点计算机集群上分别用 r、spark mllib 和 systemml 运行同样的算法。首先,r 代码需要超过一天多的时间才能最终达成小数据量的计算, 由于内存 不足错误,r 从未完成在中型和大型数据集上的运行,显而易见 r 不是为大数据分析设计的。spark mllib 在小数据和中等数据情况表现很好, 可以却花 费 了超过一天的 时间 来运行大数据集。 apache systemml 超越了其他方案,在各种数据量下均能快速完成分析任务, 如图 2 所示。
apache systemml 能实现大数据的机器学习的能力和高性能源于 systemml 优化器,用来自动执行关键的性能决策,分布式还是本地计算? 如何进行数据分片? 是否需要磁盘和内存交互? apache systemml 支持分布式和本地的混合运算,systemml 优化器可以支持 spark driver 中的多线程计算,spark executors 中的分布式计算以及优化器进行基于成本的选择。如图 3 所示,优化器的输入是算法,输出则是生成的分布式计算代码。优化器分为三个部分,语言层、高层次操作层(hop)、低层次操作层(lop)。
· 语言层完成了三种不同的操作:解析,变量分析和验证,输入代码被分成基本块,然后在适用的地方进行优化。
· 高层次操作层(hop)创建表示块的数据流图,根据数据统计信息确定作业分配。优化器从基于内存和成本估算的替代执行计划中选择,并确定操作符的顺序和选择,选择分布式、本地或混合运算方式。systemml 有一个广泛的重写库,这些重写用于优化代码。
· 低层次操作层(lop)生成物理执行计划,进一步优化 spark、map-reduce 的作业。
apache systemml 提供了多种执行模式,数据科学家可以在单机上开发一个算法,然后进行扩展,使用 spark 或 hadoop 将该算法用于分发群集。apache systemml 的执行模式分为以下五种,鉴于 systemml 的主要目的是在大型分布式数据集上执行机器学习,调用 systemml 的两个最重要的方法是 hadoop batch 和 spark batch 模式。
spark mlcontext api 提供了一个编程接口,用于使用 scala,java 和 python 等语言从 spark 与 systemml 进行交互。 因此,它提供了一种方便的方式来与 spark shell 和 notebook (如 jupyter 和 zeppelin)进行交互。
spark batch 模式可以使用 spark-submit systemml.jar 在批处理模式下调用 systemml,调用的 dml 脚本在 -f 参数后面指定。
hadoop batch 模式可以使用 hadoop jar systemml.jar 在批处理模式下调用 systemml,调用的 dml 脚本在 -f 参数后面指定。
systemml 的独立模式旨在允许数据科学家在单个机器上快速原型算法。 在独立模式下,所有操作均发生在非 hadoop 环境中的单个节点上。 独立模式不适用于大型数据集。对于大规模生产环境,systemml 算法执行可以使用 apache hadoop 或 apache spark 分布在多节点集群中。
java 机器学习连接器(java machine learning connector 简称 jmlc) api 是用于以嵌入式方式与 systemml 交互的编程接口。为了使用 jmlc,由于 jmlc 在现有的 java 虚拟机中调用了 systemml,所以需要在 java 应用程序的类路径中包含 systemml jar 文件。这种可嵌入性使得 systemml 成为生产流程的一部分,用于诸如评分等任务。jmlc 的主要目的是作为一个评分 api,您的评分功能使用 systemml 的 dml (声明式机器学习)语言表达。在相当少量的输入数据上,单个 jvm 上的单个计算机上产生相对较小量的输出数据。
由于启动成本,往往是最佳做法做批量打分,例如一次记录 1000 条记录。对于大量数据,建议以 systemml 的分布式模式(如 spark 批处理模式或 hadoop 批处理模式)运行 dml,以利用 systemml 的分布式计算功能。 jmlc 以性能为代价提供可嵌入性,因此其使用取决于正在处理的业务用例的性质。
ibm biginsights 是业界领先的 hadoop 企业级发行版本,在世界著名 it 行业独立研究公司 forrester 从 2012 年到 2016 年发布的三次 hadoop 尊龙凯时官方网站的解决方案的评测报告中,ibm biginsights 一直处于领导者位置。ibm biginsights 以 apache hadoop 及其相关开源项目作为核心组件,并在 hadoop 开源框架的基础上进行了大量的企业化增强。ibm biginsights 包含 apache systemml 最新的版本,可以直接部署。通常 apache systemml 会和 spark 一起使用,systemml 必须和 spark 节点安装在一起,并且需要在多节点部署。ibm biginsights 4.2 以后的版本,比如 版本 4.2.5 就可以通过 ambari 来安装和管理 systemml 组件,如图 4 所示。
图 4. ibm biginsights 包含 apache system
ibm
ibm biginsights 4.2 版本可以把 apache systemml 单独添加到现有的安装中。清单 1 给出了在 ibm biginsights 4.2 一个节点上部署 apache systemml 的部署脚本。其他 hadoop 发行版用户可以从下载 apache systemml 最新的版本按照类似清单 1 的方式部署。
下面使用 ibm biginsights 4.2 的 systemml 0.10 版本来做一个实际机器学习的例子,数据来自互联网的航空数据,场景是预测飞机延误。
1. 首先需要下载并加载到 hdfs 上,如清单 2 所示。
清单 2. 数据准备
2. 这个例子除了需要 systemml 类库外,还需要用到 spark 解析和查询 csv 格式的类库,为了说明方便采用 spark-shell 的方式来执行这个例子,它的执行方式是 spark mlcontext,如清单 3 所示。
清单 3. 启动 apache systemml 的 spark 环境
3. 如清单 4 所示使用 spark csv 类库将数据集加载到 dataframe 中。
清单 4. 数据加载
4. 如清单 5 所示使用 spark sql 查看哪些机场延误最多。
清单 5. 数据探索
5. 这个例子是预测出发地是 jfk 且延误超过 15 个航班,如果超过 15 则延误标记为 1.0,
没有超过 15 标记为 2.0。如清单 6 所示进行数据预处理,随机把数据集分成 70% 的训练数据和 30% 的测试数据。模型训练的数据有 81307 条,用来验证模型的测试数据有 34882 条。
清单 6. 数据预处理
6. 使用 one-hot encoding 对目的地进行编码,并包括列 year,month,dayofmonth,dayofweek,distance 。 one-hot encoding 是将一 列标签索引映射到一列二进制向量,最多只有一个单值。 该编码允许期望连续特征(例如逻辑回归)的算法使用分类特征。
清单 7. 数据编码
7. 使用 systemml 构建模型,实际调用 systemml 的 multilogreg.dml(用于训练)如清单 7 所示,multilogreg.dml 脚本执行二项式和多项逻辑回归。在这个例子中设置了以下参数,并用 70% 的训练数据进行模型训练。
o reg: (缺省值: 0.0) l2 正则化参数,设置为 1e-4
o tol: (缺省值: 0.000001) 公差,用于收敛标准,设置为 1e-2
o mii: (缺省值: 0) 内部迭代的最大数目,设置为 0
o moi: (缺省值: 100) 最大外部迭代次数,设置为 100
清单 7. 预测模型
scala> import
org.apache.spark.ml.feature.{onehotencoder, stringindexer,
vectorassembler}
scala> val indexer = new
stringindexer().setinputcol("dest").setoutputcol("destindex").sethandleinvalid("skip")
scala> val encoder = new
onehotencoder().setinputcol("destindex").setoutputcol("destvec")
scala> val assembler = new
vectorassembler().setinputcols(array("year","month","dayofmonth","dayofweek","distance","destvec")).setoutputcol("features")
8. 最后用 30% 的测试数据进行预测,实际调用 systemml 的 glm-predict.dml(用于预测)。如清单 8 所示,列出了航班预测的结果以及实际延误的情况,并最后计算出模型的均方根误差。
1.
清单 8. 模型评估
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 | scala> val predictions = model.transform(testdataset.withcolumnrenamed("label", "originallabel"))
scala>predictions.select("prediction", "originallabel").show ---------- ------------- |prediction|originallabel| ---------- ------------- | 1.0| 1.0| | 1.0| 1.0| | 1.0| 1.0| | 1.0| 1.0| | 1.0| 2.0| | 1.0| 2.0| | 1.0| 1.0| | 1.0| 1.0| | 1.0| 2.0| | 1.0| 2.0| | 1.0| 1.0| | 1.0| 2.0| | 1.0| 2.0| | 1.0| 2.0| | 1.0| 2.0| | 1.0| 1.0| | 1.0| 2.0| | 1.0| 2.0| | 1.0| 1.0| | 1.0| 1.0| ---------- ------------- only showing top 20 rows
scala> sqlcontext.udf.register("square", (x:double) => math.pow(x, 2.0)) scala> predictions.registertemptable("predictions") scala> sqlcontext.sql("select sqrt(avg(square(originallabel - prediction))) from predictions").show ------------------ | _c0| ------------------ |0.8567701236741244| ------------------ |
本文通过理论联系实际的方式描述了如何在 ibm biginsights 利用 apache systemml 进行大数据平台的机器学习。
systemml 是一个灵活的,可 扩 展的机器学 习 系 统 。 systemml 的特点是:
· 通过类似 r 和 类 似 python 的 语 言 进 行算法定制。
· 多种执行模式,包括 spark mlcontext , spark batch , hadoop batch , standalone 和 jmlc 。
· 基于数据和集群特征的自动优化,以确保效率和可扩展性。
ibm biginsights 是业界领先的 hadoop 企业级发行版本,不仅包含 apache systemml 组件也对其进行企业级尊龙凯时app的技术支持。ibm biginsights 最新版本包含的 jupyter notebook 可以方便地进行 systemml 的机器学习代码的编写和调试。
|