机器/深度学习Waffles、Oryx、scikit-learn、PredictionIO介绍

以下为你介绍的机器学习/深度学习软件都可用在Linux系统上:Waffles(机器学习工具包)、Oryx(开源机器学习项目)、scikit-learn(Python 机器学习工具包)、PredictionIO(机器学习服务器)。

1、Waffles(机器学习工具包)

注:Waffles 广泛的用于执行机器学习操作的命令行界面工具。

Waffles 英文原意是蜂蜜甜饼,在这里却指代一个非常强大的机器学习的开源工具包。Waffles里包含的算法特别多,涉及机器学习的方方面面,推荐系统位于其中的Waffles_recommend tool,大概只占整个Waffles的1/10的内容,其它还有分类、聚类、采样、降维、数据可视化、音频处理等许许多多工具包,估计能与之媲美的也就数Weka了。

下载地址:https://sourceforge.net/projects/waffles/

2、Oryx(开源机器学习项目)

机器/深度学习Waffles、Oryx、scikit-learn、PredictionIO介绍

Oryx的目标是帮助Hadoop用户搭建并部署能够实时查询的机器学习模型,例如垃圾邮件过滤和推荐引擎。随着数据的不断流入,Oryx还将支持自我更新。

无论从建模还是部署,Oryx都可以随需扩展,Owen认为这是Oryx与Hadoop的传统“甜蜜点”——探索性分析和运营性分析最大的不同。

Owen认为传统的在Hadoop上部署机器学习的技术——Apache Mahout已经走到尽头。

“Mahout受制于第一代MapReduce只能处理批任务的局限,用户需要做大量的工作才能搭建并让机器学习系统运转起来,而Myrrix重写 了Mahout,解决了所有老问题。如果Mahout还有药可救,Cloudera就不会收购Myrrix。Oryx差不多有90%的代码都来自 Myrrix,也有一些代码来自Cloudera”Owen说道。

人人都能使用的开源推荐引擎?

Oryx的定位不是机器学习算法的程序库,Owen关注的重点有四个:回归、分类、集群和协作式过滤(也就是推荐)。其中推荐系统非常热门,Owen正在与几个Cloudera的客户合作,帮他们使用Oryx部署推荐系统。

将Oryx打造成开发推荐系统的标准化工具的做法将使这个项目赢得极大关注,因为推荐系统几乎已经成了主流网站的标配,无论是电商还是内容网站都需要推荐系统提高网站的用户体验和转化率。但是推荐引擎技术目前面临的最大问题就是缺乏标准和开源工具。

致力于推荐技术标准化的公司不仅是Oryx一家,另外一家云计算创业公司Mortar Data也在积极推动用户推荐引擎技术的开发,并展现其开源推荐框架的优点。其他一些公司注入Expect Labs虽然没有开源,但试图通过人工智能API接口实现推荐系统的自动化。

目前还不是一个产品:

Owen认为Cloudera的所有客户(以及绝大多数的Hadoop用户)最终都想要部署运营型机器分析系统——不仅仅是推荐,Oryx将来有可能成为实现工具,但目前Oryx还只是一个实验性项目。

目前Owen还在花费大量时间担当Apache Spark目的贡献者,他想重写Oryx,将Spark而不是MapReduce作为主要的处理框架,因为Spark已经成为下一代大数据应用的热门技术。由于性能和速度优于MapReduce,且更加容易使用,Spark目前已经拥有一个庞大的用户和贡献者社区。这意味着Spark更加符合下一代低延迟、实时处理、迭代计算的大数据应用的要求,包括基于Oryx开发的实时机器学习系统。

下载地址:https://github.com/OryxProject/oryx

3、scikit-learn(Python 机器学习工具包)

机器/深度学习Waffles、Oryx、scikit-learn、PredictionIO介绍

scikit-learn 是一个 Python 的机器学习项目。是一个简单高效的数据挖掘和数据分析工具。基于 NumPy、SciPy 和 matplotlib 构建。

安装说明:

scikit-learn 依赖要求:

Python (>= 3.5)、NumPy (>= 1.11.0)、SciPy (>= 0.17.0)、joblib (>= 0.11)。

运行示例需要 Matplotlib >= 1.1.1。

用户安装:

已有 numpy 和 scipy 的用户安装 scikit-learn 最简单的方法是使用 pip:

pip install -U scikit-learn

或 conda:

conda install scikit-learn

您可以使用以下命令检查最新资源:

git clone https://github.com/scikit-learn/scikit-learn.git

下载地址:https://github.com/scikit-learn/scikit-learn

4、PredictionIO(机器学习服务器)

机器/深度学习Waffles、Oryx、scikit-learn、PredictionIO介绍

PredictionIO(Apache PredictionIO) 是一款开源的机器学习服务器,开发工程师和数据分析师可以使用它构建智能应用程序,并且还可以做一些预测功能,比如个性化推荐、发现内容等。好比开发者可以使用数据库服务器过滤信息。PredictionIO 使用 Scala 语言开发,数据库使用MongoDB,计算系统使用Hadoop,源码托管在 GitHub 上,遵循 Apache License v2.0 开源许可。

几乎任何应用与 PredictionIO 集成都可以变得更 ”聪明“。它具有以下特性:

基于已有数据预测用户行为。

选择你自己的机器学习算法。

无需担心可扩展性。

提供个性化视频、新闻、交易、广告或职位信息。

帮助用户发现有趣的事、文件、App 和资源等。

下载地址:https://predictionio.apache.org/

注明

以上就是机器/深度学习Waffles、Oryx、scikit-learn、PredictionIO的介绍内容,这些机器学习/深度学习软件都能使用在Linux操作系统中。

栏目相关文章