机器/深度学习EasyML、cv4j、XGBoost、ParlAI介绍

以下为你介绍的机器学习/深度学习软件都可用在Linux系统上:EasyML(图形化机器学习系统)、cv4j(实时图像处理和机器学习库)、XGBoost(分布式梯度增强库)、ParlAI(AI 对话模型研究和训练框架)。

1、EasyML(图形化机器学习系统)

EasyML(Easy Machine Learning)是一个简单机器学习系统。

在该系统中,一个学习任务被构造为一个有向非循环图(DAG/directed acyclic graph),每个节点表征一步操作(即机器学习算法),每一条边表征从一个节点到后一个即节点的数据流。

任务可被人工定义,或根据现有任务/模板进行克隆。在把任务提交到云端之后,每个节点将根据 DAG 自动执行。图形用户界面被实现,从而可使用户以拖拉的方式创建、配置、提交和监督一项任务。

系统包含三个主要组件:

分布式的机器学习库:

不仅能实现流行的机器学习算法,也能实现数据预处理/后处理、数据格式转变、特征生成、表现评估等算法。这些算法主要是基于 Spark 实现的。

基于 GUI 的机器学习开发环境系统:

能让用户以拖放的方式创造、安装、提交、监控、共享他们的机器学习流程。机器学习库中所有的算法都可在此开发环境系统中获得并安装,它们是构建机器学习任务的主要基础。

机器/深度学习EasyML、cv4j、XGBoost、ParlAI介绍

执行任务的云服务:

该服务基于开源的 Hadoop 和 Spark 大数据平台建立,在 Docker 上组织了服务器集群。从 GUI 上接受一个 DAG 任务之后,在所有的独立数据源准备好时,每个节点将会自动安排运行。对应节点的算法将会依据实现在 Linux、Spark 或者 Map-Reduce\cite 上自动安排运行。

机器/深度学习EasyML、cv4j、XGBoost、ParlAI介绍

下载地址:https://github.com/ICT-BDA/EasyML

2、cv4j(实时图像处理和机器学习库)

该项目目标是建立一个以纯Java实现的高质量实时图像处理和机器学习库。该框架可以在Java桌面和android平台上运行应用程序。

下载和使用:

1].单独下载cv4j

compile 'com.cv4j:cv4j:0.1.1.4'

2].下载rxcv4j

rxcv4j 是使用 RxJava2.x 进行的封装,如果下载该模块的话无需再下载cv4j。

compile 'com.cv4j:rxcv4j:0.1.1.1'

下载地址:https://github.com/imageprocessor/cv4j

3、XGBoost(分布式梯度增强库)

机器/深度学习EasyML、cv4j、XGBoost、ParlAI介绍

XGBoost是"极端梯度提升"(eXtreme Gradient Boosting)的简称。XGBoost 源于梯度提升框架,但是更加高效,秘诀就在于算法能并行计算、近似建树、对稀疏数据的有效处理以及内存使用优化,这使得 XGBoost 至少比现有梯度提升实现有至少 10 倍的速度提升。

XGBoost 支持在多台机器上进行分布式训练,包括 AWS,GCE,Azure 和 Yarn 集群。可以与 Flink,Spark 和其他云数据流系统集成。

XGBoost 可以处理回归、分类和排序等多种任务。由于它在预测性能上的强大且训练速度快,XGBoost 已屡屡斩获 Kaggle 各大竞赛的冠军宝座。

下载地址:https://github.com/dmlc/xgboost

4、ParlAI(AI 对话模型研究和训练框架)

ParlAI(发音为“par-lay”)是 Facebook 开源的,用于在 Python 中实现的对话 AI 研究框架。

其目标是为研究人员提供:

一个用于训练和测试对话模型的统一框架。

一次对多个数据集进行多任务训练。

无缝整合 Amazon Mechanical Turk 进行数据收集和人工评估。

目标:

1]、统一评估模型对话框架

按需下载任务/数据集,并为其提供了同样简单的接口。

统一的数据集输入和评估框架/指标。

agents/ 目录鼓励研究人员将培训代码提交到存储库以便与他人分享。

协助重现。

2]、最终目标是实现通用的对话,其中包含许多不同的技能

无缝结合模拟和实际语言任务。

鼓励多任务模式开发和评估。

有助于减少模型到特定数据集的过度拟合。

3]、最终目标是实现与人的真实对话

通过 Mechanical Turk 对人类的现场对话进行训练和评估。

只需简单的设置,就可以连接 Mechanical Turk 上的人类与你的对话代理。

允许比较不同研究组的 Turk 实验。

4]、一组数据集,以引导人工交互的工作对话模型

激励构建将在此存储库中进行的新数据集。

安装:

ParlAI当前需要Python3和Pytorch 1.1或更高版本,核心模块的依赖关系列在require.txt中,包含的某些模型(在parlai/agent中)具有其他要求。

运行以下命令以克隆存储库并安装ParlAI:

git clone https://github.com/facebookresearch/ParlAI.git ~/ParlAI

cd ~/ParlAI; python setup.py develop

这会将克隆的目录链接到您的站点包。

这是建议的安装过程,因为它提供了对示例的立即访问,并允许您修改可能需要的任何内容。如果要向存储库提交另一个任务,此功能特别有用。

所有需要的数据将下载到~/ParlAI/data,如果需要,任何非数据文件将下载到~/ParlAI/downloads。如果需要清除这些文件使用的空间,则可以安全地删除这些目录,然后将再次下载所需的任何文件。

下载地址:https://github.com/facebookresearch/ParlAI

注明

以上就是机器/深度学习EasyML、cv4j、XGBoost、ParlAI的介绍内容,这些机器学习/深度学习软件都能使用在Linux操作系统中。

栏目相关文章