大数据相关软件Apache Trafodion/Apex、MLF、WhereHows介绍

以下为你介绍的大数据相关软件都可用在Linux系统上:Apache Trafodion(分布式SQL引擎)、Apache Apex(流和批处理引擎)、MLF(大数据机器学习框架)、WhereHows(数据发现和管理工具)。

1、Apache Trafodion(分布式SQL引擎)

大数据相关软件Apache Trafodion/Apex、MLF、WhereHows介绍

概览:

Trafodion提供了一个基于Hadoop平台的交易型分布式SQL引擎。它是一个擅长处理交易型负载的Hadoop大数据解决方案。其主要特性包括:

完整的ANSI SQL 92/99语言支持。

完整的ACID事务支持。对于读、写查询,Trafodion支持跨行,跨表和跨语句的事务保护。

支持多种异构存储引擎的直接访问。

为应用程序提供极佳的高可用性保证。

采用了查询间(intra-query)并发执行模式,轻松支持大数据应用。

同时应用编译时和运行时优化技术,优化了OLTP工作负载的性能。

事务管理特性包括:

事务串行化基于开源项目HBase-Trx的实现原理,采用多版本并发控制(MVCC)。

增强的故障恢复机制保证了数据库中用户数据的一致性。

事务管理器支持多线程的SQL客户端应用。

支持非事务型数据访问,即直接访问底层HBase表。

下载地址:http://trafodion.apache.org/

2、Apache Apex(流和批处理引擎)

大数据相关软件Apache Trafodion/Apex、MLF、WhereHows介绍

Apache Apex 是一个企业级的统一流和批处理引擎。提供高度可伸缩、高性能、容错、有状态、安全和分布式的大数据处理,同时操作起来非常简单容易。

建立Apex:

该项目使用Maven进行构建:

mvn install

然后,您可以从构建目录使用命令行界面(CLI):

./engine/src/main/scripts/apex

问题跟踪:

JIRA问题跟踪系统用于该项目,您可以在https://issues.apache.org/jira/browse/APEXCORE提交新问题并跟踪现有问题的进度。

请在提交消息中包含JIRA票证编号,它将自动将提交消息添加到JIRA票证中,并帮助将提交与正在跟踪的问题链接起来,以方便参考,提交示例如下所示:

git commit -am "APEXCORE-1234 Task completed ahead of schedule"

JIRA票证应得到解决,并由合并请求的提交者设置修订版本字段。

下载地址:http://apex.apache.org/

3、MLF(大数据机器学习框架)

弥勒佛:让天下没有难做的大数据模型!

功能:

下面是弥勒佛框架解决的问题类型,括号中的斜体代表尚未实现以及预计实现的时间:

监督式学习:最大熵分类模型(max entropy classifier),决策树模型(decision tree based models,2014 Q1)。

非监督式学习:聚类问题(k-means,2014 Q1)。

在线学习:在线梯度递降模型(online stochastic gradient descent)。

神经网络(2014 Q2/3)。

项目实现了下面的组件:

多种数据集(in-mem,skip)。

多种评价器(precision,recall,f-score,accuracy,confusion)和交叉评价(cross-validation)。

多种优化器:协程并发L-BFGS,梯度递降(batch, mini-batch, stochastic),带退火的学习率(learning rate),L1/L2正则化(regularization)。

稀疏向量(sparse vector)以存储和表达上亿级别的特征。

特征辞典(feature dictionary)在特征名和特征ID之间自动翻译。

现有的机器学习框架/软件包存在几个问题:

无法处理大数据:多数Python,Matlab和R写的训练框架适合处理规模小的样本,没有为大数据优化。

不容易整合到实际生产系统:standalone的程序无法作为library嵌入到大程序中。

模型单一:一个软件包往往只解决一个类型的问题(比如监督式或者非监督式)。

不容易扩展:设计时没有考虑可扩展性,难以添加新的模型和组件。

代码质量不高:代码缺乏规范,难读懂、难维护。

弥勒佛项目的诞生就是为了解决上面的问题,在框架设计上满足了下面几个需求:

处理大数据:可随业务增长scale up,无论你的数据样本是1K还是1B规模,都可使用弥勒佛项目。

为实际生产:模型的训练和使用都可以作为library或者service整合到在生产系统中。

丰富的模型:容易尝试不同的模型,在监督、非监督和在线学习等模型间方便地切换。

高度可扩展:容易添加新模型,方便地对新模型进行实验并迅速整合到生产系统中。

高度可读性:代码规范,注释和文档尽可能详尽,适合初学者进行大数据模型的学习。

安装/更新:

go get -u github.com/huichen/mlf

下载地址:https://github.com/huichen/mlf

4、WhereHows(数据发现和管理工具)

WhereHows 是 LinkedIn 公司一个用于大数据发现和管理的工具,集成了所有主要的数据处理系统,可以进行分类收集和元数据操作。方便内部员工发现公司内部的数据,跟踪数据集的移动和查看各种内部工具和服务的动向。

WhereHows 可以解决很多公司面临的大数据内部分享的问题,提供一个平台让员工进行企业有价值的数据发现和进行一些更深度的分享。当前 LinkedIn 的 WhereHows 存储的数据: 50,000 数据集,14,000 评论和 3500 万作业执行。

相关截图如下:

大数据相关软件Apache Trafodion/Apex、MLF、WhereHows介绍

大数据相关软件Apache Trafodion/Apex、MLF、WhereHows介绍

大数据相关软件Apache Trafodion/Apex、MLF、WhereHows介绍

大数据相关软件Apache Trafodion/Apex、MLF、WhereHows介绍

下载地址:https://github.com/linkedin/WhereHows

注明

以上就是大数据相关软件Apache Trafodion、Apache Apex、MLF、WhereHows的介绍内容,这些大数据相关软件都能使用在Linux操作系统中。

栏目相关文章