大数据相关软件StreamCQL、Hyracks、AsterixDB、Gobblin介绍

以下为你介绍的大数据相关软件都可用在Linux系统上:StreamCQL(流处理平台查询语言)、Hyracks(数据并行运行时平台)、Apache AsterixDB(大数据管理系统)、Gobblin(分布式数据集成框架)。

1、StreamCQL(流处理平台查询语言)

StreamCQL作为华为FusionInsight产品的重要组件,提供了在分布式流处理平台上的类SQL查询能力,包括窗口计算等高级特性,在开源之前已经在电信、金融等多个行业成功应用,简化开发工作量数倍。此次StreamCQL的开源可以看做是华为FusionInsight产品对大数据开源的积极拥抱,目的是让更多的社区开发爱好者、包括华为合作方、认证伙伴加入到项目的开源贡献和应用中,以更好的开源项目和产品来服务客户,发展社区。        

StreamCQL是一个类SQL的声明式语言,它用于在流(streams)和可更新关系(updatable relation)上的可持续查询,目的是在流处理平台分布式计算能力之上,通过使用简易通用的类SQL语言,使得业务逻辑的开发变得统一和简易。在架构上,除了支持主流的流处理平台Storm,它支持扩展到多种流处理引擎之上,如Flink。在功能上,StreamCQL弥补了传统流处理平台上一些基本业务功能的缺失,除了过滤、转换等基本SQL能力之外, 还引入基于内存窗口的计算、统计、关联等能力,以及流数据的拆分、合并等功能。后期StreamCQL的发展方向包括:模式匹配、CQLServer(CQL远程提交,多语言接口,JDBC接口)、可靠性增强等。

2、Hyracks(数据并行运行时平台)

Hyracks 是 Apache AsterixDB 的底层数据流运行平台,是并行运行时查询执行引擎。关于 AsterixDB 的介绍请继续往下阅读。

下载地址:https://github.com/apache/asterixdb-hyracks

3、Apache AsterixDB(大数据管理系统)

Apache AsterixDB 是开源的大数据管理系统 (BDMS),可以在一个集群中大规模存储,索引,管理和查询语义结构的数据。Hyracks 是 AsterixDB 的底层数据流运行平台。AsterixDB 拥有丰富的数据类型,扩展了 JSON 数据类型,支持立体的和临时的数据。

关键特性:

灵活的数据模型。

分布式存储和事务支持。

快速数据摄取。

可伸缩的并行数据查询执行运行时。

声明式查询语言。

AsterixDB 支持不同的存储和索引选项:

托管数据集,基于LSM的内部存储。

外部数据集,例如HDFS上的数据。

次要索引,用于两个存储选项。

架构:

大数据相关软件StreamCQL、Hyracks、AsterixDB、Gobblin介绍

性能:

大数据相关软件StreamCQL、Hyracks、AsterixDB、Gobblin介绍

交互式分析和可视化截图:

大数据相关软件StreamCQL、Hyracks、AsterixDB、Gobblin介绍

从源代码构建:

要从源代码构建AsterixDB,您应该具有一个包含以下内容的平台:

Unix风格的环境(Linux,OS X都可以)。

git。

Maven 3.3.9或更高版本。

Oracle JDK 8或更高版本。

说明:

1]、AsterixDB主服务器:

$git clone https://github.com/apache/asterixdb.git

2]、构建AsterixDB主服务器:

$cd asterixdb

$mvn clean package -DskipTests

在计算机上运行构建:

以下是使AsterixDB在本地计算机上运行的步骤:

1]、启动单机AsterixDB实例:

$cd asterixdb/asterix-server/target/asterix-server-*-binary-assembly/apache-asterixdb-*-SNAPSHOT

$./opt/local/bin/start-sample-cluster.sh

2]、可以在浏览器中运行查询,网址为:

http://localhost:19001

下载地址:http://asterixdb.apache.org/

4、Gobblin(分布式数据集成框架)

Gobblin 是 Hadoop 通用数据摄取框架,可以从各种数据源中提取,转换和加载海量数据。比如:数据库,rest APIs,filers,等等。Gobblin 处理日常规划任务需要所有数据摄取 ETLs,包括作业/任务规划,任务分配,错误处理,状态管理,数据质量检测,数据发布等等。

Gobblin 通过同样的执行框架从不同数据源摄取数据,在同一个地方管理所有不同数据源的元数据。同时结合了其他特性,比如自动伸缩,容错,数据质量保证,可扩展和处理数据模型改革等等。Gobblin 变得更容易使用,是个高效的数据摄取框架。

要求:

Java >= 1.8

gradle-wrapper.jar version 2.13

注:如果在测试打开的情况下构建发行版,则Maven version 3.5.3。

下载地址:https://github.com/apache/incubator-gobblin

注明

以上就是大数据相关软件StreamCQL、Hyracks、Apache AsterixDB、Gobblin的介绍内容,这些大数据相关软件都能使用在Linux操作系统中。

栏目相关文章