数据处理Data Accelerator、Piflow、Hazelcast Jet、AthenaX介绍

以下为你介绍的数据处理软件都可用在Linux系统上:Data Accelerator(简化流数据处理的数据管道)、Piflow(大数据流水线系统)、Hazelcast Jet(基于 Hazelcast 的分布式数据处理引擎)、AthenaX(数据流分析平台)。

1、Data Accelerator(简化流数据处理的数据管道)

数据处理Data Accelerator、Piflow、Hazelcast Jet、AthenaX介绍

Data Accelerator 的一些方法可以更容易地在 Apache Spark 上构建流式传输管道:

1]、即插即用:轻松设置输入源和输出接收器,以便在几分钟内建立管道。Data Accelerator 支持从 Eventhub 和 IoThub 取数据,并支持将数据下载到 Azure blob、CosmosDB、Eventhub 等。

2]、无代码体验:无需编写任何代码即可设置警报和数据处理。通过规则设计器体验,您可以指定简单和聚合的数据处理,标记和警报。

3]、SQL 查询:在 SQL 中编写复杂的处理——无需在 Scala 中工作。内置的可扩展性模型还支持用户定义的函数并利用 Azure 功能,例如,用于 ML 中流。

4]、实时查询:通过针对传入数据样本运行,在几秒钟内验证您的查询,从而节省设置和测试管道处理的工作时间。

Data Accelerator 不仅仅是 EventHub 和数据库之间的管道。它允许用户在继续流式传输的同时重塑传入的事件,然后将同一事件的不同部分路由到不同的数据存储,同时提供健康监控和整个管道状态的警报。

Data Accelerator 还提供配置 UI 和规则/查询设计器体验,使用户无需编写任何代码即可启动和运行。

下载地址:https://github.com/microsoft/data-accelerator

2、Piflow(大数据流水线系统)

数据处理Data Accelerator、Piflow、Hazelcast Jet、AthenaX介绍

Piflow是一个基于分布式计算框架Spark开发的大数据流水线系统。该系统将数据的采集、清洗、计算、存储等各个环节封装成组件,以所见即所得方式进行流水线配置。简单易用,功能强大。它具有如下特性:

简单易用:可视化配置流水线,实时监控流水线运行状态,查看日志。

功能强大:提供100+的数据处理组件, 包括Hadoop 、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等,同时集成了微生物领域的相关算法。

扩展性强:支持自定义开发数据处理组件。

性能优越:基于分布式计算引擎Spark开发。

要求:

JDK 1.8或更高版本、Apache Maven 3.1.0或更高版本、Git客户端(在构建过程中由“bower”插件使用)、Spark-2.1.0、Hadoop-2.6.0、Hive-1.2.1。

下载地址:https://github.com/cas-bigdatalab/piflow

3、Hazelcast Jet(基于 Hazelcast 的分布式数据处理引擎)

Hazelcast Jet 是一个分布式计算平台,专为高性能流处理和快速批处理而构建。它在内存数据网格(IMDG)中嵌入Hazelcast,以提供轻量级的处理器包和可扩展的内存存储。

特性:

低延迟和分布式的通用数据处理框架,具有高吞吐量。

高并行和分布式的数据流和批处理。

分布式  java.util.stream API 支持 Hazelcast 数据结构,如 IMap 和 IList。

连接器允许从 Apache Kafka、HDFS、Hazelcast IMDG、sockets 和本地数据文件(如日志或 CSV)高速获取数据。

自定义连接器的 API。

针对内部部署和云部署的动态节点发现。

通过 Docker、Apache jclouds、Amazon Web Services、Microsoft Azure、Consul、Heroku、Kubernetes、Pivotal Cloud Foundry 和 Apache ZooKeeper 进行虚拟化支持和资源管理。

架构:

数据处理Data Accelerator、Piflow、Hazelcast Jet、AthenaX介绍

数据处理Data Accelerator、Piflow、Hazelcast Jet、AthenaX介绍

下载地址:https://jet.hazelcast.org/

4、AthenaX(数据流分析平台)

数据处理Data Accelerator、Piflow、Hazelcast Jet、AthenaX介绍

AthenaX 是 Uber 的内部流分析平台,旨在满足以下需求并为每一个人提供可访问的流分析能力:

(1)、轻松为各类用户提供导航服务,而无需对其技术背景提出任何要求。

(2)、以可扩展及高效方式分析实时事件。

(3)、极为强大,可持续支持成百上千项关键性任务。

AthenaX 同时支持着 Uber 的技术与非技术客户,确保其能够利用结构化查询语言(简称 SQL)运行全面的生产级流分析任务。SQL 使得事件流处理变得更为简单——SQL 负责描述需要分析的数据,而 AthenaX 则确定如何分析数据(例如进行数据定位或者对其计算进行规模扩展)。

AthenaX 将流数据与查询作为输入内容,计算出结果,而后将结果推送至各类输出内容当中。

下载地址:https://github.com/uber/AthenaX

注明

以上就是数据处理Data Accelerator、Piflow、Hazelcast Jet、AthenaX的介绍内容,这些数据处理软件都能使用在Linux操作系统中。

栏目相关文章