数据处理Data Accelerator、Piflow、Hazelcast Jet、AthenaX介绍
以下为你介绍的数据处理软件都可用在Linux系统上:Data Accelerator(简化流数据处理的数据管道)、Piflow(大数据流水线系统)、Hazelcast Jet(基于 Hazelcast 的分布式数据处理引擎)、AthenaX(数据流分析平台)。
1、Data Accelerator(简化流数据处理的数据管道)
Data Accelerator 的一些方法可以更容易地在 Apache Spark 上构建流式传输管道:
1]、即插即用:轻松设置输入源和输出接收器,以便在几分钟内建立管道。Data Accelerator 支持从 Eventhub 和 IoThub 取数据,并支持将数据下载到 Azure blob、CosmosDB、Eventhub 等。
2]、无代码体验:无需编写任何代码即可设置警报和数据处理。通过规则设计器体验,您可以指定简单和聚合的数据处理,标记和警报。
3]、SQL 查询:在 SQL 中编写复杂的处理——无需在 Scala 中工作。内置的可扩展性模型还支持用户定义的函数并利用 Azure 功能,例如,用于 ML 中流。
4]、实时查询:通过针对传入数据样本运行,在几秒钟内验证您的查询,从而节省设置和测试管道处理的工作时间。
Data Accelerator 不仅仅是 EventHub 和数据库之间的管道。它允许用户在继续流式传输的同时重塑传入的事件,然后将同一事件的不同部分路由到不同的数据存储,同时提供健康监控和整个管道状态的警报。
Data Accelerator 还提供配置 UI 和规则/查询设计器体验,使用户无需编写任何代码即可启动和运行。
下载地址:https://github.com/microsoft/data-accelerator
2、Piflow(大数据流水线系统)
Piflow是一个基于分布式计算框架Spark开发的大数据流水线系统。该系统将数据的采集、清洗、计算、存储等各个环节封装成组件,以所见即所得方式进行流水线配置。简单易用,功能强大。它具有如下特性:
简单易用:可视化配置流水线,实时监控流水线运行状态,查看日志。
功能强大:提供100+的数据处理组件, 包括Hadoop 、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等,同时集成了微生物领域的相关算法。
扩展性强:支持自定义开发数据处理组件。
性能优越:基于分布式计算引擎Spark开发。
要求:
JDK 1.8或更高版本、Apache Maven 3.1.0或更高版本、Git客户端(在构建过程中由“bower”插件使用)、Spark-2.1.0、Hadoop-2.6.0、Hive-1.2.1。
下载地址:https://github.com/cas-bigdatalab/piflow
3、Hazelcast Jet(基于 Hazelcast 的分布式数据处理引擎)
Hazelcast Jet 是一个分布式计算平台,专为高性能流处理和快速批处理而构建。它在内存数据网格(IMDG)中嵌入Hazelcast,以提供轻量级的处理器包和可扩展的内存存储。
特性:
低延迟和分布式的通用数据处理框架,具有高吞吐量。
高并行和分布式的数据流和批处理。
分布式 java.util.stream API 支持 Hazelcast 数据结构,如 IMap 和 IList。
连接器允许从 Apache Kafka、HDFS、Hazelcast IMDG、sockets 和本地数据文件(如日志或 CSV)高速获取数据。
自定义连接器的 API。
针对内部部署和云部署的动态节点发现。
通过 Docker、Apache jclouds、Amazon Web Services、Microsoft Azure、Consul、Heroku、Kubernetes、Pivotal Cloud Foundry 和 Apache ZooKeeper 进行虚拟化支持和资源管理。
架构:
下载地址:https://jet.hazelcast.org/
4、AthenaX(数据流分析平台)
AthenaX 是 Uber 的内部流分析平台,旨在满足以下需求并为每一个人提供可访问的流分析能力:
(1)、轻松为各类用户提供导航服务,而无需对其技术背景提出任何要求。
(2)、以可扩展及高效方式分析实时事件。
(3)、极为强大,可持续支持成百上千项关键性任务。
AthenaX 同时支持着 Uber 的技术与非技术客户,确保其能够利用结构化查询语言(简称 SQL)运行全面的生产级流分析任务。SQL 使得事件流处理变得更为简单——SQL 负责描述需要分析的数据,而 AthenaX 则确定如何分析数据(例如进行数据定位或者对其计算进行规模扩展)。
AthenaX 将流数据与查询作为输入内容,计算出结果,而后将结果推送至各类输出内容当中。
下载地址:https://github.com/uber/AthenaX
注明
以上就是数据处理Data Accelerator、Piflow、Hazelcast Jet、AthenaX的介绍内容,这些数据处理软件都能使用在Linux操作系统中。