大数据相关软件Rain、Metacat、finndycloud、Apache Fluo介绍

以下为你介绍的大数据相关软件都可用在Linux系统上:Rain(Rust 实现的分布式计算框架)、Metacat(元数据发现服务框架)、finndycloud(开源分布式云采集工具化引擎)、Apache Fluo(大规模数据集增量处理系统)。

1、Rain(Rust 实现的分布式计算框架)

大数据相关软件Rain、Metacat、finndycloud、Apache Fluo介绍

Rain 是一个 Rust 实现的轻巧且强大的分布式计算框架,适用于处理大规模的基于任务的管道。

Rain 旨在降低分布式计算世界的入门门槛,目的是提供一个轻巧而强大的分布式框架,该框架具有直观的 Python API、简单的安装和部署以及顶层的深入监控。

功能特性:

数据流编程:Rain 中的计算被定义为任务的流程图(flow graph)。任务可以是内置函数,Python/C++/Rust 代码,也可以是外部应用程序,短而轻或长时间运行且繁重。该系统旨在将任何代码集成到管道中,合理分配其资源需求,并处理非常大的任务图(task graphs),通常是数十万个任务。

易于使用:Rain 设计之初就考虑到要易于部署,从单节点部署到大规模分布式系统和数千个核心的云。

Rust 核心:Python/C++/Rust API。为了安全和高效,Rain 采用 Rust 编写,并为 Rain 核心基础架构提供了高级 Python API,甚至支持开箱即用的 Python 任务。Rain 还提供了用 C++ 和 Rust 编写自己的任务的库。

监控:支持在线和 postmortem 监控。

快速开始:

1]、下载二进制文件

$ wget https://github.com/substantic/rain/releases/download/v0.4.0/rain-v0.4.0-linux-x64.tar.xz

$ tar xvf rain-v0.4.0-linux-x64.tar.xz

2]、安装Python API

$ pip3 install rain-python

3]、启动服务器和单个本地调控器

$ ./rain-v0.4.0-linux-x64/rain start --simple

4]、Rain "Hello world" in Python

from rain.client import Client, tasks, blob

client = Client("localhost", 7210)

with client.new_session() as session:

task = tasks.Concat((blob("Hello "), blob("world!")))

task.output.keep()

session.submit()

result = task.output.fetch().get_bytes()

print(result)

注:如果您已安装Rust,则可以按照以下步骤安装和启动Rain:

$ cargo install rain_server

$ pip3 install rain-python

$ rain start --simple

下载地址:https://github.com/substantic/rain

2、Metacat(元数据发现服务框架)

大数据相关软件Rain、Metacat、finndycloud、Apache Fluo介绍

Metacat 是一个联合的元数据 API 服务,可以访问 Hive、RDS、Teradata、Redshift、S3 和 Cassandra。Metacat 为您提供您所拥有的数据信息,包括位于何处以及如何处理。元数据说到底实际上还是关于数据的数据,所以 Metacat 的主要目的其实是给出一个地方来描述数据,以便我们可以用它做更多有用的事情。

Metacat 专注于解决以下三个问题:

1]、元数据系统的联合视图。

2]、允许关于数据集的任意元数据存储。

3]、元数据发现。

构建:

git clone git@github.com:Netflix/metacat.git

cd metacat

./gradlew clean build

构建完成后,将在metacat-war/build/libs目录下生成metacat WAR文件,Metacat需要两个基本配置:

一是metacat.plugin.config.location:包含目录配置的目录的路径。二是metacat.usermetadata.config.location:包含用于存储用户元数据的连接属性的配置文件的路径。

下载地址:https://github.com/Netflix/metacat

3、finndycloud(开源分布式云采集工具化引擎)

关于发源地开源云采集引擎:

发源地云采集引擎是由发源地研发团队开发的一套开源分布式云采集工具化引擎,致力于让用户快捷挖掘大数据矿山背后的价值! 发源地云采集引擎完全基于云端,集数据采集、清洗、去重、加工于一体的互联网WEB/APP数据采集引擎,支持本地化私有部署,可以快速搭建属于自己的大数据云采集爬虫系统。用户可以低成本、高效率完成网页中文本,图片等资源信息的采集,并进行过滤加工,挖掘出精准所需的数据,让数据以结构化的文件包、采集规则算法或API接口方式输出,同时可以选择发布到发源地大数据交易平台进行交易,或导出为Excel、CSV、SQL等格式的文件保存在本地。

特色功能:

国内首款开源云采集引擎:无需安装任何软件程序、浏览器插件。

海量免费规则:机器学习并覆盖90%网站及APP内数据采集规则。

数据/规则交易:支持源规则及数据的交易,让数据更有价值。

开放API接口:云端标准化服务API输出,助您大数据轻松落地。

工具化平台:数据采集、数据存储及数据应用的完整闭环。

脚本化引擎:支持自定义PHP脚本配置,实现更智能的机器人。

多扩展字段:支持50个信息字段采集,多维度获取数据。

数据安全:内置多重数据过滤模块,同时支持SQL/XSS过滤方案。

分布式采集:开源分布式采集系统,有效提升云采集效率。

秒级同步:即时高效的自动化分布式平台,数据即刻获取。

私有化部署:支持多服务器私有/本地部署,数据本地化存储。

全球高匿名节点:5000+高匿名节点IP,采集不再受到IP访问限制。

安装说明:

nginx下配置www主机域名主目录设置为[根目录]或[public目录](推荐配置后者)。

以下目录须设置为可写操作权限:

runtime/、data/、app/。

版权信息:

本系统遵循Apache2开源协议发布,并提供免费使用。

本项目包含的第三方源码或二进制文件遵循原版权标注。

下载地址:https://github.com/finndychain/finndychain-node

4、Apache Fluo(大规模数据集增量处理系统)

大数据相关软件Rain、Metacat、finndycloud、Apache Fluo介绍

Apache Fluo 是  Google Percolator(搜索索引)的开源实现,允许用户对存储在 Apache Accumulo 中的大型数据集进行增量更新,而无需重新处理所有的数据。与批处理和流处理框架不同的是,Fluo 提供了更低的延迟,并且可以在极大的数据集上运行。

在将新数据与现有数据相结合时,与批处理框架(例如 Spark,MapReduce)相比,Fluo 可明显减少延迟。其增量更新是使用事务实现的,允许数千个更新同时发生而不会破坏数据。

Fluo 已于 2017 年 7 月孵化成功,毕业成为 Apache 顶级项目。

下载地址:https://fluo.apache.org/

注明

以上就是大数据相关软件Rain、Metacat、finndycloud、Apache Fluo的介绍内容,这些大数据相关软件都能使用在Linux操作系统中。

栏目相关文章