大数据相关软件Facebook-Prophet、Apache Arrow/Griffin介绍

以下为你介绍的大数据相关软件都可用在Linux系统上:Facebook-Prophet(大规模预测工具)、Apache Arrow(内存数据交换格式)、Apache Griffin(开源数据质量解决方案)。

1、Facebook-Prophet(大规模预测工具)

大数据相关软件Facebook-Prophet、Apache Arrow/Griffin介绍

注意:该项目除了使用 BSD 协议授权外,还需遵守附加的专利授权。上图给出了我们发现的可以大规模使用的预测过程。

prophet是一个可以通过 Python 和 R 语言使用的预测工具 Prophet。并非所有的预测问题都可以通过同一种程序(procedure)解决。Prophet 是为我们在 Facebook 所遇到的业务预测任务而优化的,这些任务通常具有以下特点:

对于历史在至少几个月(最好是一年)的每小时、每天或每周的观察。

强大的多次的「人类规模级」的季节性:每周的一些天和每年的一些时候。

事先知道的以不定期的间隔发生的重要节假日(如,超级碗)。

合理数量的缺失的观察或大量异常。

历史趋势改变,比如因为产品发布或记录变化。

非线性增长曲线的趋势,其中有的趋势达到了自然极限或饱和。

用Python安装:

Prophet在PyPI上,因此您可以使用pip进行安装:

# bash

$ pip install fbprophet

Prophet的主要依赖者是pystan,在使用pip安装fbprophet之前,先通过pip安装pystan。

安装后,即可开始使用。

如果您升级系统上安装的PyStan版本,则可能需要重新安装fbprophet。

注:

确保已安装编译器(gcc,g++,build-essential)和Python开发工具(python-dev,python3-dev)。在Red Hat系统中,安装软件包gcc64和gcc64-c++,如果您使用的是VM,请注意,至少需要4GB的内存才能安装fbprophet,至少需要2GB的内存才能使用fbprophet。

下载地址:https://github.com/facebook/prophet

2、Apache Arrow(内存数据交换格式)

Apache Arrow是Apache基金会下一个全新的开源项目,同时也是顶级项目。它的目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。

用户在应用大数据分析时除了将Hadoop等大数据平台作为一个经济的存储和批处理平台之外也很看重分析系统的扩展性和性能。过去几年开源社区已经发布了很多工具来完善大数据分析的生态系统,这些工具涵盖了数据分析的各个层面,比如列式存储格式(Parquet/ORC)、内存计算层(Drill、Spark、Impala和Storm)以及强大的API接口(Python和R语言)。Arrow则是最新加入的一员,它提供了一种跨平台跨应用的内存数据交换格式。

提高大数据分析性能的一个重要手段是对列式数据的设计和处理。列式数据处理借助向量计算和SIMD使我们可以充分挖掘硬件的潜力。Apache Drill这一大数据查询引擎无论是在硬盘还是在内存中数据都是以列的方式存在的,而Arrow就是由Drill中Value Vector这一数据格式发展而来。除了列式数据,Apache Arrow也支持关系型和动态数据集,这使它成了处理物联网等数据时的理想格式选择。

Apache Arrow为大数据生态系统带来了可能性是无穷的。有Apache Arrow做为今后的标准数据交换格式,各个数据分析的系统和应用之间的交互性可以说是上了一个新的台阶。过去大部分的CPU周期都花在了数据的序列化和反序列化上,现在我们则能够实现不同系统之间数据的无缝共享。这意味着用户在将不同的系统结合使用时再也不用为数据格式多花心思了。

柱状内存的性能优势:

大数据相关软件Facebook-Prophet、Apache Arrow/Griffin介绍

通用数据层的优点:

大数据相关软件Facebook-Prophet、Apache Arrow/Griffin介绍

每个系统都有自己内部的内存格式。

70-80%的CPU浪费在序列化和反序列化过程。

类似功能在多个项目中实现,没有一个标准。

大数据相关软件Facebook-Prophet、Apache Arrow/Griffin介绍

所有系统都使用同一个内存格式。

避免了系统间通信的开销。

项目间可以共享功能(比如Parquet-to-Arrow reader)。

下载地址:https://arrow.apache.org/

3、Apache Griffin(开源数据质量解决方案)

Apache Griffin是一个应用于分布式数据系统中的开源数据质量解决方案。在Hadoop, Spark, Storm等分布式系统中,提供了一整套统一的流程来定义和检测数据集的质量并及时报告问题。

Apache Griffin填补了开源世界里在大数据质量领域的空白。就像空气质量,水和食品安全等无时不刻地在影响人类的生命一样,数据质量在数据科学领域是至关重要的。在大数据时代,企业决策调整,商机发现等越来越依赖于大数据的数据分析和数据挖掘,而数据质量的保证是所有一切数据分析和数据挖掘的基础。

系统架构图如下:

大数据相关软件Facebook-Prophet、Apache Arrow/Griffin介绍

核心优势:

大数据相关软件Facebook-Prophet、Apache Arrow/Griffin介绍

主要功能:

大数据相关软件Facebook-Prophet、Apache Arrow/Griffin介绍

企业应用:

Apache Griffin已经部署在eBay的生产环境中,为eBay系统提供核心数据质量检测服务(例如:实时的个性化数据平台,Hadoop 数据集等),每天验证的记录超过8亿条,数据量约1.2PB。

关于团队:

Apache Griffin现在的团队成员全部来自eBay中国卓越技术中心,这又是一个由国人自主研发并贡献出来的开源项目。目前正在将Apache Griffin项目迁移到Apache社区,我们非常欢迎热心于开源软件的程序猿们,数据猿们参与进来,一起推动Apache Griffin更快更好的发展,回馈给全球软件开发者们。

下载地址:https://github.com/apache/griffin

注明

以上就是大数据相关软件Facebook-Prophet、Apache Arrow、Apache Griffin的介绍内容,这些大数据相关软件都能使用在Linux操作系统中。

栏目相关文章