大数据相关软件Ebay Pulsar、Apache Falcon、JDV、OpenSOC介绍

以下为你介绍的大数据相关软件都可用在Linux系统上:Ebay Pulsar(实时大数据分析平台)、Apache Falcon(Hadoop 数据管理平台)、JDV(全称JBoss Data Virtualization)、OpenSOC(安全大数据分析框架)。

1、Ebay Pulsar(实时大数据分析平台)

Pulsar 是 eBay 开源的实时大数据分析平台。

作为全球性的商务平台和支付行业领先者,拥有海量的用户行为数据。基于现有的hadoop大数据处理,已经不能够满足业务上对实时性的需求。基于过去的大数据处理的经验和对最新技术的运用,探索出一个对海量的数据流进行实时的收集,处理,分发和分析的平台。并于2015年2月底开源此平台: Pulsar。

Pulsar 作为一个复杂事件处理平台,具有快速,准确,灵活的特性,保证点到点的低延时和高可靠,从而很好得满足了的eBay秒级实时数据分析的需求。同时每秒百万级流量处理能力,给客户带来更好的个性化体验,帮助客户监控实时业务信息并定制实时营销策路,及时监测网络欺诈行为并减少机器人干预。并且Pulsar是基于标准的分布式云架构部署并跨越多个数据中心,从而保证了在系统升级和拓扑更新时没有集群停机时间。

大数据相关软件Ebay Pulsar、Apache Falcon、JDV、OpenSOC介绍

Pulsar 平台提供了一个完整的实时大数据分析的解决方案:

大数据相关软件Ebay Pulsar、Apache Falcon、JDV、OpenSOC介绍

该平台能够实时收集 Event Stream,并且对 Event 进行实时的 Enrichment 和 Sessionization,推送到不同的实时应用,同时能够实时的进行统计和分析,对业务提供 Key insights。

在 Pulsar 平台内部,它把 Event Stream 看成一种类数据库的表,在上面通过应用申明式的4GL来定义Business logic。并且同时开源了作为支撑Pulsar 的一个全新的大数据流处理框架: Pulsar Jetstream。

Pulsar.Stream是一个通用的全新的大数据流的处理框架。他实现了一个开放的,自动发现的Topology, 不同的应用可以分布在不同的Data center,通过网络进行自动的发现并且建立连接,数据主动从Producer推送到Subscriber。在每个应用内部,通过Pipeline的方式连接各个业务模块,并且支持用4GL的EPL来定义业务逻辑。整个的topology是开放的并且能够动态扩展,相应的EPL也能够进行动态的更新且没有服务中断。

典型的部署结构:

大数据相关软件Ebay Pulsar、Apache Falcon、JDV、OpenSOC介绍

下载地址:https://github.com/pulsarIO/realtime-analytics/wiki

2、Apache Falcon(Hadoop 数据管理平台)

Apache Falcon 提供了一个用于治理和编排 Hadoop 内部和周边数据流的数据处理框架。该框架为获取和处理数据集、复制与保留数据集、重新定向位于非Hadoop扩展中的数据集、维护审核跟踪与沿袭提供了关键性的管控框架。Knox拓展了Hadoop的安全边界,实现了与LDAP、用于证书管理的活动目录等框架进行了充分整合,为跨Hadoop和所有相关项目的授权提供了一个通用服务。

整体架构:

大数据相关软件Ebay Pulsar、Apache Falcon、JDV、OpenSOC介绍

Feed Schedule flow:

大数据相关软件Ebay Pulsar、Apache Falcon、JDV、OpenSOC介绍

Process Schedule flow:

大数据相关软件Ebay Pulsar、Apache Falcon、JDV、OpenSOC介绍

下载地址:http://falcon.apache.org/

3、JDV(全称JBoss Data Virtualization)

大数据相关软件Ebay Pulsar、Apache Falcon、JDV、OpenSOC介绍

JBoss Data Virtualization(JDV)是数据集成解决方案,在有多个数据资源的时候,把他们作为单个数据资源对待,在规定的格式传递正确的数据,在正确的时间传递给任意的应用或者用户。

主要特性:敏捷开发,安全虚拟数据层,实时数据访问和配置。

下载地址:http://www.jboss.org/products/datavirt/overview/

4、OpenSOC(安全大数据分析框架)

OpenSOC:安全大数据分析框架。OpenSOC已经加入Apache工程改名为Apache Metron。

思科在 BroCON 大会上亮相了其安全大数据分析架构 OpenSOC,引起了广泛关注。OpenSOC 是一个针对网络包和流的大数据分析框架,它是大数据分析与安全分析技术的结合, 能够实时的检测网络异常情况并且可以扩展很多节点,它的存储使用开源项目 Hadoop,实时索引使用开源项目 ElasticSearch,在线流分析使用著名的开源项目 Storm。OpenSOC 概念性体系架构如下图所示:

大数据相关软件Ebay Pulsar、Apache Falcon、JDV、OpenSOC介绍

OpenSOC 主要功能包括:

可扩展的接收器和分析器能够监视任何Telemetry数据源。

是一个扩展性很强的框架,且支持各种Telemetry数据流。

支持对Telemetry数据流的异常检测和基于规则实时告警。

通过预设时间使用Hadoop存储Telemetry的数据流。

支持使用ElasticSearch实现自动化实时索引Telemetry数据流。

支持使用Hive利用SQL查询存储在Hadoop中的数据。

能够兼容ODBC/JDBC和继承已有的分析工具。

具有丰富的分析应用,且能够集成已有的分析工具。

支持实时的Telemetry搜索和跨Telemetry的匹配。

支持自动生成报告、和异常报警。

支持原数据包的抓取、存储、重组。

支持数据驱动的安全模型。

OpenSOC 官方文档介绍了以下五大优点:

由思科全力支持,适用于内部多用户。

免费、开源、基于Apache协议授权。

基于高可扩展平台(Hadoop、Kafka、Storm)实现。

基于可扩展的插件式设计。

具有灵活的部署模式,可在企业内部部署或者云端部署。

具有集中化的管理流程、人员和数据。

当前,OpenSOC 运行条件包括:

两个网卡(建议使用Napatech的NT20E2-CAP网卡)。

Apache Flume 1.4.0 版本及以上。

Apache Kafka 0.8.1 版本及以上。

Apache Storm 0.9 版本及以上。

Apache Hadoop 2.x 系列的任意版本。

Apache Hive 12 版本及以上(建议使用13版本)。

Apache Hbase 0.94 版本及以上。

ElasticSearch 1.1 版本及以上。

MySQL 5.6 版本及以上等。

附:建立Metron

构建完整的项目并运行测试:

$ mvn clean install

无需测试即可构建:

$ mvn clean install -DskipTests

使用HDP配置文件进行构建:

$ mvn clean install -PHDP-2.5.0.0

如果您不想将工件部署到本地.m2存储库,则可以在上面的命令中将“install”替换为“package”。

下载地址:https://github.com/apache/metron

注明

以上就是大数据相关软件Ebay Pulsar、Apache Falcon、JDV、OpenSOC的介绍内容,这些大数据相关软件都能使用在Linux操作系统中。

栏目相关文章