数据处理Vespa、Wormhole-SPAAS、Apache Geode、Surus介绍

以下为你介绍的数据处理软件都可用在Linux系统上:Vespa(开放大数据服务引擎)、Wormhole-SPAAS(流式处理平台)、Apache Geode(数据管理平台)、Surus(大数据分析集合)。

1、Vespa(开放大数据服务引擎)

数据处理Vespa、Wormhole-SPAAS、Apache Geode、Surus介绍

注:上图是架构图。

Vespa 是雅虎开源的针对大数据集的低延迟计算引擎。它存储和索引数据,以便在服务时间对数据进行查询、选择和处理。

Vespa 可实现:

使用类似 sql 的查询和非结构化搜索来选择内容、组织所有匹配以生成数据驱动页面、通过手动或机器学习的相关性模板对匹配结果排序、每秒数千次实时写入持久性数据。

Vespa 可用于:

应用搜索、个性化推荐、导航页、实时数据显示、数据/组排序。

下载地址:https://github.com/vespa-engine/vespa

2、Wormhole-SPAAS(流式处理平台)

数据处理Vespa、Wormhole-SPAAS、Apache Geode、Surus介绍

Wormhole 是一个 SPAAS(Stream Processing as a Service)平台解决方案。Wormhole 面向大数据项目的开发,运维以及管理人员,致力于简化和统一开发管理流程。当今运维是典型的大数据应用领域,Wormhole 是智能运维机器学习的有力支撑,尤其是针对流式实时和流式准实时数据处理场景。

同时,Wormhole 提供了可视化的操作界面,极简的配置流程,基于 SQL 的业务开发方式,并屏蔽了大数据处理底层技术细节,极大的降低了开发管理门槛,使得大数据项目开发和管理变得更加轻量敏捷可控可靠。

Wormhole 的设计理念是统一流式处理 DAG 高阶分形抽象,统一通用流转消息 UMS 协议抽象,统一通用流转消息 UMS 协议抽象。

Wormhole 主要特性:

支持可视化,配置化,SQL 化开发实施流式项目。

支持指令式动态流式处理的管理,运维,诊断和监控。

支持统一结构化 UMS 消息和自定义半结构化 JSON 消息。

支持处理增删改三态事件消息流。

支持单个物理流同时并行处理多个逻辑业务流。

支持流上 Lookup Anywhere,Pushdown Anywhere。

支持基于业务策略的事件时间戳流式处理。

支持UDF的注册管理和动态加载。

支持多目标数据系统的并发幂等入库。

支持多级基于增量消息的数据质量管理。

支持基于增量消息的流式处理和批量处理。

支持 Lambda 架构和 Kappa 架构。

支持与三方系统无缝集成,可作为三方系统的流控引擎。

支持私有云部署,安全权限管控和多租户资源管理。

下载地址:https://github.com/edp963/wormhole

3、Apache Geode(数据管理平台)

数据处理Vespa、Wormhole-SPAAS、Apache Geode、Surus介绍

Apache Geode 是一个数据管理平台,提供实时的、一致的、贯穿整个云架构地访问数据关键型应用。

Geode 池化了服务器上的内存、CPU、网络资源和本地磁盘,跨多个进程来管理应用对象和应用行为。它使用了动态数据复制和分区技术来实现高可用,高性能,高可扩展性和容错。另外,对于一个分布式数据容器,Apache Geode 是一个基于内存的数据管理系统,提供了可靠的异步事件通知和可靠的消息投递。

Apache Geode 是一个相当成熟强健的技术,最初由GemStone Systems 公司开发(位于美国俄勒冈州的比弗顿市),商标为 GemFire,此项技术初期被广泛应用在金融领域,用于华尔街交易平台,作为事务性低延时的数据引擎,那么今天Apache Geode 有超过600家大中型企业级用户,主要是必须满足低延时和24x7 高可靠要求的,高可扩展的关键业务应用系统。

此工程目前在ASF下正处于孵化阶段,通过孵化器来提供赞助,孵化对于所有新加入的工程很重要,直到基础设施,通信,决策流程足够稳定和其他成功的 ASF工程一致,当孵化器状态完成或代码稳定时,它提示此工程完全由 ASF 承认。

主要概念和模块:

缓存是一个抽象的概念,在一个 Geode 分布式系统中用于描述一个节点。

在每个缓存中,你定义数据 regions,数据 regions 类似于传统关系型数据库中的'表'的概念,以分布式的方式来管理数据,表现为名/值对儿形式,在分布式系统的每个缓存成员中,一个复制 region 保存数据的拷贝,一个分区 region 跨缓存成员来同步数据,在系统配置后,客户端应用能够访问regions 中的分布式数据,而不需要知道系统整体架构的知识,你能够定义监听器来接收通知,当数据发生变化时,同时你也能够定义超时标准来删除在一个 region 中的废弃掉的数据。

Locators 提供了发现和负载均衡服务,你配置带有 locator 服务列表的客户端,同时 locators 维护一个成员服务器的动态列表,默认情况下,Geode 客户端和服务器使用端口 40404 和多播来互相发现。

Geode 包含了如下的特性:

结合冗余,复制,和 "shared nothing" 的一致性架构来交付自动防故障的可靠性和高性能。

水平扩展到数千个缓存成员,具有多种缓存拓扑结构来满足不同的企业级部署需求,缓存能够跨多台机器进行分布。

异步和同步缓存更新传播。

Delta 传播只分发新版本和旧版本的变化量 (delta),而不是整个对象,从而可以节省大量的网络开销。

通过经过优化的,低延时的通信层进行可靠的异步事件通知,高保障的消息投递。

在没有额外硬件的辅助下,应用可以加速4 到 40,000 倍。

数据感知和实时BI,当你查询时,如果数据变化了,你能够立刻在系统中看见数据的变化。

集成 Spring 框架来加速和简化高可扩展、高并发和事务型企业级应用的开发复杂度。

JTA 兼容的事务支持。

集群的配置可以写到文件中和导出到其他集群中。

通过HTTP做远程集群管理。

基于REST应用开发的REST APIs。

滚动升级是可行的,但是需要服从新特性的限制问题。

下载地址:https://geode.apache.org/

4、Surus(大数据分析集合)

Surus 是 Pig 和 Hive 的分析集合,包括以下功能:

1]、ScorePMML-云评测模型工具。

2]、Robust Anomaly Detection (RAD)-健壮的 PCA 实现。

构建Surus:

Surus是标准的Maven项目,克隆git信息库后,您只需在项目根目录中运行以下命令:

mvn clean package

在第一个构建中,Maven将从Internet下载所有依赖项并将它们缓存在本地存储库(~/.m2/repository)中,这可能会花费大量时间,随后的构建将更快。

使用Surus:

构建Surus之后,您需要将其移至Hive/Pig实例并在您的环境中注册JAR。

您也可以使用此代码轻松安装异常检测R软件包:

library(devtools)

install_github(repo = "Surus", username = "Netflix", subdir = "resources/R/RAD")

下载地址:https://github.com/Netflix/Surus

注明

以上就是数据处理Vespa、Wormhole-SPAAS、Apache Geode、Surus的介绍内容,这些数据处理软件都能使用在Linux操作系统中。

栏目相关文章