大数据相关软件Vertica、Hive HA、RedHadoop、REEF介绍

以下为你介绍的大数据相关软件都可用在Linux系统上:Vertica(实时分析平台)、Hive HA(用基于thrift的任意语言来调用hive)、RedHadoop(企业大数据平台)、REEF(微软大数据框架)。

1、Vertica(实时分析平台)

大数据相关软件Vertica、Hive HA、RedHadoop、REEF介绍

HP Vertica 基于列存储,相比传统面向行存储的数据库具有巨大的优势。同时 Vertica 支持 MPP(massively parallel processing)等技术,查询数据时 Vertica 只需取得需要的列,而不是被选择行的所有数据,其平均性能可提高 50x-1000x 倍。(查询性能高速度快) Vertica 的设计者多次表示他们的产品围绕着高性能和高可用性设计。由于对 MPP 技术的支持,可提供对粒度,可伸缩性和可用性的优势。每个节点完全独立运作,完全无共享架构,降低对共享资源的系统竞争。在此架构下,添加更多的节点可增加更多的容量和性能。当一个节点出现故障时,不会对整个系统产生影响。其他节点会完成故障节点的任务。Vertica 的数据库使用标准的 SQL 查询,同时 Vertica 的架构非常适合云计算,包括虚拟化,分布式多节点运行等,并且可以和 Hadoop/MapReduce 进行集成。

Vertica 的优势在于更加精确、灵活,且维护成本要便宜很多。

虽然是商业软件,但是有社区版本可以免费下载使用。

下载地址:https://www.vertica.com/

2、Hive HA(用基于thrift的任意语言来调用hive)

Hive HA服务器,用于多个Hive后端,具有黑名单池以检测Hive是否处于活动状态,并具有管理节点服务器来管理Hive服务器。基于Twisted Python框架的Hive Ha服务器,因此,通过安装Twisted,Hive HA可以安装在任何 unix系统上。

hive让大数据飞了起来,不再需要专人写MR。平常我们都可以用基于thrift的任意语言来调用hive。

不过爱恨各半,hive的thrift不稳定也是出了名的。很容易就出问题,让人无计可施。唯一的办法就是不断kill,不断restart。当然,我们可以用haproxy来解决这个问题,关键,haproxy不管hive是否逻辑可用,不能执行逻辑的hive也“死马当活马”。当然,搞的好的可以用 zookeeper,不过,它太“重”,而且不管hive的重启。

Hive HA横空出世。只要指明它可以管理的服务器ip,端口,启动一个主控服务器,在其他服务器上启动节点服务,它就一切搞定。

Hive HA原理是:

将若干hive 实例纳入一个资源池,然后对外提供一个唯一的接口,进行proxy relay。

对于程序开发人员,就把它认为是一台超强“hive"就可以。每次它接收到一个HIVE查询连接后,都会轮询资源池里可用的hive 资源。这样,能充分使用每个hive server,减少压力。在拿到hive 连接后,Hive HA会首先进行逻辑可用测试,这个逻辑规则可自行配置。如果逻辑可用,则直接把客户端的HIVE 查询连接 relay到该hive server。若逻辑不可用,则将该hive server放入黑名单,然后继续读取池里其他hive server进行连接测试。Hive Ha每隔一段时间(可配置),对黑名单中的hive server进行处理,通过和节点管理服务器通讯,重启该hive server。如果重启后可用,则将该hive从黑名单中移除,加入资源池。

Hive HA支持以下功能:

动态启动Hive服务器,只需在conf文件中设置Hive参数即可。

计时器,用于在黑名单中检测活动的蜂房服务器。

通过邮件通知配置单元服务器启动。

通过管理节点服务器自动杀死并重新启动死的配置单元服务器。

下载地址:https://github.com/foxmoon/HiveHa

3、RedHadoop(企业大数据平台)

大数据相关软件Vertica、Hive HA、RedHadoop、REEF介绍

RedHadoop 是一个持续优化的企业级Hadoop基础软件平台,让Hadoop大数据更简单。

RedHadoop大数据工场企业版是RedHadoop公司第一款产品,简称BWE(RedHadoop BigData Works Enterprise),是一款面向行业大数据应用需求,以Hadoop平台为核心,并对其进行了大量增强的基础平台产品。定位于解决高并发、低响应、TB级以上数据的存储和计算的需求,具备高可靠、低成本、按需扩容基础特性,并提供自动化部署、监控和告警、安全。RedHadoop持续增强操作系统功 能并打造更多丰富的上层结构化数据库和非结构化数据的应用,加强数据分析和挖掘能力。提供数据仓库(DW),结构化数据库(DB),实时分析(RT),视频分析(VD),搜索引擎(DS)垂直应用层软件。RedHadoop正在构建一个更完善的Hadoop分布式操作系统。会针对各个垂直应用领域做出持续优化比如 Data Storage,Data HouseWare,DataBase,RealTime,Data Mining,Data Search 等等方向做深度定制。基于行业可以由 GIS 地图,生物信息,交通信息处理,智能交通和智能城市,海量交易的定量分析,医疗数据的分析,基因组测序等等方向做探索。显然Hadoop已经从一个平台已经向一个分布式操作系统和分布式生态系统的方向发展了,RedHadoop提供一个平台可以更好的落地各类应用,让Hadoop成为一个茁壮并快捷的生态系统平台。

4、REEF(微软大数据框架)

大数据相关软件Vertica、Hive HA、RedHadoop、REEF介绍

REEF 是微软开发的一个大数据框架。REEF运行在YARN的上层。YARN是新一代Hadoop资源管理器,通过YARN,用户可以运行和管理同一个物理集群机上的多种作业,例如MapReduce批处理和图形处理作业。这样不仅可以巩固一个组织管理的系统数目,而且可以对相同的数据进行不同类型的数据分析。某些情况下,整个数据流可以执行在同一个集群机上。

Ramakrishnan表示,对于某些类型的作业,例如机器学习,YARN并不是一个理想的框架,因为这些作业对于数据传输、任务监控和结果集迭代等方面有一些特殊的要求。

而REEF可以解决这些问题。REEF分为两个部分:Evaluator和Activity。Evaluator 是YARN的容器,包括REEF服务和Activity(用户代码)都运行在Evaluator内。Ramakrishnan展示了一个工作流示例,YARN可以向上构建一个Evaluator,Activity代码会在Evaluator运行和完成,这时同一个Evaluator可以再次恢复初始状态运行起来,以便其他的Activity继续运行。

从理论上来说,REEF是一个有趣的技术,它试图去解决一些公司进行数据分析时的遗留问题。同时值得注意的是,REEF在某种程度上表明了微软拥抱Hadoop和开源的强烈意愿。几年前,微软只是致力于开发Hadoop的替代品和专有平台。而现在,它也在推动Hadoop社区的工作并提高自身代码的开放度。

注明

以上就是大数据相关软件Vertica、Hive HA、RedHadoop、REEF的介绍内容,这些大数据相关软件都能使用在Linux操作系统中。

栏目相关文章