大数据相关软件DataHref、BigCore、Terrapin、Apache Eagle介绍

以下为你介绍的大数据相关软件都可用在Linux系统上:DataHref(数据挖掘算法及工具教程)、BigCore(大数据高并发开发框架)、Terrapin(Hadoop 数据服务工具)、Apache Eagle(Hadoop 数据安全方案)。

1、DataHref(数据挖掘算法及工具教程)

大数据相关软件DataHref、BigCore、Terrapin、Apache Eagle介绍

随着大数据技术的普及,对数据挖掘的需求在不断上升,本项目为一些常用的数据挖掘工具提供中文文档,并提供一部分数据挖掘算法的教程,仍在不断更新中。

项目页还提供有:数据挖掘算法教程、scikit使用教程、scikit数据集简介。

下载地址:https://github.com/CrawlScript/DataHref

2、BigCore(大数据高并发开发框架)

一套开源的服务器集群分布式大数据高并发的快速开发框架,使用mongodb内存数据库,二级缓存技术。

关键字:大数据、分布式、高性能、高并发、开发框架。

下载地址:https://gitee.com/bigcore/bigcore

3、Terrapin(Hadoop 数据服务工具)

大数据相关软件DataHref、BigCore、Terrapin、Apache Eagle介绍

Terrapin 是 Hadoop 数据服务工具,为批量生成的数据集服务。Terrapin 是低延迟服务系统,提供通过 Hadoop 作业生成,存储在 HDFS 集群的大型数据集随机访问功能。

Terrapin 可以从 S3,HDFS 或者直接从 MapReduce 作业中获取数据。Terrapin 是可扩展,容错性强,非常适合在各种 Web 规模应用中使用。Terapin 包含一个 key-value 数据模型。

入门:

为了构建terrapin,需要Java 7。目前,Terrapin支持Hadoop2。为了进行构建,请从git存储库的根目录运行以下命令(请注意,使用Hadoop 2编译的hbase在中央maven存储库中不可用,但使用HFiles是必需的):

git clone [terrapin-repo-url]

cd terrapin

# Install HBase 0.94 artifacts compiled against Hadoop 2.

mvn install:install-file \

 -Dfile=thirdparty/hbase-hadoop2-0.94.7.jar \

 -DgroupId=org.apache.hbase \

 -DartifactId=hbase-hadoop2 \

 -Dversion=0.94.7 \

 -Dpackaging=jar

# Building against default Hadoop version - 2.7.1

mvn package

# Building against custom Hadoop version you are using (if different from 2.7.1)

mvn [-Dhadoop.version=X -Dhadoop.client.version=X] package

下载地址:https://github.com/pinterest/terrapin

4、Apache Eagle(Hadoop 数据安全方案)

大数据相关软件DataHref、BigCore、Terrapin、Apache Eagle介绍

eBay公司隆重宣布正式向开源业界推出分布式实时安全监控引方案:Apache Eagle,该项目已正式加入Apache 称为孵化器项目。Apache Eagle提供一套高效分布式的流式策略引擎,具有高实时、可伸缩、易扩展、交互友好等特点,同时集成机器学习对用户行为建立Profile以实现实时智能实时地保护Hadoop生态系统中大数据的安全。

Eagle 是开源分布式实时Hadoop数据安全方案,支持数据行为实时监控,能立即监测出对敏感数据的访问或恶意的操作,并立即采取应对的措施。

我们相信Eagle将成为Hadoop数据安全领域的核心组件之一,因此我们决定将它的功能分享给整个社区。目前我们已经将Eagle捐赠给Apache软件基金会作为Apache 孵化器项目开源,期望能够同开源社区一同协作开发,使得Eagle不断发展壮大,共同满足开源社区中更广泛的需求。 

Eagle的数据行为监控方案可用于如下几类典型场景:

监控Hadoop中的数据访问流量。

检测非法入侵和违反安全规则的行为。

检测并防止敏感数据丢失和访问。

实现基于策略的实时检测和预警。

实现基于用户行为模式的异常数据行为检测。

Eagle具有如下特点:

高实时:我们充分理解安全监控中高度实时和快速反应的重要性,因此设计Eagle之初,我们竭尽可能地确保能在亚秒级别时间内产生告警,一旦综合多种因素确订为危险操作,立即采取措施阻止非法行为。

可伸缩:在eBay Eagle 被部署在多个大型Hadoop集群上,这些集群拥有数百PB的数据,每天有8亿以上的数据访问时间,因此Eagle必须具有处理海量实时数据的高度可伸缩能力。

简单易用:可用性也是Eagle产品的核心设计原则之一。通过Eagle的Sandbox,使用者仅需数分钟便可以设置好环境并开始尝试。为了使得用户体验尽可能简单,我们内置了许多很好的例子,只需简单地点击几步鼠标,便可以轻松地完成策略地创建和添加。

用户Profile:Eagle 内置提供基于机器学习算法对Hadoop中用户行为习惯建立用户Profile的功能。我们提供多种默认的机器学习算法供你选择用于针对不同HDFS特征集进行建模,通过历史行为模型,Eagle可以实时地检测异常用户行为并产生预警。

开源:Eagle一直根据开源的标准开发,并构建于诸多大数据领域的开源产品之上,因此我们决定以Apache许可证开源Eagle,以回馈社区,同时也期待获得社区的反馈、协作与支持。

建筑:

从0.5版开始,Eagle仅基于JDK 8构建。Eagle是使用Apache Maven构建的,应该安装NPM(在MAC OS上,尝试“ brew install node”),要构建Eagle,请运行:

mvn clean package -DskipTests 

成功构建后,您将在以下位置找到eagle二进制tarball:

eagle-assembly/target/eagle-${VERSION}-bin.tar.gz

下载地址:https://eagle.apache.org/

注明

以上就是大数据相关软件DataHref、BigCore、Terrapin、Apache Eagle的介绍内容,这些大数据相关软件都能使用在Linux操作系统中。

栏目相关文章