大数据相关软件TARE、Luigi、Apache Kylin、S3mper介绍

以下为你介绍的大数据相关软件都可用在Linux系统上:TARE(定向广告和推荐一体化引擎)、Luigi(开源大数据工具)、Apache Kylin(OLAP 分析引擎)、S3mper(通过一致的,二级索引对亚马逊 S3 索引做额外的一致性检查)。

1、TARE(定向广告和推荐一体化引擎)

TARE全称是Targeted Advertising and Recommender Engine。做为定向广告和推荐一体化引擎,TARE解决的是大规模点击率预估问题。TARE有两个组成部分:

LASER 这是基于Hadoop实现的大规模分布式Logistic Regression,采用L2 Regulation。为了确保新鲜数据能够及时反应到模型中,LASER的训练分成2个部分:离线模型,采用ADMM算法实现,根据配置大约每周或者每两周可以重新训练,在线模型,其目的在于将新鲜数据实时反应到离线模型中,根据配置可以达到分钟级模型更新。

Ad delivery 这是实际的线上投放部分,采用C++编写,代码扩充自iZENECloud团队的SF1R搜索引擎项目。

TARE目前主要采用商品关键词做为特征,在应用到其他领域时,可根据需要对算法和架构进行调整。TARE的算法来自Linkedin的论文LASER-A Scalable Response Prediction Platform For Online Advertising,同时,在TARE开源之后,我们也注意到Linkedin也公开了自身LASER引擎的ADMM实现。

下载地址:https://github.com/izenecloud/laser

2、Luigi(开源大数据工具)

大数据相关软件TARE、Luigi、Apache Kylin、S3mper介绍

Luigi 是一个 Python 模块,可以帮你构建复杂的批量作业管道。处理依赖决议、工作流管理、可视化展示等等,内建 Hadoop 支持。

入门:

运行pip install luigi以从PyPI安装最新的稳定版本,最新版本的文档托管在readthedocs上。

运行pip install luigi [toml]以安装具有基于TOML的配置支持的Luigi。

对于最新的代码,请pip安装pip install git+https://github.com/spotify/luigi.git。

下载地址:https://github.com/spotify/luigi

3、Apache Kylin(OLAP 分析引擎)

Apache Kylin 是一个开源的分布式的 OLAP 分析引擎,来自 eBay 公司开发,基于 Hadoop 提供 SQL 接口和 OLAP 接口,支持 TB 到 PB 级别的数据量。

Apache Kylin 的商业支持请访问 https://kyligence.io/

Apache Kylin 是:

超级快的 OLAP 引擎,具备可伸缩性。

为 Hadoop 提供 ANSI-SQL 接口。

交互式查询能力。

MOLAP Cube。

可与其他 BI 工具无缝集成,如 Tableau,Microstrategy 和 Excel 也会推出。

其他值得关注的特性包括:

作业管理和监控。

压缩和编码的支持。

Cube 的增量更新。

Leverage HBase Coprocessor for query latency。

Approximate Query Capability for distinct Count (HyperLogLog)。

易用的 Web 管理、构建、监控和查询 Cube 的接口。

Security capability to set ACL at Cube/Project Level。

支持 LDAP 集成。

大数据相关软件TARE、Luigi、Apache Kylin、S3mper介绍

运行环境要求:

1]、Hadoop

Hadoop: 2.2.0.2.0.6.0-61 or above

Hive: 0.12.0.2.0.6.0-61 or above

HBase: 0.96.0.2.0.6.0-61-hadoop2

Tested with Hortornworks distribution (HDP2.1.3), not tested with others yet.

2]、Kylin Server

Command hadoop, hive, hbase is workable on your hadoop cluster

JDK Runtime: JDK7 (OpenJDK or Oracle JDK)

Maven

Git

Tomcat

Mysql

下载地址:https://gitee.com/mirrors/kylin-olap

4、S3mper(通过一致的,二级索引对亚马逊 S3 索引做额外的一致性检查)

大数据相关软件TARE、Luigi、Apache Kylin、S3mper介绍

注:以上是表结构图。

S3mper 利用面向方面编程和 AspectJ 实现来引导 Hadoop 文件系统实现(主要是实现 NativeS3FileSystem),和额外的逻辑,进行反复的二次索引的一致性检查。

二级索引默认使用 DynamoDB,因为它的服务提供速度,一致性和可用性的保证。轻量级的表模式设计速度非常快,不会影响文件系统的性能。

建立:

gradle包装器用于构建s3mper,无需其他工具即可运行,将build.gradle编辑为适当的hadoop版本,并使用以下命令进行构建:

$ ./gradlew release

这将生成在build/libs中与hadoop一起使用的必要jar文件,以及一个带有所有依赖项的tar文件,以便与管理工具一起使用。

正在安装:

安装需要执行以下步骤:

1]、在客户端和群集主机上安装库。

2]、修改hadoop配置以启用s3mper。

库安装:

需要将build/libs目录中的三个jar文件复制到所有主机上的$HADOOP_HOME/lib目录中,这三个文件是:

s3mper-1.0.0.jar

aspectjrt-1.7.3.jar

aspectjweaver-1.7.3.jar

Hadoop配置:

需要更新三个文件以启用s3mper:

对$HADOOP_HOME/conf/hadoop-env.sh的更改:

需要使用Java代理更新此文件以加载方面,修改HADOOP_OPTS变量,如下所示:

export HADOOP_OPTS="-javaagent:$HADOOP_HOME/lib/aspectjweaver-1.7.3.jar $HADOOP_OPTS"

对$HADOOP_HOME/conf/core-site.xml的更改:

S3mper默认情况下处于禁用状态,必须使用以下选项显式启用:

<property><name>s3mper.disable</name><value>false</value></property>

对$HADOOP_HOME/conf/mapred-site.xml的更改[可选]:

任务跟踪器的子进程也需要在jvm选项中包含Java代理,如果在所有主机上更新了hadoop-env.sh,则此步骤不是必需的,并且如果存在两个相同的Java代理命令,则可能会导致jvm无法启动,如果子进程未启用代理,则可以将以下内容添加到mapred-site.xml中以添加Java代理(假设hadoop已安装在/opt/hadoop中):

<property><name>mapred.child.java.opts</name><value>--javaagent:/opt/hadoop/lib/aspectjweaver-1.7.3.jar</value></property>

详细记录$HADOOP_HOME/conf/log4j.properties [可选]:

要打开详细的s3mper日志记录以查看有关s3mper在做什么的信息,请在log4j配置中添加以下行:

log4j.logger.com.netflix.bdp.s3mper=trace

下载地址:https://github.com/Netflix/s3mper

注明

以上就是大数据相关软件TARE、Luigi、Apache Kylin、S3mper的介绍内容,这些大数据相关软件都能使用在Linux操作系统中。

栏目相关文章