自然语言处理multilanguage、HanLP、Algorithm research介绍

以下为你介绍的自然语言处理软件都可用在Linux系统上:multilanguage(多语开发工具包)、HanLP(自然语言处理)、Algorithm research(基于 AC 有限状态自动状态机的过滤服务)。

1、multilanguage(多语开发工具包)

multilanguage 是一个多语开发工具包,用于缓存多语系统的多语值,它拥有良好的性能,并且能防止内存泄露。

当开发了一套产品,即想要卖给大陆客户,也想要卖给港台用户,这时就需要支持简体和繁体。

当一个国内站点需要拓展到美国时,这时就需要支持简体和英语。

很多人碰到上面这些情况时,会选择开发一套功能一样的产品,这是完全没有必要的,我们需要的仅仅是一套多语系统。

注:站点多语demo和接口多语demo的说明请参考项目页面。

下载地址:https://github.com/xionghuiCoder/multilanguage

2、HanLP(自然语言处理)

自然语言处理multilanguage、HanLP、Algorithm research介绍

HanLP: Han Language Processing,汉语言处理包。

HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

HanLP 提供下列功能:

1]、中文分词

最短路分词

N-最短路分词

CRF分词

索引分词

极速词典分词

用户自定义词典

2]、词性标注

3]、命名实体识别

中国人名识别

音译人名识别

日本人名识别

地名识别

实体机构名识别

4]、关键词提取

TextRank关键词提取

5]、自动摘要

TextRank自动摘要

6]、短语提取

基于互信息和左右信息熵的短语提取

7]、拼音转换

多音字

声母

韵母

声调

8]、简繁转换

繁体中文分词

简繁分歧词

9]、文本推荐

语义推荐

拼音推荐

字词推荐

10]、依存句法分析

MaxEnt依存句法分析

CRF依存句法分析

11]、语料库工具

分词语料预处理

词频词性词典制作

BiGram统计

词共现统计

CoNLL语料预处理

CoNLL UA/LA/DA评测工具

在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的语料。

下载地址:https://github.com/hankcs/HanLP

3、Algorithm research(基于 AC 有限状态自动状态机的过滤服务)

Algorithm research 基于 AC 有限状态自动状态机的过滤服务。

AC 编译及使用方法:

1].编译之前请先确认安装好 libevent

2].进入src目录直接 make:

cc    -c -o entry.o entry.c

cc    -c -o acsmx.o acsmx.c

gcc -g -o acsmx entry.o acsmx.o -levent

cc    -c -o acmf.o acmf.c

cc    -c -o util.o util.c

gcc -g -o acmf acmf.o acsmx.o util.o -levent

rm -f *.o

3].make 完成之后生成可执行文件 acmf

acmf -h 帮助信息如下:

ac-mf 0.0.1

Build-date Jun 26 2014 16:15:18

-p <file>     set ABS path(prefix), Necessarily

-f <file>     filter keywords file name

-v            show version and help

-h            show this help and exit

-H <hostname> hostname(default: 0.0.0.0)

-P <num>      listen port(default: 8668)

-t <timeout>  set HTTP timeout(default: 1)

-c [0|1]      case switch(default: 1)

4].启动服务使用如下命令:

./acmf -p /root/portal/src -P 8080

注: -p 必须使用绝对路径,需要过滤的关键词表在 data 目录里面的 mf.keyword.txt 里面

需要过滤什么,自己添加,注意不要有空行。

使用实例:

接口地址:http://yourhosts:8080

请求方式:GET或者POST

参数:format=json

word=需要检测的中文英文字符串。

返回值:error 是否等于0 等于0则成功,其他值失败。

然后再判断数组stat是否为空,如果为空,则说明评论文本可以发布,否则不能发布。

下载地址:https://github.com/hy0kl/algorithm

注明

以上就是自然语言处理multilanguage、HanLP、Algorithm research的介绍内容,这些自然语言处理软件都能使用在Linux操作系统中。

栏目相关文章