自然语言处理spaCy、simhash、DKPro WSD、Go Cortex介绍

以下为你介绍的自然语言处理软件都可用在Linux系统上:spaCy(自然语言文本处理库)、simhash(simhash算法库)、DKPro WSD(提供 UIMA 组件)、Go Cortex(倾听你的句子,并视图理解你的意思)。

1、spaCy(自然语言文本处理库)

自然语言处理spaCy、simhash、DKPro WSD、Go Cortex介绍

spaCy 是一个 Python 和 CPython 的 NLP 自然语言文本处理库。

特征:

无损标记化。

命名实体识别。

支持50多种语言。

预训练的统计模型和词向量。

最先进的速度。

轻松的深度学习整合。

词性标记。

标记的依赖项解析。

句法驱动的句子分割。

内置用于语法和NER的可视化工具。

方便的字符串到哈希映射。

导出到numpy数据数组。

高效的二进制序列化。

易于模型打包和部署。

稳健,经过严格评估的精度。

使用pip安装命令:

pip install spacy

使用pip时,通常建议在虚拟环境中安装软件包,以避免修改系统状态:

python -m venv .env

source .env/bin/activate

pip install spacy

示例代码:

>>> import spacy.en

>>> from spacy.parts_of_speech import ADV

>>> # Load the pipeline, and call it with some text.

>>> nlp = spacy.en.English()

>>> tokens = nlp("‘Give it back,’ he pleaded abjectly, ‘it’s mine.’",

 tag=True, parse=False)

>>> print(''.join(tok.string.upper() if tok.pos == ADV else tok.string for tok in tokens))

‘Give it BACK,’ he pleaded ABJECTLY, ‘it’s mine.

下载地址:https://github.com/explosion/spaCy

2、simhash(simhash算法库)

自然语言处理spaCy、simhash、DKPro WSD、Go Cortex介绍

专门针对中文文档的simhash算法库。

简介:

此项目用来对中文文档计算出对应的 simhash 值。simhash 是谷歌用来进行文本去重的算法,现在广泛应用在文本处理中。

特性:

使用 CppJieba 作为分词器和关键词抽取器。

使用 jenkins 作为 hash 函数。

hpp 风格,所有源码都是 .hpp 文件里面,方便使用。

依赖:

g++ (version >= 4.1 recommended), or clang++ .

用法:

mkdir build cd build

cmake ..

make

演示:

./bin/simhash.demo

结果如下:

文本:"我是蓝翔技工拖拉机学院手扶拖拉机专业的。不用多久,我就会升职加薪,当上总经理,出任CEO,走上人生巅峰。"

关键词序列是: ["蓝翔:11.7392", "CEO:11.7392", "升职:10.8562", "加薪:10.6426", "手扶拖拉机:10.0089"]

simhash值是: 17831459094038722629

100010110110和110001110011 simhash值的相等判断如下:

海明距离阈值默认设置为3,则isEqual结果为:0

海明距离阈值默认设置为5,则isEqual结果为:1

下载地址:https://github.com/yanyiwu/simhash

3、DKPro WSD(提供 UIMA 组件)

自然语言处理spaCy、simhash、DKPro WSD、Go Cortex介绍

DKPro WSD 提供 UIMA 组件,封装了语料库注释器,词汇语义资源,WSD 算法,评估和报告工具。用户可以配置组件,或者重写和安排它们到数据处理管道。DKPro WSD 是模块化的工具,非常灵活。提供相同功能的组件可以相互替换,你可以很容易地在不同的数据集上运行相同的算法,或者在相同的数据集测试几种不同算法。

4、Go Cortex(倾听你的句子,并视图理解你的意思)

go-cortex 是一个服务,通过倾听你的句子,并视图理解你的意思,然后执行相应的动作。它使用 Wit.ai 来处理文本并将从句子中抽取的信息传递给调用者。

运行cortex:

假设您已经安装了$GOPATH安装程序,然后键入:

go get github.com/fmpwizard/go-cortex

go install

go-cortex --config=cortex.config.json

示例cortex.config.json:

{

"httpPort": "7070",

"flowdockAccessToken": "token here", 

"witAccessToken" : "token here",

"flows": "fmpwizard/mission-control,fmpwizard/another-flow-here",

"flowsTicketsUrls" : [

{"mission-control":  "https://github.com/fmpwizard/go-cortex/issues/"}

]

}

并且您已经准备好,如果您在本地运行此程序,请转至http://127.0.0.1:8080/wit?q=<some command here>。

下载地址:https://github.com/fmpwizard/go-cortex

注明

以上就是自然语言处理spaCy、simhash、DKPro WSD、Go Cortex的介绍内容,这些自然语言处理软件都能使用在Linux操作系统中。

栏目相关文章