自然语言处理Salad、UBY、TextTeaser、word2vec介绍

以下为你介绍的自然语言处理软件都可用在Linux系统上:Salad(回文构词法)、UBY(自然语言处理)、TextTeaser(文本自动摘要工具)、word2vec(单词转换成向量形式)。

1、Salad(回文构词法)

Salad 是一种有效且灵活的实现著名的异常检测方法回文构词法王et al . 2006(RAID)。Salad 是基于语法模型,数据表示为其所有的子字符串的长度n。在训练这些gram)存储在一个布隆过滤器。这使得探测器来表示大量 gram)在小内存,仍然能够有效地访问数据。Salad 延伸回文构词法,允许各种语法类型、双阶级版本探测器的分类,以及各种模型分析模式。

2、UBY(自然语言处理)

UBY是一个大规模的统一的文章资源,为自然语言处理(NLP)基于ISO标准词汇标记框架(LMF)。

3、TextTeaser(文本自动摘要工具)

自然语言处理Salad、UBY、TextTeaser、word2vec介绍

TextTeaser是一个自动摘要算法,结合了自然语言处理的力量和机器学习产生好结果。

TextTeaser已在Python中移植。

要求:

要运行TextTeaser,需要SBT,建议使用Scala IDE。

设定:

$ git clone https://github.com/MojoJolo/textteaser.git

$ sbt compile

$ sbt eclipse // If using Eclipse.

$ sbt run

下载地址:https://github.com/MojoJolo/textteaser

4、word2vec(单词转换成向量形式)

word2vec(word to vector)是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。word2vec为计算向量词提供了一种有效的连续词袋(bag-of-words)和skip-gram架构实现。

对余弦距离的定义:

通过测量两个向量内积空间的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1,并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,余弦相似度的值为1,两个向量夹角为90度时,余弦相似度的值为 0,两个向量指向完全相反的方向时,余弦相似度的值为-1。在比较过程中,向量的规模大小不予考虑,仅仅考虑到向量的指向方向。余弦相似度通常用于两个向量的夹角小于90度之内,因此余弦相似度的值为0到1之间。

注明

以上就是自然语言处理Salad、UBY、TextTeaser、word2vec的介绍内容,这些自然语言处理软件都能使用在Linux操作系统中。

栏目相关文章