Synonyms 中文近义词工具包 -- 支持文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等
Synonyms 入门介绍
Chinese Synonyms for Natural Language Processing and Understanding.
最好的中文近义词工具包。
synonyms
可以用于自然语言理解的很多任务:文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等。
Welcome
npm install node-synonyms
本项目为 Synonyms 的 Node.js 版工具包,稳定版本为 v1,在Mac OSX及Linux下完成测试。目前打包后,npm module有47MB,是由于词表文件很大,下载时需要耐心。
支持使用环境变量配置:
环境变量 | 描述 | 默认值 |
---|---|---|
SYN_MODEL_W2V_PATH | word2vec训练后得到的词向量文件 | node_modules/node-synonyms/data/words.vector |
SYN_WORDSEG_CUSTOM_DICT | 分词用户词典 | node_modules/node-synonyms/data/tokenizer/user.dict.utf8 |
SYN_WORDSEG_STOPWORD_DICT | 分词停用词词典 | node_modules/node-synonyms/data/tokenizer/stop_words.utf8 |
SYN_WORDSEG_PUNCT_DICT | 分词标点词典 | node_modules/node-synonyms/data/tokenizer/punctuation.utf8 |
API
var synonyms = require("node-synonyms") # 使用上述环境变量做定制化
所有接口返回值都是Promise。
synonyms#seg(sentence, [stopwords, punct])
分词接口
let sen1 = "移动互联网";
synonyms.seg(sen1, true, true).then(function(words){// do your magic});
stopwords(Boolean)是否保留停用词,punct(Boolean)是否保留标点符号。
- 返回值
[String],词语组成的列表。
["移动","互联网"]
synonyms#vector(word)
返回一个词语的向量
synonyms.vector("股市").then(function(v){// do your magic})
- 返回值 JSONArray
[float]
,100维的float值组成的向量。
synonyms#display(word)
打印一个词语的邻居们及相关度
synonyms.display("飞机");
- 返回值 输出控制台,作为调试使用。
synonyms#nearby(word)
返回一个词语的邻居们
synonyms.nearby("股市").then(function(results){// do your magic});
- 返回值 JSONArray
[[words], [scores]]
,包含两个列表,第一个是词语,第二个是对应位置词语的距离分数,同样是在[0~1]区间,越接近于1越相似。
比如:
[["股市","股价","股票市场","股灾","楼市","股票","香港股市","行情","恒指","金融市场"],[1,0.786284,0.784575,0.751607,0.712255,0.712179,0.710806,0.694434,0.67501,0.666439]
]
synonyms#compare(sentence1, sentence2)
比较两个句子的相似性
let sen1 = "移动互联网";
let sen2 = "互联网";
synonyms.compare(sen1, sen2).then(function(similarity){// do your magic});
- 返回值 float
相似度是在置信区间[0~1]的float值,越接近于1越相似。
Contribute
admin/test.sh # 单元测试
Give credits to
nodejieba
fast-levenshtein
compute-cosine-distance
node-word2vec-reader
Statement
Synonyms发布证书 GPL3.0。数据和程序可用于研究和商业产品,必须注明引用和地址,比如发布的任何媒体、期刊、杂志或博客等内容。
@online{Synonyms:hain2017,author = {Hai Liang Wang, Hu Ying Xi},title = {中文近义词工具包Synonyms},year = 2017,url = {https://github.com/huyingxi/Synonyms},urldate = {2017-09-27}
}
Keywords
- synonyms
- nlp
Synonyms 中文近义词工具包 -- 支持文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等相关推荐
- 安装使用中文近义词工具包:Synonyms
Synonyms: 中文近义词工具包 前言 安装 使用 synonyms#nearby(word [, size = 10]) synonyms#compare(sen1, sen2 [, seg=T ...
- Synonyms:一个开源的中文近义词工具包
作者:Synonyms 项目的作者胡小夕是北京邮电大学研究生,目前实习于今日头条 AI LAB.从事自然语言处理方向研究,在智能客服,知识图谱等领域都有相关研究开发经验. 工具包技术说明:该中文近义词 ...
- Synonyms最好的中文近义词工具包
1.中文分词 import synonyms synonyms.seg("中文近义词工具包") 分词结果,由两个list组成的元组,分别是单词和对应的词性. (['中文', '近义 ...
- python中文近义词工具_Windows10下python3.5对维基百科语料用word2vec进行训练寻找同义词相似度...
首先把需要下载的东西都列出来 1. 语料:下载地址是https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml ...
- Python synonyms查找中文任意词汇的同义词近义词
Python synonyms查找中文任意词汇的同义词近义词 作者:虚坏叔叔 博客:https://xuhss.com 早餐店不会开到晚上,想吃的人早就来了!
- python synonyms 近义词
from scipy import spatial import synonyms S1 = '尽管步履维艰,我们依然不会放弃' S2 = '就算困难重重,咱们仍旧不能退出'# 使用 synonyms ...
- python 近义词库包 synonyms 的使用
最近接触到nlp的一些东西,需要找出中文词语的近义词,也接触到了一个synonyms 的库, 分词,去停用词,word2vector 等 一些列nlp 的操作,还可以输出中文词语的近义词 https ...
- JAVA ik es_安装elasticsearch及中文IK和近义词配置
安装elasticsearch及中文IK和近义词配置 安装java环境 java环境是elasticsearch安装必须的 yum install java-1.8.0-openjdk 安装elast ...
- 安装elasticsearch及中文IK和近义词配置
安装elasticsearch及中文IK和近义词配置 安装java环境 java环境是elasticsearch安装必须的 yum install java-1.8.0-openjdk 安装elast ...
- 【Elasticsearch】相关性,近义词匹配,纠错匹配
目录 相关性 布尔模型 词频/逆向文档频率(TF/IDF) 词频 逆向文档频率 字段长度归一值 结合使用 向量空间模型 Lucene 的实用评分函数 近义词匹配 近义词查询原理 同义词过滤器 纠错匹配 ...
最新文章
- 皮一皮:碰到这样的领导怎么办...
- PyTorch 0.4新版本 升级指南 no_grad
- WinForm 窗体圆角、平角(不规则窗体)实现的几种方法
- springmvc三十:异常处理流程
- BugKuCTF 加密 聪明的小羊
- SAP UI5 应用开发教程的学习目录
- 【脑经急转弯】—— 猜额头上的数字
- Java编程思想第四版——第十五天
- 图书馆管理系统(C语言实现)
- MP4视频损坏修复工具下载
- 微信小程序生成二维码、程序码、海报
- 二叉树的学习:前中后序遍历方法
- IP代理软件哪个比较好
- undefind_undefined
- 【车道线检测论文阅读笔记——经典论文粗读汇总】
- Leetcode 665. Non-decreasing Array
- 短信验证码开发教程 - 4.后端篇
- CAN总线与CANOPEN协议入门
- 【源码好又多】springboot后台框架
- 创建前缀索引时,如何确认“最佳长度”
热门文章
- SPSS实现数据归一化
- crmeb重新安装_Linux下CRMEB环境搭建
- 哪吒票房超复联4,100行python代码抓取豆瓣短评,看看网友怎么说
- 移动硬盘插入提示需要格式化RAW_使用驱动器X:中的光盘之前需要将其格式化
- html制作频谱,HTML5 WebAudioAPI(三)--绘制频谱图
- python安装error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual解决方案
- 没有计算机的一天英语作文带翻译,美好的一天糟糕的一天英语作文带翻译
- ACDSee Photo Manager 15.0.169 crack by XenoCoder
- 计算机音乐简谱网红歌曲,2020抖音网红歌曲40首 2020抖音最新歌曲100首BGM
- 自动化爬虫selenium之键盘操作