Synonyms 入门介绍

Chinese Synonyms for Natural Language Processing and Understanding.

最好的中文近义词工具包。

synonyms可以用于自然语言理解的很多任务:文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等。

Welcome

npm install node-synonyms

本项目为 Synonyms 的 Node.js 版工具包,稳定版本为 v1,在Mac OSXLinux下完成测试。目前打包后,npm module有47MB,是由于词表文件很大,下载时需要耐心。

支持使用环境变量配置:

环境变量 描述 默认值
SYN_MODEL_W2V_PATH word2vec训练后得到的词向量文件 node_modules/node-synonyms/data/words.vector
SYN_WORDSEG_CUSTOM_DICT 分词用户词典 node_modules/node-synonyms/data/tokenizer/user.dict.utf8
SYN_WORDSEG_STOPWORD_DICT 分词停用词词典 node_modules/node-synonyms/data/tokenizer/stop_words.utf8
SYN_WORDSEG_PUNCT_DICT 分词标点词典 node_modules/node-synonyms/data/tokenizer/punctuation.utf8

API

var synonyms = require("node-synonyms") # 使用上述环境变量做定制化

所有接口返回值都是Promise。

synonyms#seg(sentence, [stopwords, punct])

分词接口

let sen1 = "移动互联网";
synonyms.seg(sen1, true, true).then(function(words){// do your magic});

stopwords(Boolean)是否保留停用词,punct(Boolean)是否保留标点符号。

  • 返回值

[String],词语组成的列表。

["移动","互联网"]

synonyms#vector(word)

返回一个词语的向量

synonyms.vector("股市").then(function(v){// do your magic})
  • 返回值 JSONArray

[float],100维的float值组成的向量。

synonyms#display(word)

打印一个词语的邻居们及相关度

synonyms.display("飞机");
  • 返回值 输出控制台,作为调试使用。

synonyms#nearby(word)

返回一个词语的邻居们

synonyms.nearby("股市").then(function(results){// do your magic});
  • 返回值 JSONArray

[[words], [scores]],包含两个列表,第一个是词语,第二个是对应位置词语的距离分数,同样是在[0~1]区间,越接近于1越相似。

比如:

[["股市","股价","股票市场","股灾","楼市","股票","香港股市","行情","恒指","金融市场"],[1,0.786284,0.784575,0.751607,0.712255,0.712179,0.710806,0.694434,0.67501,0.666439]
]

synonyms#compare(sentence1, sentence2)

比较两个句子的相似性

let sen1 = "移动互联网";
let sen2 = "互联网";
synonyms.compare(sen1, sen2).then(function(similarity){// do your magic});
  • 返回值 float

相似度是在置信区间[0~1]的float值,越接近于1越相似。

Contribute

admin/test.sh # 单元测试

Give credits to

nodejieba

fast-levenshtein

compute-cosine-distance

node-word2vec-reader

Statement

Synonyms发布证书 GPL3.0。数据和程序可用于研究和商业产品,必须注明引用和地址,比如发布的任何媒体、期刊、杂志或博客等内容。

@online{Synonyms:hain2017,author = {Hai Liang Wang, Hu Ying Xi},title = {中文近义词工具包Synonyms},year = 2017,url = {https://github.com/huyingxi/Synonyms},urldate = {2017-09-27}
}

Keywords

  • synonyms
  • nlp

Synonyms 中文近义词工具包 -- 支持文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等相关推荐

  1. 安装使用中文近义词工具包:Synonyms

    Synonyms: 中文近义词工具包 前言 安装 使用 synonyms#nearby(word [, size = 10]) synonyms#compare(sen1, sen2 [, seg=T ...

  2. Synonyms:一个开源的中文近义词工具包

    作者:Synonyms 项目的作者胡小夕是北京邮电大学研究生,目前实习于今日头条 AI LAB.从事自然语言处理方向研究,在智能客服,知识图谱等领域都有相关研究开发经验. 工具包技术说明:该中文近义词 ...

  3. Synonyms最好的中文近义词工具包

    1.中文分词 import synonyms synonyms.seg("中文近义词工具包") 分词结果,由两个list组成的元组,分别是单词和对应的词性. (['中文', '近义 ...

  4. python中文近义词工具_Windows10下python3.5对维基百科语料用word2vec进行训练寻找同义词相似度...

    首先把需要下载的东西都列出来 1. 语料:下载地址是https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml ...

  5. Python synonyms查找中文任意词汇的同义词近义词

    Python synonyms查找中文任意词汇的同义词近义词 作者:虚坏叔叔 博客:https://xuhss.com 早餐店不会开到晚上,想吃的人早就来了!

  6. python synonyms 近义词

    from scipy import spatial import synonyms S1 = '尽管步履维艰,我们依然不会放弃' S2 = '就算困难重重,咱们仍旧不能退出'# 使用 synonyms ...

  7. python 近义词库包 synonyms 的使用

    最近接触到nlp的一些东西,需要找出中文词语的近义词,也接触到了一个synonyms 的库, 分词,去停用词,word2vector  等 一些列nlp 的操作,还可以输出中文词语的近义词 https ...

  8. JAVA ik es_安装elasticsearch及中文IK和近义词配置

    安装elasticsearch及中文IK和近义词配置 安装java环境 java环境是elasticsearch安装必须的 yum install java-1.8.0-openjdk 安装elast ...

  9. 安装elasticsearch及中文IK和近义词配置

    安装elasticsearch及中文IK和近义词配置 安装java环境 java环境是elasticsearch安装必须的 yum install java-1.8.0-openjdk 安装elast ...

  10. 【Elasticsearch】相关性,近义词匹配,纠错匹配

    目录 相关性 布尔模型 词频/逆向文档频率(TF/IDF) 词频 逆向文档频率 字段长度归一值 结合使用 向量空间模型 Lucene 的实用评分函数 近义词匹配 近义词查询原理 同义词过滤器 纠错匹配 ...

最新文章

  1. 皮一皮:碰到这样的领导怎么办...
  2. PyTorch 0.4新版本 升级指南 no_grad
  3. WinForm 窗体圆角、平角(不规则窗体)实现的几种方法
  4. springmvc三十:异常处理流程
  5. BugKuCTF 加密 聪明的小羊
  6. SAP UI5 应用开发教程的学习目录
  7. 【脑经急转弯】—— 猜额头上的数字
  8. Java编程思想第四版——第十五天
  9. 图书馆管理系统(C语言实现)
  10. MP4视频损坏修复工具下载
  11. 微信小程序生成二维码、程序码、海报
  12. 二叉树的学习:前中后序遍历方法
  13. IP代理软件哪个比较好
  14. undefind_undefined
  15. 【车道线检测论文阅读笔记——经典论文粗读汇总】
  16. Leetcode 665. Non-decreasing Array
  17. 短信验证码开发教程 - 4.后端篇
  18. CAN总线与CANOPEN协议入门
  19. 【源码好又多】springboot后台框架
  20. 创建前缀索引时,如何确认“最佳长度”

热门文章

  1. SPSS实现数据归一化
  2. crmeb重新安装_Linux下CRMEB环境搭建
  3. 哪吒票房超复联4,100行python代码抓取豆瓣短评,看看网友怎么说
  4. 移动硬盘插入提示需要格式化RAW_使用驱动器X:中的光盘之前需要将其格式化
  5. html制作频谱,HTML5 WebAudioAPI(三)--绘制频谱图
  6. python安装error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual解决方案
  7. 没有计算机的一天英语作文带翻译,美好的一天糟糕的一天英语作文带翻译
  8. ACDSee Photo Manager 15.0.169 crack by XenoCoder
  9. 计算机音乐简谱网红歌曲,2020抖音网红歌曲40首 2020抖音最新歌曲100首BGM
  10. 自动化爬虫selenium之键盘操作