资源警告!有人收罗了40个中文NLP词库,放到了GitHub上
乾明 编辑整理
量子位 出品 | 公众号 QbitAI
你还在为进行中文NLP找不到词库而发愁吗?
你还在为了从文本中抽取结构化信息而抓耳挠腮吗?
现在,这些症状可以得到缓解了。
最近,在GitHub上,有人收罗了一份资源,汇集了40个关于中文NLP词库,涵盖了各个方面。
中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典。
词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库。
否定词库、汽车品牌词库、汽车零件词库、连续英文切割、各种中文词向量、公司名字大全、古诗词库、IT词库、财经词库、成语词库。
地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库、中文聊天语料、中文谣言数据。
目前,这份资源在GitHub上已经超过了700星。
收罗这份资源的人,在GitHub上昵称为“Yang”,备注信息中显示,他是北航的博士。在知乎上也开设了一个专栏,专门介绍关于机器学习的小知识。
在Yang给出的这份资源中,他并不只是简简单单地提供一些词库了事,还给出了32个词库的用法。
比如,中英文敏感词过滤:
>>> f = DFAFilter() >>> f.add("sexy") >>> f.filter("hello sexy baby") hello **** baby
有时,还会针对一些词库给出提示,针对这个词库他就提示道:
敏感词包括政治、脏话等话题词汇。其原理主要是基于词典的查找(项目中的keyword文件),内容很劲爆。。。
再来一个根据名字判断性别的例子:
pip install ngender # 基于朴素贝叶斯计算的概率
>>> import ngender>>> ngender.guess('赵本山')('male', 0.9836229687547046)>>> ngender.guess('宋丹丹')('female', 0.9759486128949907)
此处省略了其他30个……如果有兴趣,可以去看看,收藏下来,以备不时之需。
传送门:
https://github.com/fighting41love/funNLP
作者知乎专栏地址:
https://zhuanlan.zhihu.com/yangyangfuture
— 完 —
年度评选申请
加入社群
量子位AI社群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;
此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。
进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)
活动策划招聘
量子位正在招聘活动策划,将负责不同领域维度的线上线下相关活动策划、执行。欢迎聪明靠谱的小伙伴加入,并希望你能有一些活动策划或运营的相关经验。相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
资源警告!有人收罗了40个中文NLP词库,放到了GitHub上相关推荐
- 汇集四大主流停词的中文停词库-7352个停词
停用词是一些在自然语言处理中被过滤掉的常见词语,如"的"."是"."在"等.它们在文本中出现频率非常高,但通常不包含特定含义,因此被视为噪声 ...
- 6.Python常用第三方库—jieba库的使用(中文分词词库)
目录 一.jieba库介绍 二.jieba库常用指令说明 1. 精确模式 2. 全模式 3. 搜索引擎模式 4. 增加新词 三.jieba库的安装 四.jieba库实例代码演示 一.jieb ...
- GitHub上最火的40个iOS开源项目(一)
http://www.open-open.com/lib/view/open1388317004500.html 在结束了GitHub平台上"最受欢迎的Android开源项目"系列 ...
- TechDay实录|摘取皇冠上的明珠,中文NLP的不二选择——PaddlePaddle
NLP (Natural Language Processing)自然语言处理是人工智能的一个子领域,它是能够让人类与智能机器进行沟通交流的重要技术手段,同时也是人工智能中最为困难的问题之一.因此,N ...
- GitHub上最火的40个iOS开源项目(二)
http://www.open-open.com/lib/view/open1388316950609.html GitHub上最火的40个Android开源项目(一) GitHub上最火的40个An ...
- GitHub上最火的40个Android开源项目(一)
http://www.open-open.com/lib/view/open1388317199516.html GitHub上最火的40个Android开源项目(一) GitHub上最火的40个An ...
- 优质中文NLP资源集合,做项目一定用得到!
整理 | Jane 出品 | AI科技大本营(公众号id:rgznai100) 今天要给大家在推荐 Github 上一个优质的中文 NLP 工具和资源集合项目--funNLP,已经获得了 5.3k S ...
- 最新中文NLP开源工具箱来了!支持6大任务,面向工业应用 | 资源
铜灵 发自 凹非寺 量子位 出品 | 公众号 QbitAI 对于开发者来说,又有一个新的NLP工具箱可以使用了,代号PaddleNLP,目前已开源. 在这个基于百度深度学习平台飞桨(PaddlePad ...
- NLP判断语言情绪_最新中文NLP开源工具箱来了!支持6大任务,面向工业应用 | 资源...
铜灵 发自 凹非寺 量子位 出品 | 公众号 QbitAI 对于开发者来说,又有一个新的NLP工具箱可以使用了,代号PaddleNLP,目前已开源. 在这个基于百度深度学习平台飞桨(PaddlePad ...
最新文章
- 腾讯年终奖刷屏了...
- Google Maps Android API v2官网例子使用说明
- 46. Ext中namespace的作用(转)
- windows下使用webpack的完美解决方案
- Spring Data JPA 教程(翻译)
- TListBox的项目个数
- 【win10】如何在桌面上,显示我的电脑
- codeforces 41A-C语言解题报告
- 折线分割平面(HDU-2050)
- debian 升级后mysql_教你在Debian和Ubuntu上升级MySQL
- 关于srand((unsigned)time(NULL))是初始化随机函数种子
- MySQL8.0 - 新特性 - 临时表改进 1
- Matlab遗传算法工具箱的使用(解决连续性优化问题)
- Ubuntu16.04 pip下载安装tensorflow(GPU版)
- html代码大全右对齐,html特效代码大全
- 计算机网络维护服务承诺书,网络信息技术中心服务承诺书
- 数字逻辑课上如何制作FPGA游戏?
- android logo制作教程视频,Android的APP怎样制作LOGO的尺寸
- 利用IPv6的地址特性写一个攻击甩锅程序
- Linux IO体系、零拷贝和虚拟内存关系的重新思考