乾明 编辑整理
量子位 出品 | 公众号 QbitAI

你还在为进行中文NLP找不到词库而发愁吗?

你还在为了从文本中抽取结构化信息而抓耳挠腮吗?

现在,这些症状可以得到缓解了。

最近,在GitHub上,有人收罗了一份资源,汇集了40个关于中文NLP词库,涵盖了各个方面。

中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典。

词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库。

否定词库、汽车品牌词库、汽车零件词库、连续英文切割、各种中文词向量、公司名字大全、古诗词库、IT词库、财经词库、成语词库。

地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库、中文聊天语料、中文谣言数据。

目前,这份资源在GitHub上已经超过了700星。

收罗这份资源的人,在GitHub上昵称为“Yang”,备注信息中显示,他是北航的博士。在知乎上也开设了一个专栏,专门介绍关于机器学习的小知识。

在Yang给出的这份资源中,他并不只是简简单单地提供一些词库了事,还给出了32个词库的用法。

比如,中英文敏感词过滤:

 >>> f = DFAFilter() >>> f.add("sexy") >>> f.filter("hello sexy baby") hello **** baby

有时,还会针对一些词库给出提示,针对这个词库他就提示道:

敏感词包括政治、脏话等话题词汇。其原理主要是基于词典的查找(项目中的keyword文件),内容很劲爆。。。

再来一个根据名字判断性别的例子:

pip install ngender # 基于朴素贝叶斯计算的概率

>>> import ngender>>> ngender.guess('赵本山')('male', 0.9836229687547046)>>> ngender.guess('宋丹丹')('female', 0.9759486128949907)

此处省略了其他30个……如果有兴趣,可以去看看,收藏下来,以备不时之需。

传送门:
https://github.com/fighting41love/funNLP

作者知乎专栏地址:
https://zhuanlan.zhihu.com/yangyangfuture

年度评选申请

加入社群

量子位AI社群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

活动策划招聘

量子位正在招聘活动策划,将负责不同领域维度的线上线下相关活动策划、执行。欢迎聪明靠谱的小伙伴加入,并希望你能有一些活动策划或运营的相关经验。相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

资源警告!有人收罗了40个中文NLP词库,放到了GitHub上相关推荐

  1. 汇集四大主流停词的中文停词库-7352个停词

    停用词是一些在自然语言处理中被过滤掉的常见词语,如"的"."是"."在"等.它们在文本中出现频率非常高,但通常不包含特定含义,因此被视为噪声 ...

  2. 6.Python常用第三方库—jieba库的使用(中文分词词库)

    目录 一.jieba库介绍 二.jieba库常用指令说明 1.  精确模式 2.  全模式 3.  搜索引擎模式 4.   增加新词 三.jieba库的安装 四.jieba库实例代码演示 一.jieb ...

  3. GitHub上最火的40个iOS开源项目(一)

    http://www.open-open.com/lib/view/open1388317004500.html 在结束了GitHub平台上"最受欢迎的Android开源项目"系列 ...

  4. TechDay实录|摘取皇冠上的明珠,中文NLP的不二选择——PaddlePaddle

    NLP (Natural Language Processing)自然语言处理是人工智能的一个子领域,它是能够让人类与智能机器进行沟通交流的重要技术手段,同时也是人工智能中最为困难的问题之一.因此,N ...

  5. GitHub上最火的40个iOS开源项目(二)

    http://www.open-open.com/lib/view/open1388316950609.html GitHub上最火的40个Android开源项目(一) GitHub上最火的40个An ...

  6. GitHub上最火的40个Android开源项目(一)

    http://www.open-open.com/lib/view/open1388317199516.html GitHub上最火的40个Android开源项目(一) GitHub上最火的40个An ...

  7. 优质中文NLP资源集合,做项目一定用得到!

    整理 | Jane 出品 | AI科技大本营(公众号id:rgznai100) 今天要给大家在推荐 Github 上一个优质的中文 NLP 工具和资源集合项目--funNLP,已经获得了 5.3k S ...

  8. 最新中文NLP开源工具箱来了!支持6大任务,面向工业应用 | 资源

    铜灵 发自 凹非寺 量子位 出品 | 公众号 QbitAI 对于开发者来说,又有一个新的NLP工具箱可以使用了,代号PaddleNLP,目前已开源. 在这个基于百度深度学习平台飞桨(PaddlePad ...

  9. NLP判断语言情绪_最新中文NLP开源工具箱来了!支持6大任务,面向工业应用 | 资源...

    铜灵 发自 凹非寺 量子位 出品 | 公众号 QbitAI 对于开发者来说,又有一个新的NLP工具箱可以使用了,代号PaddleNLP,目前已开源. 在这个基于百度深度学习平台飞桨(PaddlePad ...

最新文章

  1. 腾讯年终奖刷屏了...
  2. Google Maps Android API v2官网例子使用说明
  3. 46. Ext中namespace的作用(转)
  4. windows下使用webpack的完美解决方案
  5. Spring Data JPA 教程(翻译)
  6. TListBox的项目个数
  7. 【win10】如何在桌面上,显示我的电脑
  8. codeforces 41A-C语言解题报告
  9. 折线分割平面(HDU-2050)
  10. debian 升级后mysql_教你在Debian和Ubuntu上升级MySQL
  11. 关于srand((unsigned)time(NULL))是初始化随机函数种子
  12. MySQL8.0 - 新特性 - 临时表改进 1
  13. Matlab遗传算法工具箱的使用(解决连续性优化问题)
  14. Ubuntu16.04 pip下载安装tensorflow(GPU版)
  15. html代码大全右对齐,html特效代码大全
  16. 计算机网络维护服务承诺书,网络信息技术中心服务承诺书
  17. 数字逻辑课上如何制作FPGA游戏?
  18. android logo制作教程视频,Android的APP怎样制作LOGO的尺寸
  19. 利用IPv6的地址特性写一个攻击甩锅程序
  20. Linux IO体系、零拷贝和虚拟内存关系的重新思考

热门文章

  1. 分解为具有无损连接性和依赖保持性的3NF的方法以及例子
  2. 【重载和重写的区别】
  3. 重载和重写的区别???
  4. 内存缓存(in-memory cache)
  5. 递归算法转换成非递归算法
  6. 宁波诺丁汉计算机学院,宁波诺丁汉大学学子帝国理工计算机录取
  7. android 黑科技软件,一波Android黑科技工具推荐
  8. CSS之text-overflow--怎么让多余的文字不显示或者以省略号表示
  9. 2018-08-11 自学笔记
  10. Window Server 2008虚拟机安装