n/名词 np/人名 ns/地名 ni/机构名 nz/其它专名
m/数词 q/量词 mq/数量词 t/时间词 f/方位词 s/处所词
v/动词 vm/能愿动词 vd/趋向动词 a/形容词 d/副词
h/前接成分 k/后接成分 i/习语 j/简称
r/代词 c/连词 p/介词 u/助词 y/语气助词
e/叹词 o/拟声词 g/语素 w/标点 x/其它 

软件简介

THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC具有如下几个特点:

  1. 能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。

  2. 准确率高。该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词性标注的F1值可达到92.9%,与该数据集上最好方法效果相当。

  3. 速度较快。同时进行分词和词性标注速度为300KB/s,每秒可处理约15万字。只进行分词速度可达到1.3MB/s。

目前THULAC工具包下载次数为:10628

在线演示

THULAC在线演示平台thulac.thunlp.org/demo

http://thulac.thunlp.org/

THULAC:一个高效的中文词法分析工具包 清华孙茂松老师分享相关推荐

  1. THULAC:一个高效的中文词法分析工具包

    THULAC:一个高效的中文词法分析工具包 目录 软件简介 在线演示 编译和安装 使用方式 与代表性分词软件的性能对比 词性标记集 THULAC的不同配置 获取链接 注意事项 历史 开源协议 相关论文 ...

  2. 马斯克失去世界首富头衔/ 清华孙茂松当选ACL Fellow/ VR头显可隔空接吻…今日更多新鲜事在此...

    日报君 发自 凹非寺 量子位 | 公众号 QbitAI 大家好,今天是12月13日星期二. 北方很多地方气温已降至零下十度,出门记得多穿点- 科技圈都发生了哪些大事? 一起来看看. 马斯克不再是世界首 ...

  3. 高考报 AI 专业?南大周志华:当然!清华孙茂松:再考虑一下

    By 超神经 场景描述:又到了高考放榜的时刻,接下来就是准大学生们选专业的环节.「人工智能」首次成为本科可选专业,在风头正盛的当下,到底该如何去抉择?不妨从行业大佬以及网友的看法中,去看看热潮背后的冷 ...

  4. 南大周志华vs清华孙茂松深刻思辩:AI本科教育该不该单独设系?

    问耕 夏乙 发自 凹非寺 量子位 出品 | 公众号 QbitAI 如何培养人工智能人才?中国大学该不该设立人工智能本科专业? 在昨天的<AI人才教育高峰论坛>上,清华大学计算机科学与技术系 ...

  5. NLP大火的prompt能用到其他领域吗?清华孙茂松组的 CPT 了解一下

    点击"凹凸域",马上关注 更多内容.请置顶或星标 机器之心报道 编辑:张倩 从 GPT-3 开始,一种新的范式开始引起大家的关注:prompt.这段时间,我们可以看到大量有关 pr ...

  6. NLP大火的Prompt能用到其他领域吗?清华孙茂松组的CPT了解一下

    ©作者 | 张倩 来源 | 机器之心 从 GPT-3 开始,一种新的范式开始引起大家的关注:prompt.这段时间,我们可以看到大量有关 prompt 的论文出现,但多数还是以 NLP 为主.那么,除 ...

  7. 清华自然语言处理科学家孙茂松:深度学习碰壁之后,我们还能做什么?

    来源:AI前线 本文约5300字,建议阅读11分钟. 清华自然语言处理科学家孙茂松为你解答深度学习. [ 导读 ]10 月 31 日,北京创建全球人工智能学术和创新最优生态的标志性学术活动" ...

  8. 对话清华教授孙茂松:第三代人工智能要处理“可解释性”问题

    来源:澎湃新闻 本文约3800字,建议阅读10分钟. 孙教授与你分享当下人工智能的发展.困境与解决方法. 正如人类会综合利用视觉.听觉.触觉.语言等信息,让人工智能(AI)从多角度.多模态.多学科学习 ...

  9. 清华人工智能研究院孙茂松:大数据与富知识双轮驱动成NLP未来发展关键

    来源:大数据文摘 本文约3500字,建议阅读7分钟. 孙茂松副院长为你介绍大数据与富知识双轮驱动成NLP未来发展的关键. 10月8日,北京智源人工智能研究院在清华大学FIT楼举行了"'自然语 ...

最新文章

  1. 一种清除windows通知区域“僵尸”图标的方案——Windows7系统解决方案
  2. 深入实践Spring Boot3.1 模型设计
  3. mysql 触发器_进阶msql触发器-指南
  4. leetcode-2-两数相加
  5. [转帖]关于win7共享的问题和解答
  6. VirtualBox中使用双网卡实现CentOS既能上网(校园网)也能使用SSHclient
  7. 小米将举行电子烟“发布会”?真相来了!
  8. 读书笔记-大型网站技术架构
  9. 显示器带宽测试软件,三种常见的上行带宽测试方法
  10. Davinci BI报表工具~
  11. 实验十三:PCF8591模数传感器-数模转换实验
  12. intel神经网络压缩库distiller使用时遇到的问题
  13. matlab复杂函数多元函数拟合
  14. (转)从P1到P7——我在淘宝这7年
  15. MyBatis 如果不存在则插入
  16. proteus教程——操作内存并行扩展8255
  17. 【蓝桥杯】 算法训练 旅行家的预算
  18. 李航 统计学习方法 第二版 课后习题答案
  19. GBASE数据库助力城市轨道交通数据信息国产化
  20. 成功必备的15种心态

热门文章

  1. 慕尼黑工业大学自动驾驶课程
  2. Java实现第八届蓝桥杯魔方状态
  3. 一行代码解决scp在Internet传输慢的问题
  4. 【数学】张宇概率论九讲笔记
  5. FM DeepFM
  6. ICE kinematics! - Softimage 2011!
  7. 【杂谈第37期】用三句话了解BRD、MRD和PRD文档
  8. 什么是地弹及如何进行地弹抑制?
  9. 图灵奖得主Lecun、纽约大学教授Marcus,大佬争论背后的玄机
  10. 通过文件名得到进程句柄并发消息