基本概念

什么是词性

在语言学上,词性(Par-Of-Speech, Pos )指的是单词的语法分类,也称为词类。同一个类别的词语具有相似的语法性质,所有词性的集合称为词性标注集。不同的语料库采用了不同的词性标注集,一般都含有形容词、动词、名词等常见词性。下图就是HanLP输出的一个含有词性的结构化句子。

我/r 的/u 希望/n 是/v 希望/v 张晚霞/nr 的/u 背影/n 被/p 晚霞/n 映/v 红/a

两个难点

词性标注指的是为句子中每个单词预测一个词性标签的任务。它有以下两个难点:

  1. 汉语中一个单词多个词性的现象很常见,但在具体语境下一定是唯一词性。
  2. OOV 是任何自然语言处理任务的难题。

词性标注_CodingPark编程公园相关推荐

  1. 数据分析调研报告_CodingPark编程公园

    文章结构速览 关系梳理 数据挖掘:从海量数据中找到隐藏的规则,数据分析:待分析的目标比较明确 数据分析更侧重业务,一般分析的目标比较明确,重点在观察数据,得出结论: 数据挖掘更侧重技术,利用统计学/机 ...

  2. 命名实体识别_CodingPark编程公园

    基本概念 概述 命名实体 文本中有一些描述实体的词汇.比如人名.地名.组织机构名.股票基金.医学术语等,称为命名实体.具有以下共性: 数量无穷.比如宇宙中的恒星命名.新生儿的命名不断出现新组合. 构词 ...

  3. 自然语言处理课程总结_CodingPark编程公园

    文章介绍 自然语言处理课程 主要讲解 词法->句法->语义->语用 四个方面 本文只介绍笔者学习过程中觉得重要的部分 第一章 绪论 大体了解自然语言处理是什么 第二章 数学知识 概率 ...

  4. 人工智能中神经网络与自然语言处理共生关系_CodingPark编程公园

    文章目录 神经网络知识大串联 1:第一代的神经元模型 3 2:从M-P模型到感知器模型 3 3:前馈神经网络 3 4:后向传播与BP算法神经网络 4 5:深度神经网络DNN 4 6:卷积神经网络CNN ...

  5. Gensim库生成与导入W2V模型_CodingPark编程公园

    Gensim库生成与导入W2V模型 语料目录 gensim函数库Word2Vec配置参数 gensim.models.word2vec.Word2Vec(sentences=None,size=100 ...

  6. Linux压缩|解压_CodingPark编程公园

    文章介绍 本文主要介绍: Linux的基础参数 Linux压缩 Linux解压缩 基础参数 tar - 5大参数 -c:压缩 -x:解压 -t:查看内容 -r:向压缩归档文件末尾追加文件 -u:更新原 ...

  7. anaconda-navigaotr出现adding featured channels并无法正常打开_CodingPark编程公园

    问题 navigator无法打开.停在adding featured channels状态下. 解决 在mac终端下更新navigator 输入 conda install navigator 即可解 ...

  8. 谈谈池化吧!_CodingPark编程公园

    引子 下采样和池化应该是包含关系,池化属于下采样,而下采样不局限于池化,如果卷积 stride=2,此时也可以把这种卷积叫做下采样. 池化 通常池化层紧跟在 CNN 的卷积层之后. 池化方法: max ...

  9. GPU概述_CodingPark编程公园

    GPU和CPU的区别 设计目标 CPU:处理各种不同的数据类型,同时又要逻辑判断又会引入大量的分支跳转和中断的处理 GPU:处理类型高度统一的.相互无依赖的大规模数据,不需要被打断的纯净的计算环境 G ...

最新文章

  1. Monitor CodeForces - 846D ——二维前缀和
  2. 帝国cms后台编辑时日期显示保存使用时间戳的方法
  3. 灵光一现的trick
  4. Linux Kernel TCP/IP Stack|Linux网络硬核系列
  5. 这个国家太奇怪了!全球最落后的国家之一,却又是世界上最幸福的国家!
  6. 使用openssl开源AES算法,实现aes、aes-cbc和aes-ecb对字符串的加解密
  7. 通过 sync.Once 学习到 Go 的内存模型
  8. YUV格式文件转RGB格式
  9. 数据挖掘:概念与技术(第三版)之第四章的学习记录
  10. 邮件营销的5个关键数字
  11. 华为p40pro手机计算机在哪里,一文看懂华为P40/P40 Pro差别在哪
  12. 两边同时取对数求复合函数_【函数与导数】复合函数求导的几个妙用
  13. HDU 6143 (容斥)
  14. Neo4j-Cypher
  15. TrustZone技术简介
  16. 利用pdf2image,将pdf文件转换成图片
  17. delphi----Tstringlist,将有符号的数据变成数组aaa,bbb,ccc----list[0]=aaa,list[1]=bbb
  18. 运行BOA报错 Could not open mime.types file, /etc/mime.types, for reading
  19. 微信小程序 wux-filterbar动态更新分类
  20. 微信小程序获取手机验证码

热门文章

  1. 等保2.0.第四章.网络安全厂商详解
  2. eclipse中referenced libraries的引入方法
  3. 【编程语言 | C语言】C 语言编程规范
  4. nltk下载出现问题
  5. 解决idea切换窗口光标位置跑到本行最左边的问题
  6. python链表划分_《Python自然语言处理》——1.2 近观Python:将文本当做词链表-阿里云开发者社区...
  7. 电子学会 青少年软件编程等级考试 C语言 3 级
  8. 赵小楼《天道》《遥远的救世主》深度解析(127)一解决生存,二让心有个安处
  9. CSS+Java Script+HTML实现打飞机小游戏
  10. 关于查找网页中滚动元素(automa)