2019独角兽企业重金招聘Python工程师标准>>>

词性标注

  • 标注语料库;

    • 各词性标注及其含义
  • 自动标注器;

    • 默认标注器;
    • 正则表达式标注器;
    • 查询标注器;
  • N-gram标注器;

    • 一元标注器;
    • 分离训练和测试数据;
    • 一般的N-gram的标注;
    • 组合标注器;
    • 标注生词;
    • 储存标注器;
    • 性能限制;
    • 跨句子边界标注;
  • 隐马尔科夫标注器;

    • 生成模式;

      • 确定模式;
      • 非确定模式;
    • 隐藏模式;

隐马尔科夫模型HMM

  • 是一种统计模型,用于描述一个含有隐含未知参数的马尔科夫过程,难点在于从可观察的参数中确定此过程的隐含参数,然后利用这些参数进行下一步的分析,可当做一种转移矩阵;
  • 一个隐马尔科夫模型是一个三元组(pi, A, B);
  • 隐马尔科夫模型的三大基本问题与解决方案包括:
    • 对于一个观察序列匹配最可能的系统一一评估,使用前向算法(forward algorithm)解决;
    • 对于已生成的一个观察序列,确定最可能的隐藏状态序列一一解码,使用维特比算法(Viterbi algorithm)解决;
    • 对于已生成的观察序列,决定最可能的模型参数一一学习,使用前向-后向算法(forward backward algorithm)解决;

文本分类

分类的使用
  • 根据名字判别性别;
  • 文本分类;
  • 词性分类;
  • 句子分割;
  • 识别对话行为;
分类算法
  • 朴素贝叶斯分类器;
  • 决策树
建立分类器的步骤:
  • 确定输入特征---特征提取器;
  • 划分数据集;
  • 使用训练集构建分类器;
  • 使用测试集测试分类器效果;
分类的类别
  • 文档分类

    • 特征提取器:关键字是否在文档中;
    • 分类器训练;
  • 词性判断
    • 特征提取器:词后缀
    • 分类器训练:决策树分类器
    • 基于上下文的词性判断;
  • 序列分类
    • 贪婪序列分类;
    • 隐马尔科夫模型;
  • 句子分割:标点符号的分类任务
  • 识别对话行为类型;

评估

  • 训练集与测试集的划分
  • 准确度
    • 正确分类数目/待分类数目
  • 精确度(precision)
    • TP/(TP+FP)
  • 召回率(recall)
    • TP/(TP+FN)
  • F-度量值(F-score)
    • (2*Precison*Recall)/(Precison + Recall)

文本聚类

  • 特征选择(feature selection)
  • 近邻测度(proximity measure)
  • 聚类准则(clustering criterion)
  • 聚类算法(clustering algorithm)
  • 结果验证(valida of the results))
  • 结果解释(interpretation of the results)

聚类与分类的区别

  • 聚类分析的是研究事先在没有训练的条件下如何把样本划分为若干类的问题;
  • 而在分类中,对于目标数据库中存在哪些类是事先知道的,需要做的是将每一条记录分别属于的类别标记出来;
  • 聚类需要解决的问题是将给定的若干无标记的模式聚集起来让它们成为有意义的聚类,聚类是在预先不知道目标数据库到底有多少泪的情况下,希望将所有记录组成不同的类或聚类,并在这种分类情况下,以某种度量为标准的相似度,在同一聚类之间最小化,而在不同聚类之间最大化;
  • 与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据样本有类别标记;

转载于:https://my.oschina.net/cunyu1943/blog/2222379

自然语言处理NLP(二)相关推荐

  1. 中文自然语言处理(NLP)(三)运用python jieba模块计算知识点当中关键词的词频

    前两次链接:中文自然语言处理(NLP)(一)python jieba模块的初步使用       中文自然语言处理(NLP)(二)python jieba模块的进一步学习和xlrd模块 续上次的随笔之后 ...

  2. 自然语言处理NLP中文分词,词性标注,关键词提取和文本摘要

    NLP相关工具包的介绍 1.1 jieba "结巴"中文分词,理念是做最好的 Python 中文分词组件. 支持三种分词模式: (1)精确模式,试图将句子最精确地切开,适合文本分析 ...

  3. 自然语言处理NLP面试问题

    自然语言处理NLP面试问题 前言 一.机器学习相关模型 1.朴素贝叶斯 1-1.相关概念介绍 1-2.贝叶斯定理 1-3.贝叶斯算法的优缺点 1-4.拓展延伸 1-4-1.MLE(最大似然) 1-4- ...

  4. 自然语言处理(二)基于CNN的新闻文本分类

    自然语言处理(二) 1.Task1 数据集探索 1.1下载数据集 1.2数据集的描述 1.3 数据的预处理 1.4 CNN卷积神经网络 1.5 训练与验证 2.IMDB 2.1下载 IMDB 数据集 ...

  5. 自然语言处理NLP——GSDMM用于短文本聚类

    目录 系列文章目录 一.论文与算法介绍 1.论文背景与简介 2.电影分组过程模拟GSDMM聚类 3.算法模型与流程 4.论文结果与分析 二.GSDMM模型复现(MGP过程) 1.核心思想 2.实现过程 ...

  6. 自然语言处理NLP(10)——语义分析

    在上一部分中,我们介绍了句法分析中的局部句法分析以及依存关系分析(自然语言处理NLP(9)--句法分析c:局部句法分析.依存关系分析),至此,繁复冗长的句法分析部分就结束了. 在这一部分中,我们将要介 ...

  7. 自然语言处理系列二十二》词性标注》词性标注原理》词性介绍

    注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书<分布式机器学习实战>(人工智能科学与技术丛书)[陈敬雷编著][清华大学出版社] 文章目录 自然语言处理系列二十二 词性 ...

  8. matlab分词NLP,自然语言处理NLP分词篇

    自然语言处理NLP分词篇 自然语言处理NLP[分词篇] NLP简介和三种分词模型 NLP逐渐成为人工智能一大热点研究方向,目前国外对英文分词的研究比较深入,而中文分词发展较缓.它需要联系上下文.作者背 ...

  9. 自然语言处理NLP(3)——神经网络语言模型、词向量

    在上一部分中,我们了解到了统计语言模型,n-gram模型以及语料库的基本知识: 自然语言处理NLP(2)--统计语言模型.语料库 在这一部分中,我们将在此基础上介绍神经网络语言模型以及词向量的相关知识 ...

  10. 人工智能自然语言处理NLP入门教程

    导读:自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域. 语言是人类区别其他动物的本质特性.在所有生物中,只有人类才具有语言能力.人类的多种智能都与 ...

最新文章

  1. android system window,Android控件的fitSystemWindows属性
  2. python处理数据的优势-Python语言的七大优势
  3. Python matplotlib pyplot中title() xlabel() ylabel()无法显示在中文(方框乱码)的解决办法
  4. Oracle数据库的视图
  5. 计算机网络 哪个教材好,学习计算机网络哪本教材最好?
  6. 高性能滚动scroll(防抖和节流)
  7. 窗函数(Window Function)在信号处理当中的应用
  8. 递归法:计算m个A,n个B可以组合成多少种排列问题?
  9. 与孩子一起学编程05章
  10. 腾讯QQ表情生意经:建开放平台 与原创者最高六四分成
  11. 设计在链式存储结构上交换二叉树中所有结点左右子树的算法
  12. Wannacry“永恒之蓝”勒索病毒最全防范措施
  13. amazon - FileZilla 连接 amazon云服务器
  14. eNews 第二十三期/2007.04
  15. c语言中以w方式进行文件操作时,文件操作
  16. python结合ogr2ogr之地理数据格式转换-2
  17. 聪明爸妈的明智抉择,但我还是建议你不要轻易买保险
  18. 《数据库系统概念》第一章:引言
  19. SpringSecurity权限管理框架系列(七)-SpringSecurity自定义配置类中自定义Filter的使用详解
  20. win11触控板使用不了的解决方法

热门文章

  1. win10 安装低版本的 .net framework
  2. 解决ubuntu下arduino IDE的Serial Port无法选择问题
  3. Java基础篇:如何使用instanceof
  4. Java新职篇:面向对象编程的3个原则是什么?
  5. Python+Selenium FAQ
  6. 使用LDAP查询快速提升域权限
  7. SpringMVC之Controller常用注解功能全解析
  8. UVA 12657 Boxes in a Line
  9. 用WPF+MongoDB开发房产信息收集器(4)——房产信息采集器总体介绍附程序下载
  10. 程序员面试金典——17.3阶乘尾零