• 基于分类
    需要认为提前设定好一定的分类标准,并需要规定好各个主题类别信息,它是一种有监督或者半监督的方法,对于一个新文本的归类过程也是对其文本主题信息解读的过程。
  • 基于聚类
    无监督
    通过对聚类各个类簇进行解读,从而发现文本的主题信息。

三种流程

  • 基于分类号
    从分类角度识别专利技术主题信息
    专利文本通常都有IPC分类号,该分类号对解读文本技术主题信息具有重要作用。一个专利通常都有一个以上IPC分类号,第一个为主分类号,体现专利文本的主要技术主题西悉尼。专利文本的IPC分类号是传统专利计量分析的重要指标,通过考察某个领域的IPC分布情况,可以在整体上把握该领域的技术主题的分布、研究热点或发展趋势。
    使用IPC分类号识别专利文本涉及的技术主题需要结合《国际专利分类表》,即IPC对照表,通过该对照表便可对相应的IPC分类号进行解读,进而识别专利文本涉及的主要技术主题信息。
    IPC分类号的构成形式一般为:

    • 部(用1个字母表征)
    • 大类 (用2个数字表征)
    • 小类(用1个字母表征)
    • 大组(用1-3个数字表征)/
    • 小组(用2-4个数字表征)
      在传统的专利分析计量中,常用的是提取每个具体IPC分类号的前3至4位代码作为统计分析的基准。

      基于IPC分类号的专利文本主题挖掘方法的优点是简单易行,便于统计分析,是传统专利计量分析常用的方法之一,有着广泛的应用基础。但是其缺点在于对IPC分类表的使用需要具备较强的专业知识,并且IPC分类表中对各个类别技术主题的解释说明是总体上的规约,并不指代各个专利文本所具体表达的技术主题信息。
      另外,这种统计分析方法不深入到具体的文本内容,识别的技术主题粒度较粗,当需要细粒度的专利文本主题识别与分析时,该种方法的适用性就会变得较弱。
  • 基于共词分析
    共词分析法是内容分析法的一种常用方法,最早由法国的文献计量学家在20世纪70年代中后期提出和使用。该方法已经被广泛地应用在许多研究领域,在分析领域研究热点,把我主题演化趋势等方面有着重要的作用。
    共词分析的基本原理是基于文本的关键词或主题词为基本研究单元,通过两两统计它们在同一个文本中出现的频词,然后基于词频确定高频关键词并构建共词关系矩阵,然后再结合聚类分析等方法分析共词间的亲疏关系,进而揭示研究领域的主题结构、研究热点等。常用的聚类方法有K-means聚类、层次聚类等。
    将共词分析法用于专利文本的主题挖掘通常需要解决:一是文本关键词的获取;二十共词关系矩阵的构建。不同于论文等文献有作者标注关键词或者主题词可直接使用,专利文本一般不提供关键词或主题词,需要先采用一定的方法从文本中提取关键词,常用的关键词提取算法有基于词频的TF-IDF算法、基于词间图关系的TextRank算法等。而共词关系矩阵的构建主要是将提取的关键词构建成相应的共现关系矩阵,以便用于聚类分析等。

    基于共词分析的专利文本技术主题挖掘方法的原理简单,可操作性强,相比基于IPC分类号的方法,该方法再一定程度上实现了对专利文本非结构化内容的分析,特别是再研究热点分析方面有较大优势。但是由于该方法主要依据对文本关键词的聚类分析来识别主题信息,提取的关键词的质量直接影响着分析结果的好坏。而专利文本非结构化部分通常具有较为复杂的文本结构信息和富含语义信息,仅依靠提取的少量关键词有时并不能充分表征文本内容,并且关键词间还可能存在同义词、近义词等,这些都影响着共词分析法对专利文本主题挖掘效果。

  • 基于LDA模型
    从聚类角度实现
    LDA是文本语义主题挖掘的一大利器,已经被广泛地应用再各个领域。该模型实现了对文本从“文本-词”的模式到“文本-主题-词”模式的转变,文本被看作是一系列抽象主题的混合,而抽象主题又被看作是一系列词的混合。这种模式的转变显著降低了文本表示维度,并且还很大程度上保留了文本的语义信息。主题模型中最终名和被广泛使用的就是LDA模型。
    将LDA模型用于专利文本的技术主题挖掘需要关注:一是专利文本的特征选择问题;二是主题数量K的确定。由于LDA模型架设了文本的词袋模型,词与词之间是相互独立的,并且主题的词分布是基于词共现的,而词频会影响主题中词分布比例,另外,文本的长度也影响主题识别效果,文本太短不利于模型的训练。因此文本的特征选择是应用LDA模型的关键一步,需要加以重视。LDA模型是一种基于聚类思想的文本分析方法,需要提前指定主题树K,该值影响着模型拟合文本集的效果。擦汗给你简单确定最优K值的方法有基于困惑度的方法,基于主题相似度的方法和基于主题连贯性的方法等,使用较多的是基于困惑度的方法。困惑度反映着主题模型推断文本术语哪个主题有多么不确定,困惑度值越小就说明模型聚类效果越好,也就是主题推断效果越好。模型训练中,通过设置不同的K值,困惑度值最低时对应的K被认为是莫i行的最优K值。


    相比基于IPC分类号和基于共词分析的方法,LDA模型的数学原理和模型训练过程都较为复杂,但是其优点是可以从文本集全局角度表达文本、主题和词之间的关系,不需要人工标注语料库,便能够从文本及章抽取文本语义主题信息,并对文本主题建模,并且使用主题表征文本内容可以很大程度改善文本的同义词、近义词和多义词问题,也降低了文本表示维度。但是由于LDA模型架设了文本的词袋模型,词间是相互独立的,并且主题的分布是基于全局词共现词频计算的,再模型训练过程中,文本集中所有不重复的词通常都会以不同的概率出现再每个主题中,这样导致主题挖掘的结果容易受到非文本主题词的干扰,不利于对文本主题的识别和解读。较多研究表明,较好地进行文本预处理工作,并适当引入文本特征信息,让具有类似特征的我那本的词分配尽可能地再其所在类范围之中,减少非文本主题词的分配,可以获取较好的文本主题挖掘效果。

基于主题模型的专利文本主题挖掘与应用研究- 专利文本主题挖掘方法相关推荐

  1. 基于注意力模型和卷积循环神经网络的中文自然场景文本识别

    最近,在进行相关中文文本识别的工作,查阅了许多论文.最终决定参考谷歌的基于注意力机制的街景文本识别的论文:"Attention-based Extraction of Structured ...

  2. 文本主题模型之非负矩阵分解(NMF)

    1. 非负矩阵分解(NMF)概述 非负矩阵分解(non-negative matrix factorization,以下简称NMF)是一种非常常用的矩阵分解方法,它可以适用于很多领域,比如图像特征识别 ...

  3. Peacock:大规模主题模型及其在腾讯业务中的应用-2015

    Peacock:大规模主题模型及其在腾讯业务中的应用 作者:赵学敏 王莉峰 王流斌 孙振龙 严浩 靳志辉 王益 摘要 如果用户最近搜索了"红酒木瓜汤",那么应该展示什么样的广告呢? ...

  4. NLP︱LDA主题模型的应用难题、使用心得及从多元统计角度剖析

    将LDA跟多元统计分析结合起来看,那么LDA中的主题就像词主成分,其把主成分-样本之间的关系说清楚了.多元学的时候聚类分为Q型聚类.R型聚类以及主成分分析.R型聚类.主成分分析针对变量,Q型聚类针对样 ...

  5. Peacock:大规模主题模型及其在腾讯业务中的应用

    Peacock:大规模主题模型及其在腾讯业务中的应用 2015/03/02分布式计算.机器学习.自然语言处理LDA.Peacock.数据并行.模型并行xueminzhao Peacock:大规模主题模 ...

  6. 一文详解LDA主题模型

    [本文作者]达观数据 夏琦 [作者简介]夏琦,达观数据NLP组实习生,就读于东南大学和 Monash University,自然语言处理方向二年级研究生,师从知识图谱专家漆桂林教授.曾获第五届&quo ...

  7. 系统学习NLP(二十二)--主题模型LDA

    转自:https://blog.csdn.net/kisslotus/article/details/78427585 原文更详细,这里删减了不少 1. 简介 在机器学习领域,LDA是两个常用模型的简 ...

  8. 主题模型综述:短文本、细粒度、加入先验知识、作者写作偏好、主题内涵随时间的变迁、融入词嵌入特性、语言模型加持

    原文链接:https://www.zhihu.com/question/34801598/answer/765580727 主题模型当然有用咯,谁用谁知道!这次我来展示下它的7个"变种&qu ...

  9. 学习LDA主题模型总结

    LDA主题模型 主题模型概念 LDA模型 词袋模型 二项分布 多项分布 共轭先验分布 学习链接 主题模型概念 主题模型(topic model)是以非监督学习的方式对文集的隐含语义结构进行聚类的统计模 ...

最新文章

  1. Galaxy生物信息分析平台的数据集对象清理
  2. 第十六届智能车竞赛参赛队伍提问-6-11
  3. 在Jetty中设置SSL
  4. shell函数可接受不同参数
  5. jQuery源码研究分析学习笔记-jQuery.deferred()(12)
  6. KVM之初体验——QEMU安装虚拟机
  7. Docker系列二~自定义网桥
  8. 会动的图解 (二) 怎么让goroutine跑一半就退出?
  9. goip技术原理图解_图解电工识图一看就懂
  10. 查看java运行时参数_查看JVM运行时参数
  11. 1124Js基础语法
  12. linux 系统硬件信息检测工具,在Linux上查找系统hwinfo硬件信息工具
  13. 免费下载高清可商用的图片网站(整理集合)
  14. 普通最小二乘法,加权最小二乘法,广义最小二乘法之初次理解
  15. 一文看懂SMT车间生产环境要求及管理规范
  16. 四.电影/综艺网站(包含搜索经验, 我的经验, 必看) 彻底帮你解决看电影/综艺的问题
  17. 为什么128KB的魂斗罗可以塞下这么长的剧情?
  18. 学习英语02——词汇——01
  19. 继小米机器狗、特斯拉机器人后,小鹏汽车发布智能机器马:真的能骑!
  20. ZZULIOJ1025

热门文章

  1. android开发程序崩溃闪退问题
  2. 图片上传、预览 存到本地
  3. apache+php安装教程
  4. java web树状导航菜单_导航条——树状导航菜单
  5. python colors属于哪个包,Colour首页、文档和下载 - Python 颜色科学软件包
  6. bzoj 5196: [Usaco2018 Feb]Taming the Herd
  7. 递归函数实现素数判断
  8. 100个网站推广方法
  9. rosrun无法执行相应的可执行程序
  10. 电脑文件夹,显示在另一个程序打开