关键词

关键词是表达文档主题意义的最小单位。关键词自动抽取技术则是一种识别有意义且具有代表性片段或词汇(即关键词) 的自动化技术。关键词自动抽取在文本挖掘领域被称为关键词抽取 (Keyword Extraction),在信息检索领域则通常被称为自动标引 (Automatic Indexing),关键词提取是文献检索、自动摘要、文本分类、推荐系统等领域的基础性任务。
中文关键词提取算法:目前在中文数据集上主要使用的算法有以下三种:

数据集

由2000+博士论文组成,其类别和组成内容如下:

算法测评

使用jieba自带的tfidf,textrank及gensim的LDA算法对人文类数据集测评的准确率如下:

算法改进思路

  • 语义信息:学术文档标题中所含人名、地名、书籍名等实体名作为关键词的概率较大,使用了Hanlp对标题中的内容进行实体名抽取,制作词典,提高词典中词语权重。
  • 位置特征:若关键词在文档中的词频较高,其出现的首尾位置差值约为会有文档一半的词汇。通过位置差对提取的关键词进一步筛选。

改进效果

改进后的TF/IDF算法与原算法在2000+数据集上提取准确率对比如下:

总结

目前关键词提取的准确率任然极大地依赖于中文分词,目前在不同学科论文中测试,未发现通用的中文分词库,分词测试文本见下例:“我想过过过儿过过的生活,标准化方差,基于神经网络的磷酸铁锂电池SOC预测研究,王鹏运等《庚子秋词》在“词史”上的意义”,测试结果如下图jieba paddle分词结果

其它分词结果

中文关键词提取tfidf算法改进bsaeline相关推荐

  1. KeyBERT进行中文关键词提取

    原文链接 KeyBERTLeveraging BERT to extract important keywordshttps://maartengr.github.io/KeyBERT/index.h ...

  2. 基于yake的中文关键词提取试验

    前言: 之前看了云朵dalao的一篇关于关键词提取的文章,其中介绍的 Yake 模型采用了大写词.词位置.全文词频.上下文关系.句间词频等 5 个指标,计算候选词得分.感觉设计上较直观.易解释,但原 ...

  3. SnowNlp中文分词和中文关键词提取只能提取单个字不能提取分词的解决方法

    文章目录 问题描述 原因 解决方法 问题描述 # -*- coding: utf-8 -*- # 导入SnowNLP库 from snownlp import * import jieba impor ...

  4. 自然语言处理之关键词提取TF-IDF

    统计每篇文章重要的词作为这篇文章的关键词,用tf-idf来实现.生产中有很多第三包可以调用,这里记录原理,顺便熟练python 1.公式 : 计算词频TF 考虑到文章有长短之分,为了便于不同文章的比较 ...

  5. 神策数据推荐系统:中文关键词提取新模型

    向AI转型的程序员都关注了这个号

  6. TextRank中文,英文关键词提取

    1.基于pytextrank英文关键词提取 # pip install pytextrank # python -m spacy download en_core_web_sm import spac ...

  7. python如何打开txt文件、并算词频_python TF-IDF词频算法实现文本关键词提取代码...

    TF(Term Frequency)词频,在文章中出现次数最多的词,然而文章中出现次数较多的词并不一定就是关键词,比如常见的对文章本身并没有多大意义的停用词.所以我们需要一个重要性调整系数来衡量一个词 ...

  8. python 英文关键词提取_python TF-IDF算法实现文本关键词提取

    TF(Term Frequency)词频,在文章中出现次数最多的词,然而文章中出现次数较多的词并不一定就是关键词,比如常见的对文章本身并没有多大意义的停用词.所以我们需要一个重要性调整系数来衡量一个词 ...

  9. python如何读取中文文件-如何用Python提取中文关键词?

    本文一步步为你演示,如何用Python从中文文本中提取关键词.如果你需要对长文"观其大略",不妨尝试一下. 2017-12-07-20-38-22-7-426487.png 需求 ...

最新文章

  1. 如何画出漂亮的神经网络图?神经网络可视化工具集锦搜集
  2. Content Security Policy的学习理解
  3. 【学习笔记】33、具有Python特色的循环
  4. ORACLE性能优化救生指南_21章 重做和归档的优化
  5. 使用Docker容器的十大误区
  6. java 计算i 出现的次数_JAVA算法:按照给定的段落统计单词出现次数(JAVA代码)...
  7. OpenCV:solvePnP参数介绍
  8. app评论如何抓取_可能是史上最独一无二的中国高铁APP——高铁通
  9. 963B:Destruction of a Tree
  10. AttributeError: 'module' object has no attribute 'urlopen报错解决办法
  11. 面试问题总结——关于YOLO系列(三)
  12. 最让IT技术支持人员头痛的10件事
  13. 词法分析(一):状态转换图
  14. 移动端自动化任务-AutoJs Pro v9使用教程(一)
  15. 未成年人勿进 谨以献给1980~1990出生的人(四)
  16. 教你一个图片快速取反色的方法
  17. Android-APK
  18. python123 凯撒密码,Python:Caesar代码,python,凯撒,密码
  19. 自然语言处理(NLP)编程实战-1.2 使用朴素贝叶斯实现情感分类
  20. 《网络编程》关于 UNIX网络编程 卷1 的 unp.h 和源码编译问题

热门文章

  1. Dev C++可以编译但运行时提示failed to execute且error 0:操作成功完成
  2. 如何做一个园区的导航地图?园区楼宇地图导航如何实现?
  3. mysql丢失数据,mysql数据丢失问题讨论(转)
  4. Mac电脑打开app,提示无法验证此App不包含恶意软件解决方法
  5. HDU and 蓝桥杯 完全背包练习题
  6. 微星显卡拷机测试软件,微星显卡拷机软件(MSI Kombustor)
  7. 电信:自娱自乐的全员揽装,让人心寒!
  8. Android面试Hash原理详解二
  9. 常见的三种字符编码ASCII、Unicode、UTF-8
  10. 计算机安装操作步骤,重新安装计算机系统的步骤,最简单,最安全的操作!