现有问题与挑战

文章的关键词通常具有以下三个特点
1、 可读性。关键词本身应该是有意义的词或者短语。例如,“我们约会吧”是有意义的短语,而“我们”则不是。 2、相关性。关键词必须与文章的主题相关。例如,一篇介绍巴萨在德比中输给皇马的新闻,其中可能顺带提到了“中超联赛”这个关短语,这时就不希望这个短语被选取作为该新闻的关键词。 3、覆盖度。关键词集合能对文章的主题有较好的覆盖度,不能只集中在文章的某个主题而忽略了文章的其他主题。

从上述三个特点,可以看到关键词标注算法的要求以及面临的挑战:a.新词发现以及短语识别问题,怎样快速识别出网络上最新出现的词汇(人艰不拆、可行可珍惜…)?b.关键词候选集合的问题,并不是文章中所有的词语都可以作为候选;c.怎么计算候选词和文章之间的相关性?d.如何覆盖文章的各个主题?

目前,关键词自动标注方法分为两类:1)关键词分配,预先定义一个关键词词库,对于一篇文章,从词库中选取若干词语作为文章的关键词;2)关键词抽取,从文章的内容中抽取一些词语作为关键词。
关键词分配算法需要预先定义一个关键词词库,这就限定了关键词候选范围,算法的可扩展性较差,且耗时耗力;关键词抽取算法是从文章的内容中抽取一些词语作为标签词,当文章中没有质量较高的词语时,这类方法就无能为力了。为了解决上述这些问题和挑战,我们设计了层次化关键词自动标注算法.

关于文本的关键词提取方法分为有监督、半监督和无监督三种:

这里是引用
https://zhuanlan.zhihu.com/p/33605700

无监督关键词抽取算法可以分为三大类,基于统计特征的关键词抽取、基于词图模型的关键词抽取和基于主题模型的关键词抽取。

  • 基于统计特征的关键词抽取算法

    1) 基于词权重的特征量化
    基于词权重的特征量化主要包括词性、词频、逆向文档频率、相对词频、词长等。
    2) 基于词的文档位置的特征量化
    这种特征量化方式是根据文章不同位置的句子对文档的重要性不同的假设来进行的。通常,文章的前N个词、后N个词、段首、段尾、标题、引言等位置的词具有代表性,这些词作为关键词可以表达整个的主题。
    3) 基于词的关联信息的特征量化
    词的关联信息是指词与词、词与文档的关联程度信息,包括互信息、hits值、贡献度、依存度、TF-IDF值等。
    

比较有趣:AI领域TOP100知乎最受欢迎专栏文章–提取关键词和摘要展示https://zhuanlan.zhihu.com/p/32911340

关键词提取面临问题及挑战相关推荐

  1. 转:鏖战双十一-阿里直播平台面临的技术挑战(webSocket, 敏感词过滤等很不错)...

    转自:http://www.infoq.com/cn/articles/alibaba-broadcast-platform-technology-challenges 鏖战双十一-阿里直播平台面临的 ...

  2. KeyBert、TextRank等九种本文关键词提取算法(KPE)原理及代码实现

    关键词提取 (Keyphrase Extraction,KPE) 任务可以自动提取文档中能够概括核心内容的短语,有利于下游信息检索和 NLP 任务.当前,由于对文档进行标注需要耗费大量资源且缺乏大规模 ...

  3. 干货 | 机器学习正在面临哪些主要挑战?

    点击上方"AI有道",选择"星标公众号" 重磅干货,第一时间送达! 在上一篇文章: 机器学习实用指南:这些基础盲点请务必注意! 红色石头给大家介绍了<Sc ...

  4. 广播IP转型报告:2021年广播公司面临的最大挑战

    正文字数:1559 阅读时长:5分钟 文 / Lina Nikols 译 / LiveVideoStack 原文链接 / https://www.haivision.com/blog/broadcas ...

  5. 【论文翻译】Recent security challenges in cloud computing 近代云计算面临的安全挑战

    Recent security challenges in cloud computing Nalini Subramanian Research Scholar⁎ , Andrews Jeyaraj ...

  6. 测试人员面临的测试挑战和必备技能

    结果不确定的复杂AI系统给测试人员和程序员带来了挑战.Fiona Charles认为,这样的系统在高影响.高风险应用程序中将越来越普遍.测试人员应该提升他们的思考能力和学习能力,发展一些个人优势,比如 ...

  7. 关键词提取_NLP 关键词 提取 实战 案例

    训练一个关键词提取算法需要以下几个步骤: 1)加载已有的文档数据集: 2)加载停用词表: 3)对数据集中的文档进行分词: 4)根据停用词表,过滤干扰词: 5)根据数据集训练算法: 根据训练好的关键词提 ...

  8. 基于TextRank的关键词提取算法

    基于TextRank的关键词提取算法 前沿 TextRank是一种文本排序算法,是基于著名的网页排序算法PageRank改动而来.在介绍TextRank前,我们先简单介绍下什么是PageRank.另外 ...

  9. Discuz! 在线中文分词、关键词提取服务

    不同于使用自己的服务器进行分词,Discuz!在线中文分词服务是基于API返回分词结果的.在项目中,我们只需要一个函数即可方便地进行分词.关键词提取. 以下是根据Discuz!在线分词服务API写的函 ...

最新文章

  1. 体检系统前端源码_给您的前端进行健康检查
  2. SpringBoot 整合 Shiro 实现动态权限加载更新+ Session 共享 + 单点登录
  3. 视频直播:实时数据可视化分析
  4. iOS Xcode4.2代码管理工具的使用
  5. vim多窗口使用技巧
  6. jQuery 判断所有图片加载完成
  7. TF使用例子-情感分类
  8. FZOJ2110: Star
  9. sql查询初学者指南_面向初学者SQL Server查询执行计划–聚集索引运算符
  10. java的poi技术读取Excel[2003-2007,2010]
  11. java程序servlet_JavaWeb之第一个Servlet程序
  12. 修改Code Blocks默认代码格式
  13. 关于《淘宝技术这十年》
  14. linux进程终止命令,Linux kill命令:终止进程
  15. 笔记本连接显示器没有声音解决方法
  16. idea项目管理github无法登陆
  17. Loadrunner11破解详解 .
  18. 黑马程序员前端实战项目---PC端品优购(下)
  19. 向上沟通-管理你的上司
  20. 考研日语线上笔记(二):惯用句型250条

热门文章

  1. 如何用C#+WinRAR 实现压缩
  2. 三流Java撸代码,二流Java搞框架,一流Java…
  3. 如何查看计算机tcp ip协议,如何测试TCP/IP协议是否正常?
  4. 【游戏分析】《大王不高兴》1.4.0.0版本 游戏体验分析总结
  5. thinkadmin中的一些方法使用
  6. 高铁、地铁这些轨道列车的动力来源是什么?
  7. verilog的时钟分频与时钟使能
  8. 计算机弹出虚拟U盘,我们通过工具所自带的电脑模拟器对我们u盘制作启动盘进行模拟启动测试...
  9. linux 可道云_Aria2+KodExplorer可道云实现离线下载
  10. C#判断用户是否使用微信浏览器,并据此来显示真实内容或二维码