1.关键词

关键词是指能反映文本主题或者意思的词语,如论文中的Keyword字段。大多数人写文章的时候,不会像写论文的那样明确的指出文章的关键词是什么,关键词自动标注任务正是在这种背景下产生的。

目前,关键词自动标注方法分为两类:

(1)关键词分配,预先定义一个关键词词库,对于一篇文章,从词库中选取若干词语作为文章的关键词;

(2)关键词抽取,从文章的内容中抽取一些词语作为关键词。

2.应用场景

在文献检索初期,由于当时还不支持全文搜索,关键词就成为了搜索文献的重要途径。随着网络规模的增长,关键词成为了用户获取所需信息的重要工具,从而诞生了如Google、百度等基于关键词的搜索引擎公司。

关键词自动标注技术在推荐领域也有着广泛的应用。如图1所示,当用户阅读图中左边的新闻时,推荐系统可以给用户推荐包含关键词”Dropbox”、”云存储”的资讯,同时也可以根据文章关键词给用户推荐相关的广告。

关键词可以作为用户兴趣的特征,从而满足用户的长尾阅读兴趣。传统的信息订阅系统一般使用类别或者主题作为订阅的内容,如图2所示。如果用户想订阅更细粒度的内容,这类系统就无能为力了。关键词作为一种对文章更细粒度的描述,刚好可以满足上述需求。

除了这些以外,关键词还在文本聚类、分类、摘要等领域中有着重要的作用。比如在聚类时,将关键词相似的几篇文章看成一个类团可以大大提高K-means聚类的收敛速度。从某天所有新闻中提取出这些新闻的关键词,就可以大致知道那天发生了什么事情。或者将某段时间中几个人的微博拼成一篇长文本,然后抽取关键词就可以知道他们主要在讨论些什么话题。

3.现有问题与挑战

文章的关键词通常具有以下三个特点

· 可读性。关键词本身应该是有意义的词或者短语。例如,“我们约会吧”是有意义的短语,而“我们”则不是。

· 相关性。关键词必须与文章的主题相关。例如,一篇介绍巴萨在德比中输给皇马的新闻,其中可能顺带提到了“中超联赛”这个关短语,这时就不希望这个短语被选取作为该新闻的关键词。

· 覆盖度。关键词集合能对文章的主题有较好的覆盖度,不能只集中在文章的某个主题而忽略了文章的其他主题。

从上述三个特点,可以看到关键词标注算法的要求以及面临的挑战:

a. 新词发现以及短语识别问题,怎样快速识别出网络上最新出现的词汇(人艰不拆、可行可珍惜…)?

b. 关键词候选集合的问题,并不是文章中所有的词语都可以作为候选;

c. 怎么计算候选词和文章之间的相关性?

d. 如何覆盖文章的各个主题?

关键词分配算法需要预先定义一个关键词词库,这就限定了关键词候选范围,算法的可扩展性较差,且耗时耗力;关键词抽取算法是从文章的内容中抽取一些词语作为标签词,当文章中没有质量较高的词语时,这类方法就无能为力了。如果大家对Python感兴趣的话,可以加一下我的微信哦:abb436574,免费领取一套学习资料和视频课程哟~

用Python作为工具,可以对海量文本进行 机器学习 和算法分析,用最接地气的方式挑战数据科学领域实战项目。

Python抽取新闻关键词搭建模型教程简介:

1. 任务目标与数据集介绍

2. 数据清理与预处理

3. 抽取数据基本特征

4. 分析文章与词向量

5. 划分权重

6. 候选词统计特征

7. textrank特征提取

8. 候选词相似度特征

9. 特征工程汇总

谷歌的自动驾驶汽车和机器人受到了很多媒体的关注,但该公司真正的未来是在机器学习领域,这种技术能使计算机变得更聪明,更个性化。-Eric Schmidt(Google董事长)

在当下数字社会,机器学习和数据分析已经成为我们生活的一部分,已经是很多系统的“动力系统”,从平凡到可以改变生活的所有。Python更像是一个工具,助力数据分析更加精准和高效。

用python机器学习实现新闻关键词的抽取,你学会了吗?相关推荐

  1. 如何用我python抓取关键字新闻_用python机器学习实现新闻关键词的抽取

    随着互联网的蓬勃发展,手机移动端和网络的逐渐普及,传播的权利下放到每个公民,"公民新闻"应运而生,每个公民成为记者,都能通过网络发出自己的声音.随着新闻传播门槛的降低,网上的信息愈 ...

  2. python实现英文新闻摘要自动提取_用python机器学习实现新闻关键词的抽取

    随着互联网的蓬勃发展,手机移动端和网络的逐渐普及,传播的权利下放到每个公民,"公民新闻"应运而生,每个公民成为记者,都能通过网络发出自己的声音.随着新闻传播门槛的降低,网上的信息愈 ...

  3. 2021-4月Python 机器学习——中文新闻文本标题分类

    试题说明 试题说明 任务描述 基于THUCNews数据集的文本分类, THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档,参赛者需要根据新闻 ...

  4. 基于Python热点新闻关键词数据分析系统

    温馨提示:文末有 CSDN 平台官方提供的博主 Wechat / QQ 名片 :) 1. 项目简介 利用网络爬虫技术从某新闻网站爬取最新的新闻数据,并进行版块分类,对某篇版块下的所有新闻进行中文分词, ...

  5. python新闻关键词次数_使用python抓取百度搜索、百度新闻搜索的关键词个数

    由于实验的要求,需要统计一系列的字符串通过百度搜索得到的关键词个数,于是使用python写了一个相关的脚本. 在写这个脚本的过程中遇到了很多的问题,下面会一一道来. ps:我并没有系统地学习过pyth ...

  6. 基于Python实现中文文本关键词抽取的三种方法 课程报告+项目源码及数据

    资源下载地址:https://download.csdn.net/download/sheziqiong/85737856 资源下载地址:https://download.csdn.net/downl ...

  7. 免费教材丨第55期:Python机器学习实践指南、Tensorflow 实战Google深度学习框架

    小编说  时间过的好快啊,小伙伴们是不是都快进入寒假啦?但是学习可不要落下哦!  本期教材  本期为大家发放的教材为:<Python机器学习实践指南>.<Tensorflow 实战G ...

  8. python模型预测_《Python机器学习——预测分析核心算法》——1.5 构建预测模型的流程...

    本节书摘来异步社区<Python机器学习--预测分析核心算法>一书中的第1章,第1.5节,作者:[美]Michael Bowles(鲍尔斯),更多章节内容可以访问云栖社区"异步社 ...

  9. 机器学习-2.Python机器学习软件包Scikit-Learn的学习与运用

    EduCoder:机器学习-Python机器学习软件包Scikit-Learn的学习与运用 第1关:使用scikit-learn导入数据集 编程要求: 本关任务是,使用 scikit-learn 的d ...

最新文章

  1. 三个轻量级WebServer--lighttpd,thttpd,shttpd介绍
  2. cnblogs-5个必须掌握的maven命令
  3. Mysql事务以及加锁机制事务的特征ACID
  4. Java 7:使用NIO.2进行文件过滤–第2部分
  5. JavaScript计算指定日期与当前日期的相差天数
  6. Node.js 中 exports 和 module.exports 的区别
  7. 传智播客java教程视频资源,附学习笔记+面试整理+进阶书籍
  8. 软考系统集成项目管理工程师重要知识点
  9. 水星无线网卡配置AP模式连接无线信号上不了网,怎么办?
  10. java浏览器下载进度条,在浏览器中异步下载文件监听下载进度
  11. 计算机网络图标打不开怎么回事,双击打不开图标怎么办 双击打不开图标解决方法【详解】...
  12. 保姆级教学:手把手教你如何分析研报!
  13. 英语生疏了,每日至少一句吧
  14. word制作员工手册教学
  15. 大端模式和小端模式是什么意思?
  16. 我的世界java服务器地址ip_我的世界服务器地址大全
  17. 大于在python中怎么打出来_在python中,如何检查输入不是空的并且是大于零的数字...
  18. 计算机应用基础高等数学试题,大专高等数学期末试卷(A卷)带答案.doc
  19. matlab计算 var,matlab 在险价值 VaR 的计算
  20. linux内核 can总线,Linux Canbus调试笔记

热门文章

  1. 2022年保险行业展望
  2. 支付系统设计:对账处理(二)
  3. 作者:洪学海(1967-),男,博士,中国科学院计算技术研究所研究员,信息技术战略研究中心常务副主任。...
  4. 【项目管理】三球模型
  5. 【数据库系统】核心知识归纳总结
  6. 【Python】TensorBoard的启动问题
  7. 【Python】Matplotlib绘制七彩锥面
  8. 分裂的奶牛群(洛谷P2907题题解,Java语言描述)
  9. 洛谷P4445题解(Java语言描述)
  10. 【Java】数组的注意事项