用python机器学习实现新闻关键词的抽取,你学会了吗?
1.关键词
关键词是指能反映文本主题或者意思的词语,如论文中的Keyword字段。大多数人写文章的时候,不会像写论文的那样明确的指出文章的关键词是什么,关键词自动标注任务正是在这种背景下产生的。
目前,关键词自动标注方法分为两类:
(1)关键词分配,预先定义一个关键词词库,对于一篇文章,从词库中选取若干词语作为文章的关键词;
(2)关键词抽取,从文章的内容中抽取一些词语作为关键词。
2.应用场景
在文献检索初期,由于当时还不支持全文搜索,关键词就成为了搜索文献的重要途径。随着网络规模的增长,关键词成为了用户获取所需信息的重要工具,从而诞生了如Google、百度等基于关键词的搜索引擎公司。
关键词自动标注技术在推荐领域也有着广泛的应用。如图1所示,当用户阅读图中左边的新闻时,推荐系统可以给用户推荐包含关键词”Dropbox”、”云存储”的资讯,同时也可以根据文章关键词给用户推荐相关的广告。
关键词可以作为用户兴趣的特征,从而满足用户的长尾阅读兴趣。传统的信息订阅系统一般使用类别或者主题作为订阅的内容,如图2所示。如果用户想订阅更细粒度的内容,这类系统就无能为力了。关键词作为一种对文章更细粒度的描述,刚好可以满足上述需求。
除了这些以外,关键词还在文本聚类、分类、摘要等领域中有着重要的作用。比如在聚类时,将关键词相似的几篇文章看成一个类团可以大大提高K-means聚类的收敛速度。从某天所有新闻中提取出这些新闻的关键词,就可以大致知道那天发生了什么事情。或者将某段时间中几个人的微博拼成一篇长文本,然后抽取关键词就可以知道他们主要在讨论些什么话题。
3.现有问题与挑战
文章的关键词通常具有以下三个特点
· 可读性。关键词本身应该是有意义的词或者短语。例如,“我们约会吧”是有意义的短语,而“我们”则不是。
· 相关性。关键词必须与文章的主题相关。例如,一篇介绍巴萨在德比中输给皇马的新闻,其中可能顺带提到了“中超联赛”这个关短语,这时就不希望这个短语被选取作为该新闻的关键词。
· 覆盖度。关键词集合能对文章的主题有较好的覆盖度,不能只集中在文章的某个主题而忽略了文章的其他主题。
从上述三个特点,可以看到关键词标注算法的要求以及面临的挑战:
a. 新词发现以及短语识别问题,怎样快速识别出网络上最新出现的词汇(人艰不拆、可行可珍惜…)?
b. 关键词候选集合的问题,并不是文章中所有的词语都可以作为候选;
c. 怎么计算候选词和文章之间的相关性?
d. 如何覆盖文章的各个主题?
关键词分配算法需要预先定义一个关键词词库,这就限定了关键词候选范围,算法的可扩展性较差,且耗时耗力;关键词抽取算法是从文章的内容中抽取一些词语作为标签词,当文章中没有质量较高的词语时,这类方法就无能为力了。如果大家对Python感兴趣的话,可以加一下我的微信哦:abb436574,免费领取一套学习资料和视频课程哟~
用Python作为工具,可以对海量文本进行 机器学习 和算法分析,用最接地气的方式挑战数据科学领域实战项目。
Python抽取新闻关键词搭建模型教程简介:
1. 任务目标与数据集介绍
2. 数据清理与预处理
3. 抽取数据基本特征
4. 分析文章与词向量
5. 划分权重
6. 候选词统计特征
7. textrank特征提取
8. 候选词相似度特征
9. 特征工程汇总
谷歌的自动驾驶汽车和机器人受到了很多媒体的关注,但该公司真正的未来是在机器学习领域,这种技术能使计算机变得更聪明,更个性化。-Eric Schmidt(Google董事长)
在当下数字社会,机器学习和数据分析已经成为我们生活的一部分,已经是很多系统的“动力系统”,从平凡到可以改变生活的所有。Python更像是一个工具,助力数据分析更加精准和高效。
用python机器学习实现新闻关键词的抽取,你学会了吗?相关推荐
- 如何用我python抓取关键字新闻_用python机器学习实现新闻关键词的抽取
随着互联网的蓬勃发展,手机移动端和网络的逐渐普及,传播的权利下放到每个公民,"公民新闻"应运而生,每个公民成为记者,都能通过网络发出自己的声音.随着新闻传播门槛的降低,网上的信息愈 ...
- python实现英文新闻摘要自动提取_用python机器学习实现新闻关键词的抽取
随着互联网的蓬勃发展,手机移动端和网络的逐渐普及,传播的权利下放到每个公民,"公民新闻"应运而生,每个公民成为记者,都能通过网络发出自己的声音.随着新闻传播门槛的降低,网上的信息愈 ...
- 2021-4月Python 机器学习——中文新闻文本标题分类
试题说明 试题说明 任务描述 基于THUCNews数据集的文本分类, THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档,参赛者需要根据新闻 ...
- 基于Python热点新闻关键词数据分析系统
温馨提示:文末有 CSDN 平台官方提供的博主 Wechat / QQ 名片 :) 1. 项目简介 利用网络爬虫技术从某新闻网站爬取最新的新闻数据,并进行版块分类,对某篇版块下的所有新闻进行中文分词, ...
- python新闻关键词次数_使用python抓取百度搜索、百度新闻搜索的关键词个数
由于实验的要求,需要统计一系列的字符串通过百度搜索得到的关键词个数,于是使用python写了一个相关的脚本. 在写这个脚本的过程中遇到了很多的问题,下面会一一道来. ps:我并没有系统地学习过pyth ...
- 基于Python实现中文文本关键词抽取的三种方法 课程报告+项目源码及数据
资源下载地址:https://download.csdn.net/download/sheziqiong/85737856 资源下载地址:https://download.csdn.net/downl ...
- 免费教材丨第55期:Python机器学习实践指南、Tensorflow 实战Google深度学习框架
小编说 时间过的好快啊,小伙伴们是不是都快进入寒假啦?但是学习可不要落下哦! 本期教材 本期为大家发放的教材为:<Python机器学习实践指南>.<Tensorflow 实战G ...
- python模型预测_《Python机器学习——预测分析核心算法》——1.5 构建预测模型的流程...
本节书摘来异步社区<Python机器学习--预测分析核心算法>一书中的第1章,第1.5节,作者:[美]Michael Bowles(鲍尔斯),更多章节内容可以访问云栖社区"异步社 ...
- 机器学习-2.Python机器学习软件包Scikit-Learn的学习与运用
EduCoder:机器学习-Python机器学习软件包Scikit-Learn的学习与运用 第1关:使用scikit-learn导入数据集 编程要求: 本关任务是,使用 scikit-learn 的d ...
最新文章
- 三个轻量级WebServer--lighttpd,thttpd,shttpd介绍
- cnblogs-5个必须掌握的maven命令
- Mysql事务以及加锁机制事务的特征ACID
- Java 7:使用NIO.2进行文件过滤–第2部分
- JavaScript计算指定日期与当前日期的相差天数
- Node.js 中 exports 和 module.exports 的区别
- 传智播客java教程视频资源,附学习笔记+面试整理+进阶书籍
- 软考系统集成项目管理工程师重要知识点
- 水星无线网卡配置AP模式连接无线信号上不了网,怎么办?
- java浏览器下载进度条,在浏览器中异步下载文件监听下载进度
- 计算机网络图标打不开怎么回事,双击打不开图标怎么办 双击打不开图标解决方法【详解】...
- 保姆级教学:手把手教你如何分析研报!
- 英语生疏了,每日至少一句吧
- word制作员工手册教学
- 大端模式和小端模式是什么意思?
- 我的世界java服务器地址ip_我的世界服务器地址大全
- 大于在python中怎么打出来_在python中,如何检查输入不是空的并且是大于零的数字...
- 计算机应用基础高等数学试题,大专高等数学期末试卷(A卷)带答案.doc
- matlab计算 var,matlab 在险价值 VaR 的计算
- linux内核 can总线,Linux Canbus调试笔记