python实现英文新闻摘要自动提取_用python机器学习实现新闻关键词的抽取
随着互联网的蓬勃发展,手机移动端和网络的逐渐普及,传播的权利下放到每个公民,“公民新闻”应运而生,每个公民成为记者,都能通过网络发出自己的声音。随着新闻传播门槛的降低,网上的信息愈加鱼龙混杂,如何有效在海量信息中获取自己感兴趣的和需要的成为另一个难题,如何在大量的新闻文本中提取出关键信息变得越来越重要。本案例将使用Python实现新闻关键词的提取。
机器学习竞赛优胜解决方案实战wx7dcc75bb5e655e9b.h5.xiaoe-tech.com
首先介绍什么是关键词?
1.关键词
关键词是指能反映文本主题或者意思的词语,如论文中的Keyword字段。大多数人写文章的时候,不会像写论文的那样明确的指出文章的关键词是什么,关键词自动标注任务正是在这种背景下产生的。
目前,关键词自动标注方法分为两类:
(1)关键词分配,预先定义一个关键词词库,对于一篇文章,从词库中选取若干词语作为文章的关键词;
(2)关键词抽取,从文章的内容中抽取一些词语作为关键词。
2.应用场景
在文献检索初期,由于当时还不支持全文搜索,关键词就成为了搜索文献的重要途径。随着网络规模的增长,关键词成为了用户获取所需信息的重要工具,从而诞生了如Google、百度等基于关键词的搜索引擎公司。
关键词自动标注技术在推荐领域也有着广泛的应用。如图1所示,当用户阅读图中左边的新闻时,推荐系统可以给用户推荐包含关键词”Dropbox”、”云存储”的资讯,同时也可以根据文章关键词给用户推荐相关的广告。
关键词可以作为用户兴趣的特征,从而满足用户的长尾阅读兴趣。传统的信息订阅系统一般使用类别或者主题作为订阅的内容,如下图所示。如果用户想订阅更细粒度的内容,这类系统就无能为力了。关键词作为一种对文章更细粒度的描述,刚好可以满足上述需求。
除了这些以外,关键词还在文本聚类、分类、摘要等领域中有着重要的作用。比如在聚类时,将关键词相似的几篇文章看成一个类团可以大大提高K-means聚类的收敛速度。从某天所有新闻中提取出这些新闻的关键词,就可以大致知道那天发生了什么事情。或者将某段时间中几个人的微博拼成一篇长文本,然后抽取关键词就可以知道他们主要在讨论些什么话题。
3.现有问题与挑战
文章的关键词通常具有以下三个特点
· 可读性。关键词本身应该是有意义的词或者短语。例如,“我们约会吧”是有意义的短语,而“我们”则不是。
· 相关性。关键词必须与文章的主题相关。例如,一篇介绍巴萨在德比中输给皇马的新闻,其中可能顺带提到了“中超联赛”这个关短语,这时就不希望这个短语被选取作为该新闻的关键词。
· 覆盖度。关键词集合能对文章的主题有较好的覆盖度,不能只集中在文章的某个主题而忽略了文章的其他主题。
从上述三个特点,可以看到关键词标注算法的要求以及面临的挑战:
a. 新词发现以及短语识别问题,怎样快速识别出网络上最新出现的词汇;
b. 关键词候选集合的问题,并不是文章中所有的词语都可以作为候选;
c. 怎么计算候选词和文章之间的相关性?
d. 如何覆盖文章的各个主题?
关键词分配算法需要预先定义一个关键词词库,这就限定了关键词候选范围,算法的可扩展性较差,且耗时耗力;关键词抽取算法是从文章的内容中抽取一些词语作为标签词,当文章中没有质量较高的词语时,这类方法就无能为力了。
用Python作为工具,可以对海量文本进行机器学习和算法分析,更多案例详见:
Python抽取新闻关键词搭建模型教程简介:
1. 任务目标与数据集介绍
2. 数据清理与预处理
3. 抽取数据基本特征
4. 分析文章与词向量
5. 划分权重
6. 候选词统计特征
7. textrank特征提取
8. 候选词相似度特征
9. 特征工程汇总
谷歌的自动驾驶汽车和机器人受到了很多媒体的关注,但该公司真正的未来是在机器学习领域,这种技术能使计算机变得更聪明,更个性化。-Eric Schmidt(Google董事长)
在当下数字社会,机器学习和数据分析已经成为我们生活的一部分,已经是很多系统的“动力系统”,从平凡到可以改变生活的所有。Python更像是一个工具,助力数据分析更加精准和高效 ,推动数字社会的发展。
python实现英文新闻摘要自动提取_用python机器学习实现新闻关键词的抽取相关推荐
- python实现英文新闻摘要自动提取_利用Python实现摘要自动提取,完美瘦身只需一行代码...
原标题:利用Python实现摘要自动提取,完美瘦身只需一行代码 今天给大家推荐一个也可以用于关键字提取的算法TextRank,但主要实现的功能是快速从长篇新闻中抽取精准摘要. 前言介绍 TextRan ...
- 如何用我python抓取关键字新闻_用python机器学习实现新闻关键词的抽取
随着互联网的蓬勃发展,手机移动端和网络的逐渐普及,传播的权利下放到每个公民,"公民新闻"应运而生,每个公民成为记者,都能通过网络发出自己的声音.随着新闻传播门槛的降低,网上的信息愈 ...
- 用python机器学习实现新闻关键词的抽取,你学会了吗?
1.关键词 关键词是指能反映文本主题或者意思的词语,如论文中的Keyword字段.大多数人写文章的时候,不会像写论文的那样明确的指出文章的关键词是什么,关键词自动标注任务正是在这种背景下产生的. 目前 ...
- Python 实现英文新闻摘要自动提取 1
"关键字"法完成新闻摘要提取 我们现在浏览新闻,一般都会看标题 ( title ) 和新闻简介 ( summary ) 来判断我们是否对这则新闻感兴趣.之前的新闻简介都是由编辑手动 ...
- Python 实现英文新闻摘要自动提取(1)
"关键字"法完成新闻摘要提取 我们现在浏览新闻,一般都会看标题 ( title ) 和新闻简介 ( summary ) 来判断我们是否对这则新闻感兴趣.之前的新闻简介都是由编辑手动 ...
- Python 实现英文新闻摘要自动提取 (2)
TextRank算法完成摘要提取 一.实验简介 1.1 实验内容 上节实验我们完成了一个简单的"关键字提取"算法,初步了解了自然语言处理.本节实验,我们将实现TextRank算法完 ...
- python实现英文新闻摘要自动提取_Automotive Innovation摘要集系列2:Intelligent and Connected Vehicles...
为便于广大科技工作者更好的了解中国汽车行业首个英文学术期刊<Automotive Innovation>,并更快的定位到自己感兴趣的论文,编辑部把2018-2019年刊出的70篇论文摘要进 ...
- python中nomodulenamed怎么解决_关于 python ImportError: No module named 的问题
今天在 centos 下安装 python setup.py install 时报错:ImportError: No module named sysconfig, 当时急着用,就顺手直接源码编译了一 ...
- python中函数的调用_慢步python,编程中函数的概念,python中函数的声明和调用
函数,曾经是一个很高大尚的概念.笔者是在高中数学里认识的函数,先是从y=2x+3 这条代数式开始的.y是因变量,x是自变量,y因为x取值的变化而变化. 再后来式子变成这样:f(x)=2x+3,f(x) ...
最新文章
- ELMo:基于上下文的语言模型,5分钟构建语义搜索引擎代码实战
- hibnate 创建表的时候type=innodb报错
- 1使用帝国cms开发微信小程序之开发前的约定
- 这次是在没有外网yum仓库的情况下搭建内网yum仓库和无人值守pxe装机
- 微软caffe-SSD的训练和预测(windows cpu)
- linux 卸载aria2,Linux Mint 19下安装aria2的过程完整总结
- 一致性hash算法原理
- 6-14 数据库高级
- 两个小块随鼠标拖动_html,类练习
- win7如何安装mysql5.7_Win7下安装MySQL5.7备忘
- mysql bin log 255_解析MYSQL BINLOG 二进制格式(4)--TABLE_MAP_EVENT
- SpringBoot项目读取json配置文件
- cocoapods应用第一部分-xcode创建.framework相关
- 修改sql数据库服务器名称,如何更改sql数据库服务器名称
- 20款知名PHP集成环境推荐与优缺点分析、php环境大全推荐(PHP环境搭建包)
- arduinouno的地是相连的吗_如何连接地线是最标准的,能起到保障的作用吗?
- 近五年计算机考研国家线、自划线汇总!
- 库克将在斯坦福大学2019年毕业典礼上发表演讲:6月16日举行
- 51.Linux 什么是线程?
- ✖ 48 problems (48 errors, 0 warnings) 45 errors and 0 warnings potentially fixable with the `--fix