随着互联网的蓬勃发展,手机移动端和网络的逐渐普及,传播的权利下放到每个公民,“公民新闻”应运而生,每个公民成为记者,都能通过网络发出自己的声音。随着新闻传播门槛的降低,网上的信息愈加鱼龙混杂,如何有效在海量信息中获取自己感兴趣的和需要的成为另一个难题,如何在大量的新闻文本中提取出关键信息变得越来越重要。本案例将使用Python实现新闻关键词的提取。

机器学习竞赛优胜解决方案实战​wx7dcc75bb5e655e9b.h5.xiaoe-tech.com

首先介绍什么是关键词?

1.关键词

关键词是指能反映文本主题或者意思的词语,如论文中的Keyword字段。大多数人写文章的时候,不会像写论文的那样明确的指出文章的关键词是什么,关键词自动标注任务正是在这种背景下产生的。

目前,关键词自动标注方法分为两类:

(1)关键词分配,预先定义一个关键词词库,对于一篇文章,从词库中选取若干词语作为文章的关键词;

(2)关键词抽取,从文章的内容中抽取一些词语作为关键词。

2.应用场景

在文献检索初期,由于当时还不支持全文搜索,关键词就成为了搜索文献的重要途径。随着网络规模的增长,关键词成为了用户获取所需信息的重要工具,从而诞生了如Google、百度等基于关键词的搜索引擎公司。

关键词自动标注技术在推荐领域也有着广泛的应用。如图1所示,当用户阅读图中左边的新闻时,推荐系统可以给用户推荐包含关键词”Dropbox”、”云存储”的资讯,同时也可以根据文章关键词给用户推荐相关的广告。

关键词可以作为用户兴趣的特征,从而满足用户的长尾阅读兴趣。传统的信息订阅系统一般使用类别或者主题作为订阅的内容,如下图所示。如果用户想订阅更细粒度的内容,这类系统就无能为力了。关键词作为一种对文章更细粒度的描述,刚好可以满足上述需求。

除了这些以外,关键词还在文本聚类、分类、摘要等领域中有着重要的作用。比如在聚类时,将关键词相似的几篇文章看成一个类团可以大大提高K-means聚类的收敛速度。从某天所有新闻中提取出这些新闻的关键词,就可以大致知道那天发生了什么事情。或者将某段时间中几个人的微博拼成一篇长文本,然后抽取关键词就可以知道他们主要在讨论些什么话题。

3.现有问题与挑战

文章的关键词通常具有以下三个特点

· 可读性。关键词本身应该是有意义的词或者短语。例如,“我们约会吧”是有意义的短语,而“我们”则不是。

· 相关性。关键词必须与文章的主题相关。例如,一篇介绍巴萨在德比中输给皇马的新闻,其中可能顺带提到了“中超联赛”这个关短语,这时就不希望这个短语被选取作为该新闻的关键词。

· 覆盖度。关键词集合能对文章的主题有较好的覆盖度,不能只集中在文章的某个主题而忽略了文章的其他主题。

从上述三个特点,可以看到关键词标注算法的要求以及面临的挑战:

a. 新词发现以及短语识别问题,怎样快速识别出网络上最新出现的词汇;

b. 关键词候选集合的问题,并不是文章中所有的词语都可以作为候选;

c. 怎么计算候选词和文章之间的相关性?

d. 如何覆盖文章的各个主题?

关键词分配算法需要预先定义一个关键词词库,这就限定了关键词候选范围,算法的可扩展性较差,且耗时耗力;关键词抽取算法是从文章的内容中抽取一些词语作为标签词,当文章中没有质量较高的词语时,这类方法就无能为力了。

用Python作为工具,可以对海量文本进行机器学习和算法分析,更多案例详见:

Python抽取新闻关键词搭建模型教程简介:

1. 任务目标与数据集介绍

2. 数据清理与预处理

3. 抽取数据基本特征

4. 分析文章与词向量

5. 划分权重

6. 候选词统计特征

7. textrank特征提取

8. 候选词相似度特征

9. 特征工程汇总

谷歌的自动驾驶汽车和机器人受到了很多媒体的关注,但该公司真正的未来是在机器学习领域,这种技术能使计算机变得更聪明,更个性化。-Eric Schmidt(Google董事长)

在当下数字社会,机器学习和数据分析已经成为我们生活的一部分,已经是很多系统的“动力系统”,从平凡到可以改变生活的所有。Python更像是一个工具,助力数据分析更加精准和高效 ,推动数字社会的发展。

python实现英文新闻摘要自动提取_用python机器学习实现新闻关键词的抽取相关推荐

  1. python实现英文新闻摘要自动提取_利用Python实现摘要自动提取,完美瘦身只需一行代码...

    原标题:利用Python实现摘要自动提取,完美瘦身只需一行代码 今天给大家推荐一个也可以用于关键字提取的算法TextRank,但主要实现的功能是快速从长篇新闻中抽取精准摘要. 前言介绍 TextRan ...

  2. 如何用我python抓取关键字新闻_用python机器学习实现新闻关键词的抽取

    随着互联网的蓬勃发展,手机移动端和网络的逐渐普及,传播的权利下放到每个公民,"公民新闻"应运而生,每个公民成为记者,都能通过网络发出自己的声音.随着新闻传播门槛的降低,网上的信息愈 ...

  3. 用python机器学习实现新闻关键词的抽取,你学会了吗?

    1.关键词 关键词是指能反映文本主题或者意思的词语,如论文中的Keyword字段.大多数人写文章的时候,不会像写论文的那样明确的指出文章的关键词是什么,关键词自动标注任务正是在这种背景下产生的. 目前 ...

  4. Python 实现英文新闻摘要自动提取 1

    "关键字"法完成新闻摘要提取 我们现在浏览新闻,一般都会看标题 ( title ) 和新闻简介 ( summary ) 来判断我们是否对这则新闻感兴趣.之前的新闻简介都是由编辑手动 ...

  5. Python 实现英文新闻摘要自动提取(1)

    "关键字"法完成新闻摘要提取 我们现在浏览新闻,一般都会看标题 ( title ) 和新闻简介 ( summary ) 来判断我们是否对这则新闻感兴趣.之前的新闻简介都是由编辑手动 ...

  6. Python 实现英文新闻摘要自动提取 (2)

    TextRank算法完成摘要提取 一.实验简介 1.1 实验内容 上节实验我们完成了一个简单的"关键字提取"算法,初步了解了自然语言处理.本节实验,我们将实现TextRank算法完 ...

  7. python实现英文新闻摘要自动提取_Automotive Innovation摘要集系列2:Intelligent and Connected Vehicles...

    为便于广大科技工作者更好的了解中国汽车行业首个英文学术期刊<Automotive Innovation>,并更快的定位到自己感兴趣的论文,编辑部把2018-2019年刊出的70篇论文摘要进 ...

  8. python中nomodulenamed怎么解决_关于 python ImportError: No module named 的问题

    今天在 centos 下安装 python setup.py install 时报错:ImportError: No module named sysconfig, 当时急着用,就顺手直接源码编译了一 ...

  9. python中函数的调用_慢步python,编程中函数的概念,python中函数的声明和调用

    函数,曾经是一个很高大尚的概念.笔者是在高中数学里认识的函数,先是从y=2x+3 这条代数式开始的.y是因变量,x是自变量,y因为x取值的变化而变化. 再后来式子变成这样:f(x)=2x+3,f(x) ...

最新文章

  1. ELMo:基于上下文的语言模型,5分钟构建语义搜索引擎代码实战
  2. hibnate 创建表的时候type=innodb报错
  3. 1使用帝国cms开发微信小程序之开发前的约定
  4. 这次是在没有外网yum仓库的情况下搭建内网yum仓库和无人值守pxe装机
  5. 微软caffe-SSD的训练和预测(windows cpu)
  6. linux 卸载aria2,Linux Mint 19下安装aria2的过程完整总结
  7. 一致性hash算法原理
  8. 6-14 数据库高级
  9. 两个小块随鼠标拖动_html,类练习
  10. win7如何安装mysql5.7_Win7下安装MySQL5.7备忘
  11. mysql bin log 255_解析MYSQL BINLOG 二进制格式(4)--TABLE_MAP_EVENT
  12. SpringBoot项目读取json配置文件
  13. cocoapods应用第一部分-xcode创建.framework相关
  14. 修改sql数据库服务器名称,如何更改sql数据库服务器名称
  15. 20款知名PHP集成环境推荐与优缺点分析、php环境大全推荐(PHP环境搭建包)
  16. arduinouno的地是相连的吗_如何连接地线是最标准的,能起到保障的作用吗?
  17. 近五年计算机考研国家线、自划线汇总!
  18. 库克将在斯坦福大学2019年毕业典礼上发表演讲:6月16日举行
  19. 51.Linux 什么是线程?
  20. ✖ 48 problems (48 errors, 0 warnings) 45 errors and 0 warnings potentially fixable with the `--fix

热门文章

  1. “我的父老乡亲”公益征文活动 ——讲述平凡故事,记录小的伟大
  2. centos7下安装pip以及mysql等软件
  3. Thinkphp中import的几个用法详细介绍
  4. 码栈开发手册(三)---编码方式开发(高级课程①)
  5. HDU 5384 Danganronpa (2015年多校比赛第8场)
  6. 交互设计新人的核心竞争力
  7. 中国电信计划构建安全新平台
  8. swoole 内存Memory
  9. SD-WAN技术三大优势将成为SD-WAN方案成功的关键—Vecloud
  10. Select count(*) 的优化