随着互联网的蓬勃发展,手机移动端和网络的逐渐普及,传播的权利下放到每个公民,“公民新闻”应运而生,每个公民成为记者,都能通过网络发出自己的声音。随着新闻传播门槛的降低,网上的信息愈加鱼龙混杂,如何有效在海量信息中获取自己感兴趣的和需要的成为另一个难题,如何在大量的新闻文本中提取出关键信息变得越来越重要。本案例将使用Python实现新闻关键词的提取。机器学习竞赛优胜解决方案实战​wx7dcc75bb5e655e9b.h5.xiaoe-tech.com

首先介绍什么是关键词?

1.关键词

关键词是指能反映文本主题或者意思的词语,如论文中的Keyword字段。大多数人写文章的时候,不会像写论文的那样明确的指出文章的关键词是什么,关键词自动标注任务正是在这种背景下产生的。

目前,关键词自动标注方法分为两类:

(1)关键词分配,预先定义一个关键词词库,对于一篇文章,从词库中选取若干词语作为文章的关键词;

(2)关键词抽取,从文章的内容中抽取一些词语作为关键词。

2.应用场景

在文献检索初期,由于当时还不支持全文搜索,关键词就成为了搜索文献的重要途径。随着网络规模的增长,关键词成为了用户获取所需信息的重要工具,从而诞生了如Google、百度等基于关键词的搜索引擎公司。

关键词自动标注技术在推荐领域也有着广泛的应用。如图1所示,当用户阅读图中左边的新闻时,推荐系统可以给用户推荐包含关键词”Dropbox”、”云存储”的资讯,同时也可以根据文章关键词给用户推荐相关的广告。

关键词可以作为用户兴趣的特征,从而满足用户的长尾阅读兴趣。传统的信息订阅系统一般使用类别或者主题作为订阅的内容,如下图所示。如果用户想订阅更细粒度的内容,这类系统就无能为力了。关键词作为一种对文章更细粒度的描述,刚好可以满足上述需求。

除了这些以外,关键词还在文本聚类、分类、摘要等领域中有着重要的作用。比如在聚类时,将关键词相似的几篇文章看成一个类团可以大大提高K-means聚类的收敛速度。从某天所有新闻中提取出这些新闻的关键词,就可以大致知道那天发生了什么事情。或者将某段时间中几个人的微博拼成一篇长文本,然后抽取关键词就可以知道他们主要在讨论些什么话题。

3.现有问题与挑战

文章的关键词通常具有以下三个特点

· 可读性。关键词本身应该是有意义的词或者短语。例如,“我们约会吧”是有意义的短语,而“我们”则不是。

· 相关性。关键词必须与文章的主题相关。例如,一篇介绍巴萨在德比中输给皇马的新闻,其中可能顺带提到了“中超联赛”这个关短语,这时就不希望这个短语被选取作为该新闻的关键词。

· 覆盖度。关键词集合能对文章的主题有较好的覆盖度,不能只集中在文章的某个主题而忽略了文章的其他主题。

从上述三个特点,可以看到关键词标注算法的要求以及面临的挑战:

a. 新词发现以及短语识别问题,怎样快速识别出网络上最新出现的词汇;

b. 关键词候选集合的问题,并不是文章中所有的词语都可以作为候选;

c. 怎么计算候选词和文章之间的相关性?

d. 如何覆盖文章的各个主题?

关键词分配算法需要预先定义一个关键词词库,这就限定了关键词候选范围,算法的可扩展性较差,且耗时耗力;关键词抽取算法是从文章的内容中抽取一些词语作为标签词,当文章中没有质量较高的词语时,这类方法就无能为力了。

用Python作为工具,可以对海量文本进行机器学习和算法分析,更多案例详见:

Python抽取新闻关键词搭建模型教程简介:

1. 任务目标与数据集介绍

2. 数据清理与预处理

3. 抽取数据基本特征

4. 分析文章与词向量

5. 划分权重

6. 候选词统计特征

7. textrank特征提取

8. 候选词相似度特征

9. 特征工程汇总

谷歌的自动驾驶汽车和机器人受到了很多媒体的关注,但该公司真正的未来是在机器学习领域,这种技术能使计算机变得更聪明,更个性化。-Eric Schmidt(Google董事长)

在当下数字社会,机器学习和数据分析已经成为我们生活的一部分,已经是很多系统的“动力系统”,从平凡到可以改变生活的所有。Python更像是一个工具,助力数据分析更加精准和高效 ,推动数字社会的发展。

如何用我python抓取关键字新闻_用python机器学习实现新闻关键词的抽取相关推荐

  1. python抓取网页文章_使用Python从公共API抓取新闻和文章

    python抓取网页文章 Whether you are data scientist, programmer or AI specialist, you surely can put huge nu ...

  2. python 抓取网页链接_从Python中的网页抓取链接

    python 抓取网页链接 Prerequisite: 先决条件: Urllib3: It is a powerful, sanity-friendly HTTP client for Python ...

  3. python抓取网站图片_利用python抓取网站图片

    看了网上关于python抓取网站图片的例子,所以自己也尝试着写一个,但是发现这个网站的src不是标准的路径,需要自己添加前面的目录地址,尝试了几次也不成功,所以希望有经验的朋友指导下. 本人是初学者, ...

  4. python抓取经典评论_通过Python抓取天猫评论数据

    每日干货好文分享丨请点击+关注 对商业智能BI.数据分析挖掘.大数据.机器学习感兴趣的加微信tsbeidou,邀请你进入交流群. 欢迎关注天善智能微信公众号,我们是专注于商业智能BI,大数据,数据分析 ...

  5. 如何用python抓取qq音乐_手把手教你使用Python抓取QQ音乐数据(第三弹)-阿里云开发者社区...

    [一.项目目标] 通过手把手教你使用Python抓取QQ音乐数据(第一弹)我们实现了获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 通过手把手教你使用Python抓取QQ音乐 ...

  6. python 抓取电脑界面_学会了Python,我的人生跟开挂一样

    当代职场年轻人的抑郁,有千百种. 一边是加不完的班.完不成的KPI.大把掉落的头发,一边是今年严峻的就业形势,职场人面临的工作压力可想而知. 忙碌的生活不仅磋磨了锐气,也让人觉得,自己仿佛永远没有真正 ...

  7. python抓取网站乱码_如何使用Python抓取网站

    python抓取网站乱码 by Devanshu Jain 由Devanshu Jain It is that time of the year when the air is filled with ...

  8. python 爬取加密视频_使用Python抓取m3u8加密视频 续:获得index.m3u8 地址

    之前写<使用Python抓取m3u8加密视频>笔记的原因,是自己有几个视频想保存,但对于m3u8, .ts 文件拼接不熟悉,就尝试写个脚本练手. 今天看了回复,有同学想知道如何从视频网站上 ...

  9. python爬取地图地址_用Python抓取百度地图里的店名,地址和联系方式

    原标题:用Python抓取百度地图里的店名,地址和联系方式 每日干货好文分享丨请点击+关注 欢迎关注天善智能微信公众号,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区. 对商业智能BI.大数 ...

  10. python抓取贴吧_零基础写python爬虫之抓取百度贴吧代码分享

    这里就不给大家废话了,直接上代码,代码的解释都在注释里面,看不懂的也别来问我,好好学学基础知识去! # -*- coding: utf-8 -*- #------------------------- ...

最新文章

  1. Asp.net中具体的日期格式化用法
  2. java怎么返回xml_java – 如何从Web服务返回XML
  3. 3310复刻版 java_终于等到你:诺基亚3310复刻版开箱简评
  4. Python求数独的补充
  5. Android Error:Could not find lottie.jar
  6. select case when与IF的用法
  7. 使用WSDL工具生成C#使用的WebService声明文件
  8. matlab打开模型步骤,基于Matlab/Simulink的模型开发(连载一)
  9. 如何选择配置管理工具
  10. 如何提高自己的工作能力 高效工作方法是绝效
  11. ios12怎么滑屏解锁_对比苹果iOS12和安卓9.0,相互学习了哪些功能
  12. 5.2 PMBOK--收集需求
  13. Linux操作系统学习笔记(十)内存管理之内存映射
  14. 进程间的通信方式(1)
  15. Linux进程调用execve,实验:从整理上理解进程创建、可执行文件的加载和进程执行进程切换,重点理解分析fork、execve和...
  16. python-获取当前目录/上级目录/上上级目录...
  17. DAU ARPU 美术
  18. 信息安全技术期末总复习
  19. ASM(五) 利用TreeApi 解析生成及转换Class
  20. 卡耐基梅隆大学计算机工程录取率,卡内基梅隆大学2020新生数据,计算机学院录取率堪比藤校!...

热门文章

  1. Uber 开源 Piranha,可自动删除过时代码
  2. Spring Cloud构建微服务架构:分布式服务跟踪(整合zipkin)【Dalston版】
  3. Spring Cloud构建微服务架构:分布式服务跟踪(跟踪原理)
  4. python原始数据是什么_以python请求发送原始数据
  5. ‘numpy.float64‘ object cannot be interpreted as an integer
  6. RecursionError: maximum recursion depth exceeded
  7. 安装MMCV和MMDET
  8. name 'false' is not defined
  9. PeleeNet 测试
  10. 判断 std map 中是否有 key