澎湃新闻网站全站新闻爬虫及各大新闻平台聚合爬虫发布
idea of startproject
- 对于 web 开发者而言,目前各大新闻门户网站,新浪新闻,百度新闻,腾讯新闻,澎湃新闻,头条新闻并没有提供稳定可用的 feed api。
- 对于 nlper,缺乏足够的新闻语料数据集来供训练。
- 对于新闻传播/社会学/心理学等从业者,缺乏获取新闻数据的简单易用途径来供分析。
- 如果上面三点是某见识所限,其实并不存在的话,第 4 点,则是某的私心,某以为互联网的记忆太短了,热搜一浪盖过一浪,所以试图定格互联网新闻的某些瞬间,最后会以网站的形式发布出来。
这个 project 我几年前就有想法了,仓库两年前就推送到了 Github,只不过只有一个 readme 文件,昨晚跨年,清理 Github,这个想法就又强烈了起来,说干就干。
project 的 Github:https://github.com/Python3Spiders/AllNewsSpider
其实最开始并没有将澎拜新闻包括在内,某最近才开始重点关注澎湃新闻,相对于其它新闻的娱乐性,澎湃新闻的严肃活泼笔风,深得我意。
澎湃新闻爬虫
先说下这个爬虫的实用之处,罗列如下
- 全自动爬取澎湃新闻全站新闻内容,包括时事、财经、思想、生活四大 channel 。
- 速度较快,容错高,对各种异常做了对应处理,目前开源的 pyd 测试抓取 w 级数据正常(如果碰到新异常,请提 issue)。
- 字段齐全,包括 recode_time(该条新闻被抓取的时间)、news_url 以及其他各个新闻的必要字段,共计 12 个。
再说说如何使用(默认读者均有 python3.6+ 环境)
将仓库 pengpai 文件夹下的 pengpai_news_spider.pyd 文件下载到本地,新建项目,把 pyd 文件放进去
项目根目录下新建 runner.py,写入以下代码即可运行并抓取
import pengpai_news_spider pengpai_news_spider.main()
爬取过程中是下面这样的
图中 https://www.thepaper.cn/newsDetail_forward_10623559 可能是 h5 或者 公众号文章或者 视频
之类的说明该条新闻不在我们的目标爬取范围内,不会被保存起来。
爬取结束了,会在当前目录下生成一个 澎湃新闻.xlsx
文件,里面保持了四个 channel 的所有网站上可浏览的文本新闻,一个 channel 对应一个 sheet_name,如下图
Todo
实现增量更新,初步思路是使用布隆过滤器去 news_url 的重。
最后,新年第一天,元旦快乐!
澎湃新闻网站全站新闻爬虫及各大新闻平台聚合爬虫发布相关推荐
- 新闻平台聚合之腾讯新闻爬虫发布
idea of startproject 对于 web 开发者而言,目前各大新闻门户网站,新浪新闻,百度新闻,腾讯新闻,澎湃新闻,头条新闻并没有提供稳定可用的 feed api. 对于 nlper,缺 ...
- “广智云”工业大数据平台正式对外发布
中国工程院院士谭建荣在高峰论坛上作主旨演讲(记者 赵浛锐 摄) 东莞时间网讯 昨日,第三届广东国际机器人及智能装备博览会的配套活动之一"东莞市智能制造暨工业大数据高峰论坛"召开.中 ...
- Python爬虫获取京东大数据!其实爬虫真的很简单!
简介 Python是一个简洁的语言,集成性非常高,我们可以使用集成的工具库,本文中用到的库有requests.re 找到我们需要爬取的链接 PS:如有需要Python学习资料的小伙伴可以加点击下方链接 ...
- 微软公司2010年度十大新闻
12月22日消息,据国外媒体报道,IT业巨头微软公司(Microsoft)在2010年表现不俗,几乎美国每个家庭至少购买了一件微软产品.从智能手机,游戏机,娱乐软件,云计算服务基础设施,一直到搜索引擎 ...
- 青海初步建立旅游大数据平台:让智慧做服务
记者从青海省旅游委获悉,青海省级旅游指挥中心和大数据平台,包括一系统.两中心.三平台,即:大数据分析系统,旅游云数据和应急指挥中心,市场监管和公共服务平台建成上线. 青海省旅发委邀请青海省联通公司信息 ...
- 大数据之父_大新闻!Python 之父重新出山,加入微软开发部
2019 年 11 月,DropBox 官博发布了一篇<感谢你,Guido>的文章,透露出龟叔(Guido van Rossum)要离职退休的消息.后来龟叔自己也在推特证实了. 时隔一年, ...
- 全校师生放6天春假;清华大学设立天文系;郭守敬望远镜光谱数突破千万;《自然》发表最新发现;百度败诉需道歉;这就是今天的大新闻...
今天是3月29日 农历二月廿三 今天星期五 早上上班等了N趟车 愣是没挤上去 下面是今天的大新闻 全校师生放6天"春假" (中国青年网)3月28日,四川西南航空职业学院发布了< ...
- 清华体质优良可降5分录取;窃取密钥者奖百万;阿里投入1亿保护方言;腾讯不正当竞争被罚;这就是今天的大新闻...
今天是3月21日 农历二月十五 今天星期四 网络突然变得特别的卡 严重影响到我的激情 下面是今天的大新闻 清华体质优良可再降5分录取 (中国新闻网)据清华大学招生办公室官方微信消息,2019年清华大学 ...
- 中小学将逐步推广编程教育;勒索病毒攻击部分政府部门和医院;国内外药企密集调价;微软要给Win7用户推死亡通知,这就是今天的大新闻...
今天是3月14日 农历二月初八 今天星期四 看天气预报接下来几天 又是雨季 大家记得出门带伞 下面是今天的大新闻 中小学要逐步推广编程教育 (北京日报)13日教育部公布的<2019年教育信息化和 ...
最新文章
- pandas画时间序列图
- 结合实例与代码谈数字图像处理都研究什么?
- mysql 多配置文件实例安装_mysql安装之多实例多配置文件安装
- Spring Cloud Alibaba - 23 Gateway初体验
- 英语口语(5月17)
- js解码与编码是什么意思?
- linux删除文件操作
- java多线程信息共享 多线程管理
- 嵌入式行业35岁以后_35岁以后的中年人该如何求生?
- 【文献阅读】Densely Connected Convolutional Networks-best paper-CVPR-2017
- MyEclipse SVN插件的安装
- Android O WMS(3) -- addwindow
- matlab设置图片背景透明_[转载]Matlab中得到透明背景图片的方法
- 【渝粤题库】广东开放大学 岭南文化概论 形成性考核
- 【python】python实现多线程并得到返回值
- Unity Fleck Map 参数说明
- 没有网络电脑计算机还能用吗,电脑连不上公用网络怎么办
- [开源工具]2022/2023免费临时邮箱(Temp Free Mail)
- 微信小程序实现分类列表
- 判断字符串中是否仅包含英文字母、数字和汉字