idea of startproject

  1. 对于 web 开发者而言,目前各大新闻门户网站,新浪新闻,百度新闻,腾讯新闻,澎湃新闻,头条新闻并没有提供稳定可用的 feed api。
  2. 对于 nlper,缺乏足够的新闻语料数据集来供训练。
  3. 对于新闻传播/社会学/心理学等从业者,缺乏获取新闻数据的简单易用途径来供分析。
  4. 如果上面三点是某见识所限,其实并不存在的话,第 4 点,则是某的私心,某以为互联网的记忆太短了,热搜一浪盖过一浪,所以试图定格互联网新闻的某些瞬间,最后会以网站的形式发布出来。

这个 project 我几年前就有想法了,仓库两年前就推送到了 Github,只不过只有一个 readme 文件,昨晚跨年,清理 Github,这个想法就又强烈了起来,说干就干。

project 的 Github:https://github.com/Python3Spiders/AllNewsSpider

其实最开始并没有将澎拜新闻包括在内,某最近才开始重点关注澎湃新闻,相对于其它新闻的娱乐性,澎湃新闻的严肃活泼笔风,深得我意。

澎湃新闻爬虫

先说下这个爬虫的实用之处,罗列如下

  1. 全自动爬取澎湃新闻全站新闻内容,包括时事财经思想生活四大 channel 。
  2. 速度较快,容错高,对各种异常做了对应处理,目前开源的 pyd 测试抓取 w 级数据正常(如果碰到新异常,请提 issue)。
  3. 字段齐全,包括 recode_time(该条新闻被抓取的时间)、news_url 以及其他各个新闻的必要字段,共计 12 个。

再说说如何使用(默认读者均有 python3.6+ 环境)

  1. 将仓库 pengpai 文件夹下的 pengpai_news_spider.pyd 文件下载到本地,新建项目,把 pyd 文件放进去

  2. 项目根目录下新建 runner.py,写入以下代码即可运行并抓取

    import pengpai_news_spider
    pengpai_news_spider.main()
    

爬取过程中是下面这样的

图中 https://www.thepaper.cn/newsDetail_forward_10623559 可能是 h5 或者 公众号文章或者 视频之类的说明该条新闻不在我们的目标爬取范围内,不会被保存起来。

爬取结束了,会在当前目录下生成一个 澎湃新闻.xlsx文件,里面保持了四个 channel 的所有网站上可浏览的文本新闻,一个 channel 对应一个 sheet_name,如下图

Todo

实现增量更新,初步思路是使用布隆过滤器去 news_url 的重。

最后,新年第一天,元旦快乐!

澎湃新闻网站全站新闻爬虫及各大新闻平台聚合爬虫发布相关推荐

  1. 新闻平台聚合之腾讯新闻爬虫发布

    idea of startproject 对于 web 开发者而言,目前各大新闻门户网站,新浪新闻,百度新闻,腾讯新闻,澎湃新闻,头条新闻并没有提供稳定可用的 feed api. 对于 nlper,缺 ...

  2. “广智云”工业大数据平台正式对外发布

    中国工程院院士谭建荣在高峰论坛上作主旨演讲(记者 赵浛锐 摄) 东莞时间网讯 昨日,第三届广东国际机器人及智能装备博览会的配套活动之一"东莞市智能制造暨工业大数据高峰论坛"召开.中 ...

  3. Python爬虫获取京东大数据!其实爬虫真的很简单!

    简介 Python是一个简洁的语言,集成性非常高,我们可以使用集成的工具库,本文中用到的库有requests.re 找到我们需要爬取的链接 PS:如有需要Python学习资料的小伙伴可以加点击下方链接 ...

  4. 微软公司2010年度十大新闻

    12月22日消息,据国外媒体报道,IT业巨头微软公司(Microsoft)在2010年表现不俗,几乎美国每个家庭至少购买了一件微软产品.从智能手机,游戏机,娱乐软件,云计算服务基础设施,一直到搜索引擎 ...

  5. 青海初步建立旅游大数据平台:让智慧做服务

    记者从青海省旅游委获悉,青海省级旅游指挥中心和大数据平台,包括一系统.两中心.三平台,即:大数据分析系统,旅游云数据和应急指挥中心,市场监管和公共服务平台建成上线. 青海省旅发委邀请青海省联通公司信息 ...

  6. 大数据之父_大新闻!Python 之父重新出山,加入微软开发部

    2019 年 11 月,DropBox 官博发布了一篇<感谢你,Guido>的文章,透露出龟叔(Guido van Rossum)要离职退休的消息.后来龟叔自己也在推特证实了. 时隔一年, ...

  7. 全校师生放6天春假;清华大学设立天文系;郭守敬望远镜光谱数突破千万;《自然》发表最新发现;百度败诉需道歉;这就是今天的大新闻...

    今天是3月29日 农历二月廿三 今天星期五 早上上班等了N趟车 愣是没挤上去 下面是今天的大新闻 全校师生放6天"春假" (中国青年网)3月28日,四川西南航空职业学院发布了< ...

  8. 清华体质优良可降5分录取;窃取密钥者奖百万;阿里投入1亿保护方言;腾讯不正当竞争被罚;这就是今天的大新闻...

    今天是3月21日 农历二月十五 今天星期四 网络突然变得特别的卡 严重影响到我的激情 下面是今天的大新闻 清华体质优良可再降5分录取 (中国新闻网)据清华大学招生办公室官方微信消息,2019年清华大学 ...

  9. 中小学将逐步推广编程教育;勒索病毒攻击部分政府部门和医院;国内外药企密集调价;微软要给Win7用户推死亡通知,这就是今天的大新闻...

    今天是3月14日 农历二月初八 今天星期四 看天气预报接下来几天 又是雨季 大家记得出门带伞 下面是今天的大新闻 中小学要逐步推广编程教育 (北京日报)13日教育部公布的<2019年教育信息化和 ...

最新文章

  1. pandas画时间序列图
  2. 结合实例与代码谈数字图像处理都研究什么?
  3. mysql 多配置文件实例安装_mysql安装之多实例多配置文件安装
  4. Spring Cloud Alibaba - 23 Gateway初体验
  5. 英语口语(5月17)
  6. js解码与编码是什么意思?
  7. linux删除文件操作
  8. java多线程信息共享 多线程管理
  9. 嵌入式行业35岁以后_35岁以后的中年人该如何求生?
  10. 【文献阅读】Densely Connected Convolutional Networks-best paper-CVPR-2017
  11. MyEclipse SVN插件的安装
  12. Android O WMS(3) -- addwindow
  13. matlab设置图片背景透明_[转载]Matlab中得到透明背景图片的方法
  14. 【渝粤题库】广东开放大学 岭南文化概论 形成性考核
  15. 【python】python实现多线程并得到返回值
  16. Unity Fleck Map 参数说明
  17. 没有网络电脑计算机还能用吗,电脑连不上公用网络怎么办
  18. [开源工具]2022/2023免费临时邮箱(Temp Free Mail)
  19. 微信小程序实现分类列表
  20. 判断字符串中是否仅包含英文字母、数字和汉字

热门文章

  1. WPS/WORD设置每一页显示50行代码或者是固定数量的行数
  2. QPST download crash内存
  3. 虚拟机中左键不能使用,鼠标滑轮和右键正常-解决方案
  4. 基于带约束S型加减速曲线的空间直线插补与空间圆弧插补算法(Matlab)
  5. ps 海报文字设计技巧
  6. 国家电网(部分单位)2020年第二批高校毕业生录用人选公示
  7. 2014年十大最失意的科技大佬:最差CEO揭晓
  8. LeetCode52N皇后||
  9. 血战上海滩寻找英雄血量地址 实现无敌效果深入分析
  10. 【码上实战】【立体匹配系列】经典AD-Census: (3)代价计算