详细代码见:http://download.csdn.net/download/vinsuan1993/10258596

一、需求说明

我们通过上一篇博客(http://blog.csdn.net/c406495762/article/details/78123502#t10)可以获取到具体某个新闻的URL,当我们点击进去,就可以看到该新闻的内文。在这里,我们需要抓取新闻内文的标题、发布时间、来源、正文、编辑者、评论数等。

二、代码范例

2.1 抓取新闻内文页面

代码:

2.2 抓取新闻内文标题

代码:

2.3 取得新闻发布时间和来源信息

代码:

注:时间和日期之间有空格;便于批量处理对于来源的撷取,我们选择“.source”。

2.4 整理新闻正文

注:两种写法。

2.5 撷取新闻编辑者名称

三、获取新闻评论数

为什么将获取新闻评论数单独作为一个大标题?是因为获取新闻表论数的方法跟前面不一样,它并不包含在doc,而是在JS中。

代码示例:

为了批量获取每则新闻的评论数,我们需要分析JS的请求字符串

“http://comment5.news.sina.com.cn/page/info?version=1&format=json&channel=gn&newsid=comos-fyrvspi1334876&group=undefined&compress=0&ie=utf-8&oe=utf-8&page=1&page_size=3&t_size=3&h_size=3&thread=1&callback=jsonp_1519549190225&_=1519549190225”

我们发现最后的“&callback=jsonp_1519549190225&_=1519549190225”可以去掉,“fyrvspi1334876”对应每个新闻请求的URL“http://news.sina.com.cn/c/nd/2018-02-24/doc-ifyrvspi1334876.shtml”,所以我们可以通过新闻URL获取新闻标识符,并完成JS请求的批量填充。

构建评论数抽取函数:

四、建立内文信心抽取函式

五、关于分页链接的处理

首先获取单页上所有新闻的URL:

代码如下:

根据上面获得的单个分页上每个新闻的URL,我们就可以抓取单个分页上新闻的所有信息,并建立函数:

我们仔细分析请求分析的链接:

http://api.roll.news.sina.com.cn/zt_list?channel=news&cat_1=gnxw&cat_2==gdxw1||=gatxw||=\
zs-pl||=mtjj&level==1||=2&show_ext=1&show_all=1&show_num=22&tag=1&format=json\

&page=3&callback=newsloadercallback&_=1519464263527

我们只要修改红色部分的数字,就可以实现多分页。

六、 使用Panda整理数据

python网络爬虫实战3——抓取新闻内文相关信息相关推荐

  1. Python网络爬虫实战:抓取和分析天猫胸罩销售数据

    本文实现一个非常有趣的项目,这个项目是关于胸罩销售数据分析的.Google曾给出了一幅世界女性胸部尺寸分布地图 ,从地图中可以明显看出中国大部分地区呈现绿色(表示平均胸部尺寸为A罩杯),少部分地区呈现 ...

  2. Python网络爬虫实战:爬取携程网酒店评价信息

    这个爬虫是在一个小老弟的委托之下写的. 他需要爬取携程网上的酒店的评价数据,来做一些分词和统计方面的分析,然后来找我帮忙. 爬这个网站的时候也遇到了一些有意思的小麻烦,正好整理一下拿出来跟大家分享一下 ...

  3. [day4]python网络爬虫实战:爬取美女写真图片(Scrapy版)

    l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情 文章目录 1.开发环境 2.第三方库 3.Scrapy简介 4. ...

  4. Python 网络爬虫实战:爬取知乎回答中的全部图片

    平时逛知乎的时候,经常能看到很多很棒的图片,精美的壁纸,搞笑的表情包,有趣的截图等等,总有想全部保存下来的冲动. 于是在一个小老弟的拜托之下,我把之前的知乎爬虫改造了一下,改装成了一个可以下载知乎回答 ...

  5. [day1]python网络爬虫实战:爬取美女写真图片

    l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情 文章目录 1.开发环境 2.第三方库 3.实现 1.分析url格 ...

  6. [day2]python网络爬虫实战:爬取美女写真图片(增强版)

    l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情 文章目录 1.开发环境 2.第三方库 3.实现 1.分析url格 ...

  7. python网络爬虫——使用selenium抓取东方财富网上市公司公告

    每日公告数量@TOC 一.数据获取与预处理 本文从东方财富网上市公司公告页面获取沪深A股1991-2019年公告数据,按照数据获取的先后顺序,将数据分为以下两个部分一是上市公司公告信息,包括:序号(i ...

  8. Python 网络爬虫实战:爬取《去哪儿》网数千篇旅游攻略数据,再也不愁旅游去哪儿玩了

    好久不见! 今天我们来爬取 去哪儿网站 的 旅游攻略 数据. 0x00  找一个合理的作案动机 作为一名立志成为技术宅的普通肥宅,每次一到周末就会面临一个人生难题:这周末怎么过? 本来是没有这些问题的 ...

  9. Python网络爬虫实战1:百度新闻数据爬取

    目录 一.  获取网页源代码 1.  四行代码获取(有时不灵) 2. 五行代码获取(常用方法) 二.分析网页源代码信息 方法1:F12方法 方法2:右击选择"查看网页源代码" 方法 ...

最新文章

  1. python 运算符重载_零基础小白Python入门必看:面向对象之典型魔术方法
  2. 快逸报表API直接生成v4统计图
  3. 多线程下ArrayList类线程不安全的解决方法及原理
  4. 小小base标签在web开发中的大作用
  5. python爬快手个人介绍个性_快手个性个人介绍句子签名 快手自己介绍模板句子...
  6. createBindingContext in SAP UI5
  7. 第11章-img特征,vertical-align,cursor,opacity
  8. 【转】spring之任务调度
  9. 七代处理器装win7_为啥新电脑没法装windows7系统?解决方法总会有的
  10. 手机端本地图片或者拍照的上传功能
  11. docker添加jar包_Docker部署jar包
  12. VC++ HIDAPI实现USB数据读写
  13. 使用WinPcap编程
  14. Fortran入门——菜鸟级基础语法
  15. html5游戏生成apk,html5 如何打包成apk
  16. python处理excel数据计算_Python处理Excel数据
  17. LM2596降压DCDC芯片详解
  18. SystemTap笔记03 stap的event和handler
  19. 快速更换证件照底色的方法
  20. 百度AI车牌识别测试

热门文章

  1. 1g内存服务器Apache怎么优化,Apache性能优化-解决吃内存的问题 | kTWO-个人博客
  2. 网络安全威胁检测与威胁溯源_网络安全威胁比可怕更可怕
  3. 【报告分享】2021女性品质生活趋势洞察报告-CBNData(附下载)
  4. java的abstract_java abstract
  5. 福禄克FLUKE BT508|BT510|BT520|BT521蓄电池分析仪技术参数 与配件详情 报价分析
  6. Python—类和对象(一)
  7. 八个维度讲解秒杀系统架构分析与实战
  8. 半导体材料的霍尔效应测试简介
  9. 关于Wear OS应用开发–Tiles我所了解的一些内容(附Demo)
  10. Zemax学习笔记(3)- Zemax中的序列模式和非序列模式