python网络爬虫实战3——抓取新闻内文相关信息

2024-05-13 15:11:04

详细代码见：http://download.csdn.net/download/vinsuan1993/10258596

一、需求说明

我们通过上一篇博客（http://blog.csdn.net/c406495762/article/details/78123502#t10）可以获取到具体某个新闻的URL，当我们点击进去，就可以看到该新闻的内文。在这里，我们需要抓取新闻内文的标题、发布时间、来源、正文、编辑者、评论数等。

二、代码范例

2.1 抓取新闻内文页面

代码：

2.2 抓取新闻内文标题

代码：

2.3 取得新闻发布时间和来源信息

代码：

注：时间和日期之间有空格；便于批量处理对于来源的撷取，我们选择“.source”。

2.4 整理新闻正文

注：两种写法。

2.5 撷取新闻编辑者名称

三、获取新闻评论数

为什么将获取新闻评论数单独作为一个大标题？是因为获取新闻表论数的方法跟前面不一样，它并不包含在doc，而是在JS中。

代码示例：

为了批量获取每则新闻的评论数，我们需要分析JS的请求字符串

“http://comment5.news.sina.com.cn/page/info?version=1&format=json&channel=gn&newsid=comos-fyrvspi1334876&group=undefined&compress=0&ie=utf-8&oe=utf-8&page=1&page_size=3&t_size=3&h_size=3&thread=1&callback=jsonp_1519549190225&_=1519549190225”

我们发现最后的“&callback=jsonp_1519549190225&_=1519549190225”可以去掉，“fyrvspi1334876”对应每个新闻请求的URL“http://news.sina.com.cn/c/nd/2018-02-24/doc-ifyrvspi1334876.shtml”，所以我们可以通过新闻URL获取新闻标识符，并完成JS请求的批量填充。

构建评论数抽取函数：

四、建立内文信心抽取函式

五、关于分页链接的处理

首先获取单页上所有新闻的URL：

代码如下：

根据上面获得的单个分页上每个新闻的URL，我们就可以抓取单个分页上新闻的所有信息，并建立函数：

我们仔细分析请求分析的链接：

http://api.roll.news.sina.com.cn/zt_list?channel=news&cat_1=gnxw&cat_2==gdxw1||=gatxw||=\
zs-pl||=mtjj&level==1||=2&show_ext=1&show_all=1&show_num=22&tag=1&format=json\

&page=3&callback=newsloadercallback&_=1519464263527

我们只要修改红色部分的数字，就可以实现多分页。

六、使用Panda整理数据

python网络爬虫实战3——抓取新闻内文相关信息相关推荐

Python网络爬虫实战：抓取和分析天猫胸罩销售数据
本文实现一个非常有趣的项目,这个项目是关于胸罩销售数据分析的.Google曾给出了一幅世界女性胸部尺寸分布地图 ,从地图中可以明显看出中国大部分地区呈现绿色(表示平均胸部尺寸为A罩杯),少部分地区呈现 ...
Python网络爬虫实战：爬取携程网酒店评价信息
这个爬虫是在一个小老弟的委托之下写的. 他需要爬取携程网上的酒店的评价数据,来做一些分词和统计方面的分析,然后来找我帮忙. 爬这个网站的时候也遇到了一些有意思的小麻烦,正好整理一下拿出来跟大家分享一下 ...
[day4]python网络爬虫实战：爬取美女写真图片(Scrapy版)
l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情文章目录 1.开发环境 2.第三方库 3.Scrapy简介 4. ...
Python 网络爬虫实战：爬取知乎回答中的全部图片
平时逛知乎的时候,经常能看到很多很棒的图片,精美的壁纸,搞笑的表情包,有趣的截图等等,总有想全部保存下来的冲动. 于是在一个小老弟的拜托之下,我把之前的知乎爬虫改造了一下,改装成了一个可以下载知乎回答 ...
[day1]python网络爬虫实战：爬取美女写真图片
l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情文章目录 1.开发环境 2.第三方库 3.实现 1.分析url格 ...
[day2]python网络爬虫实战：爬取美女写真图片(增强版)
l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情文章目录 1.开发环境 2.第三方库 3.实现 1.分析url格 ...
python网络爬虫——使用selenium抓取东方财富网上市公司公告
每日公告数量@TOC 一.数据获取与预处理本文从东方财富网上市公司公告页面获取沪深A股1991-2019年公告数据,按照数据获取的先后顺序,将数据分为以下两个部分一是上市公司公告信息,包括:序号(i ...
Python 网络爬虫实战：爬取《去哪儿》网数千篇旅游攻略数据，再也不愁旅游去哪儿玩了
好久不见! 今天我们来爬取去哪儿网站的旅游攻略数据. 0x00 找一个合理的作案动机作为一名立志成为技术宅的普通肥宅,每次一到周末就会面临一个人生难题:这周末怎么过? 本来是没有这些问题的 ...
Python网络爬虫实战1：百度新闻数据爬取
目录一. 获取网页源代码 1. 四行代码获取(有时不灵) 2. 五行代码获取(常用方法) 二.分析网页源代码信息方法1:F12方法方法2:右击选择"查看网页源代码" 方法 ...

最新文章

热门文章