python网络爬虫实战3——抓取新闻内文相关信息
详细代码见:http://download.csdn.net/download/vinsuan1993/10258596
一、需求说明
我们通过上一篇博客(http://blog.csdn.net/c406495762/article/details/78123502#t10)可以获取到具体某个新闻的URL,当我们点击进去,就可以看到该新闻的内文。在这里,我们需要抓取新闻内文的标题、发布时间、来源、正文、编辑者、评论数等。
二、代码范例
2.1 抓取新闻内文页面
代码:
2.2 抓取新闻内文标题
代码:
2.3 取得新闻发布时间和来源信息
代码:
注:时间和日期之间有空格;便于批量处理对于来源的撷取,我们选择“.source”。
2.4 整理新闻正文
注:两种写法。
2.5 撷取新闻编辑者名称
三、获取新闻评论数
为什么将获取新闻评论数单独作为一个大标题?是因为获取新闻表论数的方法跟前面不一样,它并不包含在doc,而是在JS中。
代码示例:
为了批量获取每则新闻的评论数,我们需要分析JS的请求字符串
“http://comment5.news.sina.com.cn/page/info?version=1&format=json&channel=gn&newsid=comos-fyrvspi1334876&group=undefined&compress=0&ie=utf-8&oe=utf-8&page=1&page_size=3&t_size=3&h_size=3&thread=1&callback=jsonp_1519549190225&_=1519549190225”
我们发现最后的“&callback=jsonp_1519549190225&_=1519549190225”可以去掉,“fyrvspi1334876”对应每个新闻请求的URL“http://news.sina.com.cn/c/nd/2018-02-24/doc-ifyrvspi1334876.shtml”,所以我们可以通过新闻URL获取新闻标识符,并完成JS请求的批量填充。
构建评论数抽取函数:
四、建立内文信心抽取函式
五、关于分页链接的处理
首先获取单页上所有新闻的URL:
代码如下:
根据上面获得的单个分页上每个新闻的URL,我们就可以抓取单个分页上新闻的所有信息,并建立函数:
我们仔细分析请求分析的链接:
http://api.roll.news.sina.com.cn/zt_list?channel=news&cat_1=gnxw&cat_2==gdxw1||=gatxw||=\
zs-pl||=mtjj&level==1||=2&show_ext=1&show_all=1&show_num=22&tag=1&format=json\
&page=3&callback=newsloadercallback&_=1519464263527
我们只要修改红色部分的数字,就可以实现多分页。
六、 使用Panda整理数据
python网络爬虫实战3——抓取新闻内文相关信息相关推荐
- Python网络爬虫实战:抓取和分析天猫胸罩销售数据
本文实现一个非常有趣的项目,这个项目是关于胸罩销售数据分析的.Google曾给出了一幅世界女性胸部尺寸分布地图 ,从地图中可以明显看出中国大部分地区呈现绿色(表示平均胸部尺寸为A罩杯),少部分地区呈现 ...
- Python网络爬虫实战:爬取携程网酒店评价信息
这个爬虫是在一个小老弟的委托之下写的. 他需要爬取携程网上的酒店的评价数据,来做一些分词和统计方面的分析,然后来找我帮忙. 爬这个网站的时候也遇到了一些有意思的小麻烦,正好整理一下拿出来跟大家分享一下 ...
- [day4]python网络爬虫实战:爬取美女写真图片(Scrapy版)
l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情 文章目录 1.开发环境 2.第三方库 3.Scrapy简介 4. ...
- Python 网络爬虫实战:爬取知乎回答中的全部图片
平时逛知乎的时候,经常能看到很多很棒的图片,精美的壁纸,搞笑的表情包,有趣的截图等等,总有想全部保存下来的冲动. 于是在一个小老弟的拜托之下,我把之前的知乎爬虫改造了一下,改装成了一个可以下载知乎回答 ...
- [day1]python网络爬虫实战:爬取美女写真图片
l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情 文章目录 1.开发环境 2.第三方库 3.实现 1.分析url格 ...
- [day2]python网络爬虫实战:爬取美女写真图片(增强版)
l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情 文章目录 1.开发环境 2.第三方库 3.实现 1.分析url格 ...
- python网络爬虫——使用selenium抓取东方财富网上市公司公告
每日公告数量@TOC 一.数据获取与预处理 本文从东方财富网上市公司公告页面获取沪深A股1991-2019年公告数据,按照数据获取的先后顺序,将数据分为以下两个部分一是上市公司公告信息,包括:序号(i ...
- Python 网络爬虫实战:爬取《去哪儿》网数千篇旅游攻略数据,再也不愁旅游去哪儿玩了
好久不见! 今天我们来爬取 去哪儿网站 的 旅游攻略 数据. 0x00 找一个合理的作案动机 作为一名立志成为技术宅的普通肥宅,每次一到周末就会面临一个人生难题:这周末怎么过? 本来是没有这些问题的 ...
- Python网络爬虫实战1:百度新闻数据爬取
目录 一. 获取网页源代码 1. 四行代码获取(有时不灵) 2. 五行代码获取(常用方法) 二.分析网页源代码信息 方法1:F12方法 方法2:右击选择"查看网页源代码" 方法 ...
最新文章
- python 运算符重载_零基础小白Python入门必看:面向对象之典型魔术方法
- 快逸报表API直接生成v4统计图
- 多线程下ArrayList类线程不安全的解决方法及原理
- 小小base标签在web开发中的大作用
- python爬快手个人介绍个性_快手个性个人介绍句子签名 快手自己介绍模板句子...
- createBindingContext in SAP UI5
- 第11章-img特征,vertical-align,cursor,opacity
- 【转】spring之任务调度
- 七代处理器装win7_为啥新电脑没法装windows7系统?解决方法总会有的
- 手机端本地图片或者拍照的上传功能
- docker添加jar包_Docker部署jar包
- VC++ HIDAPI实现USB数据读写
- 使用WinPcap编程
- Fortran入门——菜鸟级基础语法
- html5游戏生成apk,html5 如何打包成apk
- python处理excel数据计算_Python处理Excel数据
- LM2596降压DCDC芯片详解
- SystemTap笔记03 stap的event和handler
- 快速更换证件照底色的方法
- 百度AI车牌识别测试
热门文章
- 1g内存服务器Apache怎么优化,Apache性能优化-解决吃内存的问题 | kTWO-个人博客
- 网络安全威胁检测与威胁溯源_网络安全威胁比可怕更可怕
- 【报告分享】2021女性品质生活趋势洞察报告-CBNData(附下载)
- java的abstract_java abstract
- 福禄克FLUKE BT508|BT510|BT520|BT521蓄电池分析仪技术参数 与配件详情 报价分析
- Python—类和对象(一)
- 八个维度讲解秒杀系统架构分析与实战
- 半导体材料的霍尔效应测试简介
- 关于Wear OS应用开发–Tiles我所了解的一些内容(附Demo)
- Zemax学习笔记(3)- Zemax中的序列模式和非序列模式