(一)使用工具

这里使用了火狐浏览器的user-agent插件,不懂的可以点这里火狐插件使用

(二)爬虫操作步骤:

百度 网易新闻并选择

步骤一:

步骤二:

步骤三:

步骤四:

最后一步:

注意点:

(1)网易新闻类型,一共是下面的几种:

{"BBM54PGAwangning","BCR1UC1Qwangning","BD29LPUBwangning","BD29MJTVwangning","C275ML7Gwangning"}

(2)新闻翻页动作:
从0-10 ——> 10-10
步数为10,0起步

我们试着从0页开始获取一下(浏览器输入一下):

http://3g.163.com/touch/reconstruct/article/list/BD29LPUBwangning/0-10.html

很好的json,有没有。下面开始coding,不多说,直接看代码。

(三) 代码编写部分:

使用环境:win10 python3 scrapy

这里给出了spider文件部分

# -*- coding: utf-8 -*-
# @Time    : 2018/5/23 13:56
# @Author  : 蛇崽
# @Email   : 643435675@QQ.com
# @File    : wangyi3g.py
import jsonimport re
import scrapy
from bs4 import BeautifulSoupclass Wangyi3GSpider(scrapy.Spider):name = 'wangyi3g'allowed_domains = ['3g.163.com']start_urls = ['http://3g.163.com/touch/news/']baseurl = 'http://3g.163.com/touch/reconstruct/article/list/BD29LPUBwangning/{}-10.html'def parse(self, response):# 10 20for page in range(0,80,10):jsonurl = self.baseurl.format(page)yield scrapy.Request(jsonurl,callback=self.parse_li_json)def parse_li_json(self,response):res = response.body.decode('utf-8')print(res)res = str(res).replace('artiList(','')res = res.replace(')','')j = json.loads(res)datas = j['BD29LPUBwangning']print(datas)for data in datas:title = data['title']ptime = data['ptime']url = data['url']source = data['source']print(title,ptime,url,source)if url:yield scrapy.Request(url,callback=self.parse_detail)def parse_detail(self,response):soup = BeautifulSoup(response.body,'lxml')content = soup.find('div','content')image_urls = re.findall(r'data-src="(.*?)"', str(content))# print(image_urls)

以上就是网易新闻APP爬虫代码的实现,更多技术学习交流可查看主页加群。我们一起学习。

更多博客文章请访问:

https://blog.csdn.net/xudailong_blog/article/details/78762262

python3 爬虫实战之爬取网易新闻APP端相关推荐

  1. 【Python爬虫实战】爬取网易新闻某详情页信息 1.0

    文章目录 一.网页分析 二.代码实现 三.总结 一.网页分析 本次爬取目标网站为 https://www.163.com/dy/article/G0F6HT9A051186GP.html 爬取对象为新 ...

  2. 【Python实现网络爬虫】Scrapy爬取网易新闻(仅供学习交流使用!)

    目录 1. 新建项目 2. 修改itmes.py文件 3. 定义spider,创建一个爬虫模板 3.1 创建crawl爬虫模板 3.2 补充知识:selectors选择器 3.3. 分析网页内容 主体 ...

  3. Python3爬虫实战之爬取京东图书图片

    假如我们想把京东商城图书类的图片类商品图片全部下载到本地,通过手工复制粘贴将是一项非常庞大的工程,此时,可以用Python网络爬虫实现,这类爬虫称为图片爬虫,接下来,我们将实现该爬虫. 首先,打开要爬 ...

  4. Python3[爬虫实战] scrapy爬取汽车之家全站链接存json文件

    昨晚晚上一不小心学习了崔庆才,崔大神的博客,试着尝试一下爬取一个网站的全部内容,福利吧网站现在已经找不到了,然后一不小心逛到了汽车之家 (http://www.autohome.com.cn/beij ...

  5. Python爬虫实战:爬取解放日报新闻文章

    上一篇<Python 网络爬虫实战:爬取人民日报新闻文章>发布之后,确实帮到了不少朋友. 前几天,我好哥们问我:我想爬另一个日报新闻网站,网页结构几乎跟人民日报几乎一模一样,但是我用你的那 ...

  6. python爬网易新闻_Python爬虫实战教程:爬取网易新闻;爬虫精选 高手技巧

    Python爬虫实战教程:爬取网易新闻:爬虫精选 高手技巧 发布时间:2020-02-21 17:42:43 前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有, ...

  7. python爬网易新闻_爬虫基本介绍 python3 爬虫爬取网易新闻排行榜

    爬虫基本介绍 1. 什么是爬虫? 爬虫是请求⽹网站并提取数据的⾃自动化程序 2. 爬虫的基本流程 发起请求 通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers ...

  8. python爬网易新闻_Python爬虫实战教程:爬取网易新闻

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Amauri PS:如有需要Python学习资料的小伙伴可以加点击 ...

  9. scrapy获取a标签的连接_python爬虫——基于scrapy框架爬取网易新闻内容

    python爬虫--基于scrapy框架爬取网易新闻内容 1.需求[前期准备] 2.分析及代码实现(1)获取五大板块详情页url(2)解析每个板块(3)解析每个模块里的标题中详情页信息 点击此处,获取 ...

最新文章

  1. Linux系统轻量级监控工具monitorix和munin安装
  2. python-docx操作
  3. IntelliJ IDEA2018配置SVN及常见问题解决
  4. ruby语言开源Web应用框架 Ruby on Rails 简介
  5. 根据输入时间段备份压缩日志文件
  6. python web框架互相融合, Pyramid或取代Django
  7. (转)mybatis一级缓存二级缓存
  8. UAC执行批处理,进行提示
  9. php redis与me m,Redis(十) —— 为php增加redis扩展
  10. android 侧滑删除功能,200行代码让你在Android中完美实现iOS版侧滑删除效果
  11. STM32 - 定时器高级应用说明 - 多触波的实现 (N-pulse waveform generation using timer synchronization)- 01
  12. url传参(中文乱码)值得注意的地方
  13. recycleviewitem 列表加载动画_2019年Q4动画数据报告 | 伍六七之最强发型师评论数破十万...
  14. yolo1-5系列算法备忘录
  15. Struts 2教程
  16. ed2k链接文件,最快下载方式
  17. treemap倒叙_lua 模拟Treemap 排序
  18. Oracle 中数据类型变更无效 ---ora-22858:数据类型的变更无效 for clod
  19. 《挪威的森林》--[日]村上春树
  20. linux Nginx服务的安装及使用

热门文章

  1. python简单的计算方法,【python入门级课程】做一台简单的计算器
  2. layui select根据后台数据显示下拉框
  3. SpringBoot实现自定义异常类。
  4. Base64编码知识记录
  5. idea插件安装后不显示问题
  6. 嘉宾专访|2020 PostgreSQL亚洲大会阿里云数据库专场:魏闯先
  7. 「职场职业」什么是CTO(首席技术官)?需要知道的关于首席技术官的一切
  8. 2012年10月当选微软MVP的CSDN会员名单揭晓
  9. (九)python网络爬虫(理论+实战)——爬虫实战:指定关键词的百度新闻爬取
  10. JZOJ 6316. djq的朋友圈