学习了python两个多月,前期的python基础和python爬虫入门都是在中国大学mooc平台上学习的,都是北理嵩天老师开设的两门课程,很适合像我一样的小白初学者学习。

python语言程序设计:http://www.icourse163.org/learn/BIT-268001?tid=1002788003

python网络爬虫与信息提取:http://www.icourse163.org/learn/BIT-1001870001?tid=1002781006

后续还在慕课网上进行了爬虫入门课程的学习: http://www.imooc.com/learn/563

该课程主要采用面向对象的方式,进行了爬虫程序的开发,老师讲的很细很好,推荐。这个课程不仅让我对爬虫相关知识进行拓展和巩固,同时也知道面对对象的编程方式在实际程序中的运用(不再是animal,dog,cat的例子了)。

废话不多说了直接进入正题:在后续探索爬虫过程中,我发现了一个问题,有些网页的源代码打开后没有我们需要爬取的内容(或者不全),后续内容均为动态加载的,源代码没有变,比如这次我要爬取的ins页面上用户上传的照片(由于不可明说的原因ins需要翻墙才能访问)。

第一步:爬取基本网页图片内容(以NASA ins主页为例)

F12查看源代码发现,需要爬取的图片信息在这个“<scripttype="text/javascript">window._sharedData =”下面,还非常友好的以json格式保存:

其中,本次爬取任务最重要的图URL地址在”display”下面:

后续就简单了写程序爬取

首页及我程序中base_url的相关内容获取。获取的内容均是json格式,根据具体需要爬取其中的内容即可。我这里主要就爬取了url、点赞数、评论数。

OK,第一步基本页面上面的图片信息就爬取完毕。当我们下拉网页的时候发现,有新的图片加载出来,而这些内容在之前我们爬取的“<scripttype="text/javascript">window._sharedData =”里面并没有,这怎么搞呢?

第二步:爬取后续加载图片内容

还是F12大法,这次就要查看一下Network里面到底每次给我们响应的什么内容:

发现红框内容最初只有我们能看见的12张图片内容:

当下拉的时候,就发现里面多出了新加载的12张图片:

主要关注的红框这一条url,打开这条url:

”https://www.instagram.com/graphql/query/?query_hash=76d9c5f9c2d88aa251ece9ea61fdc570&variables=%7B%22id%22%3A%22528817151%22%2C%22first%22%3A12%2C%22after%22%3A%22AQCxI0PXrVr_77JeVWMLDL2Ows0hcYey2eXQWhbKFQgcMvVw3CAKKmy_AhOzaVIuo9jzBQWinakpJ8e-WQz1WO1Qage7wrGs9Dt95b9MGGP56g%22%7D”

发现里面就是需要的新加载图片的信息:

同样很友好是json格式,那还等什么直接下程序爬取内容吧。

我之前爬取后用html 格式输出的部分内容:

基本上爬取ins上面的照片内容就完成,不过这只是做到爬取ins的第一步,特别是后续加载的网页每次都要通过F12查看url不是很麻烦,后面就是通过base_url直接判断获取后续url进行爬取。

源代码:https://github.com/fangfucdwin/ins-cwal

面向对象:https://github.com/fangfucdwin/ins_craw2

本人第一篇博文,望各种网友觉得有用的点个赞,各种大神多指点指点。

instagram动态网页图片内容爬取(一)相关推荐

  1. 网络爬虫从入门到实践(三)————动态网页的爬取

    动态网页的爬取 在动态网页爬取之前,我们要了解一种异步加载更新技术--AJAX(异步的JavaScript 和XML) 他的价值在于通过在后台与服务器进行少量的数据交换就可以使用网页的某部分进行更新 ...

  2. scrapy爬取动态网页_scrapy_splash 爬取 js 加载网页初体验

    最近打算学习 scrapy_splash 来爬取 js 加载的动态网页 selenium 实在太慢了,不在迫不得已的情况下并不推荐使用 下面,直接开始吧 目标网站 JD 某商品 环境需求 已安装 do ...

  3. scrapy 动态网页处理——爬取鼠绘海贼王最新漫画

    简介 scrapy是基于python的爬虫框架,易于学习与使用.本篇文章主要介绍如何使用scrapy爬取鼠绘漫画网海贼王最新一集的漫画. 源码参见:https://github.com/liudaol ...

  4. 小白入门爬虫~爬取12306车次信息(静态网站和动态网站的区分)(get动态网页的爬取)

    elements,console,source,network elements分析网络结构,获取想要的数据 console打印一些网站的数据,做网站的时候有时候可能会在控制台上打印一些数据 sour ...

  5. Windows下利用python+selenium+firefox爬取动态网页数据(爬取东方财富网指数行情数据)

    由于之前用urlib和request发现只能获取静态网页数据,目前爬取动态网页有两种方法, (1)分析页面请求 (2)Selenium模拟浏览器行为(霸王硬上弓),本文讲的就是此方法 一.安装sele ...

  6. python动态网页图片爬取

    动态网站跟静态网站的区别 在python图片爬虫中,我们爬取的是静态网站.那么静态网站跟动态网站有什么区别呢?其中对于我们写爬虫来说,最大的区别就是用requests.get()获取到的信息,动态网站 ...

  7. python爬取动态网页_python爬取动态网页数据,详解

    原理:动态网页,即用js代码实现动态加载数据,就是可以根据用户的行为,自动访问服务器请求数据,重点就是:请求数据,那么怎么用python获取这个数据了? 浏览器请求数据方式:浏览器向服务器的api(例 ...

  8. python爬取京东评论分析_Python爬取京东商品评价(动态网页的爬取)

    首先打开京东的任意几个商品页面,并观察URL,可以发现都是https://item.jd.com/+数字+.htm的格式,而且数字也随着商品的改变而改变,基本上可以确定这串数字是商品ID 之后我们找到 ...

  9. python爬取js动态网页_Python 爬取网页中JavaScript动态添加的内容(一)

    当我们进行网页爬虫时,我们会利用一定的规则从返回的 HTML 数据中提取出有效的信息.但是如果网页中含有 JavaScript 代码,我们必须经过渲染处理才能获得原始数据.此时,如果我们仍采用常规方法 ...

  10. scrapy模拟浏览器爬取51job(动态渲染页面爬取)

    scrapy模拟浏览器爬取51job 51job链接 网络爬虫时,网页不止有静态页面还有动态页面,动态页面主要由JavaScript动态渲染,网络爬虫经常遇见爬取JavaScript动态渲染的页面. ...

最新文章

  1. python特效进度条_六种酷炫Python运行进度条
  2. Swift 中使用Alamofire 免证书的设置
  3. 如何向微软提交 Windows 7 测试反馈
  4. Windows 7 X64平台编译LLVM+clang
  5. Mongodb 集群加keyFile认证,Mongodb用户管理(转:http://blog.csdn.net/wlzjsj/article/details/61421230)
  6. 在 eclipse 中设置每行的字数
  7. Docker监控:基于阿里云容器服务构建自己的Docker监控框架
  8. 机器人庄园作文_2018年6月四级作文热点话题预测:高端的机器人
  9. dp线长什么样子_一根DP线引发的显示器超频事件
  10. Windows、Linux下安装Redis图文教程
  11. 国内使用bing国际版(非国内国际切换版本)
  12. 从师傅到伙伴:华为背后总是有IBM的影子
  13. texstudio设置暗黑主题
  14. 锁——FileLock 文件锁
  15. 【优秀课设】基于Python的百度API的OCR名片识别【含完整API账户】
  16. 12. 查询表product——查询库存商品中,最高单价、最低单价分别是多少
  17. 高性能计算,云上见!
  18. 从netfilter的NF_IP_PRE_ROUTING抓包 和 用libpcap抓包有什么区别?
  19. Milking Cows【转帖】
  20. 虚拟服务器 双机热备,云服务器 双机热备

热门文章

  1. 【计算机基础】计算机分类
  2. 职场的5个时间管理技巧
  3. 问佛__如果浮躁了,静下来看看,慢慢体会下
  4. echarts图表格式记录
  5. linux下设置双系统选项,linux双系统【操作步骤】
  6. java最好用的浏览器_国内好的pc浏览器评测
  7. win7快捷方式去箭头_win7旗舰版桌面图标快捷方式箭头变成黑块怎么办?
  8. Zookeeper分布式锁解决羊群效应的方案
  9. 计算机课玩游戏检讨500字,电脑课玩游戏的检讨书
  10. Uniapp或H5之ORC识别与自定义照相机