学习笔记
前言:此案例中,要求抓取某电影网站内【最新电影栏目】里的电影名称,以及该电影的下载链接,并将这些数据存储在数据库中。

案例(某电影网站数据抓取)

首先,确定要爬取的某电影网站的URL地址

https://www.ygdy8.net/html/gndy/dyzz/index.html

查看网页是否为静态网页(与静态相对的是动态网页)

怎么查看是否为静态网页?我们可以ctrl+f搜索一下想要爬取的数据,如果查询到数据了,就暂时判定是静态的。但如果没有查询到我们想要的数据,且看到一堆堆的css和js文件,则这个网页可能是动态网页。

打开网页源代码,ctrl+f搜索关键字【攀登者】:

嗯,查询到了数据,该网页应该是静态的。

爬取目标

电影名称(在一级页面中),以及点开电影详情链接后,该电影的下载地址(在二级页面中)。

一级页面中需要爬取的电影名称:

利用python爬虫(案例1)--某电影网站的小电影们相关推荐

  1. 利用python爬虫(案例7)--X讯招聘的小职位们

    学习笔记 爬取X讯招聘的小职位们 写个小案例,我们想爬取X讯招聘网站里处于1级页面的职位名称和处于2级页面的工作职责和工作要求.由于这个X讯招聘网站是动态加载的,所以需要抓取我们与网站进行交互时产生的 ...

  2. 利用python爬虫(案例5)--X刺代理的小IP们

    学习笔记 爬取X刺代理的小IP们 学完代理,我们发现网上找的很多免费代理IP都用不了,所以这里写一个简单的测试小案例,爬取一下某代理IP网站的免费代理IP,再遍历测试到底这些代理IP能不能用,哪些能用 ...

  3. 利用python爬虫(案例2)--X凰的一天

    学习笔记 PS:为啥这个BLOG是案例2,但是我的BLOG里没有案例1,那是因为BLOG1被锁了.心痛. 爬取新闻标题和链接 我想通过Xpath拿到X凰X闻[http://news.ifeng.com ...

  4. 利用pyhton爬虫(案例3)--X房网的小房子们

    写了个小案例,顺便复习一下以前学的知识点. PS:复试之前绝不写爬虫案例了(对于现在的我来说,费脑又花时间),再写我吃XX. 文章目录 爬取X房网二手房信息 爬取步骤 URL特征 查看HTML页面源代 ...

  5. 利用python爬虫(案例8)--今天就是吃X我也要搞到有道

    学习笔记 备注:这个Blog也是part14 爬取有道 写个案例,我想要破解有道翻译(http://fanyi.youdao.com/)接口,抓取翻译结果. 一开始,我还以为写这个不是很麻烦,因为2年 ...

  6. 利用python爬虫(案例6+part14)--如何爬取科研数据

    学习笔记 文章目录 Ajax动态加载网站数据抓取 动态加载的类型 那么该如何抓取数据? 如何得到JSON文件的地址? 观察JSON文件URL地址的查询参数 JSON格式数据转换成python字典 如何 ...

  7. 【Python爬虫案例】批量采集网站壁纸,实现自动更换桌面壁纸

    前言 美照天天换,才不会腻 不知道你们是不是这样,我的手机壁纸电脑壁纸,隔三岔五就喜欢换,看久了 我就腻了,索性就用python把这个网站的壁纸都采集下来,顺便再让电脑自动更换我的桌面壁纸 ~ 一篇文 ...

  8. python爬虫实例电商_利用Python爬虫批量获取电商网站图片

    import requests import re url='https://list.jd.com/list.html?cat=9987,653,655' res=requests.get(url) ...

  9. python爬虫案例-Python爬虫案例集合

    原标题:Python爬虫案例集合 urllib2 urllib2是Python中用来抓取网页的库,urllib2 是 Python2.7 自带的模块(不需要下载,导入即可使用) 在python2.x里 ...

  10. python爬虫怎么赚钱-个人利用Python爬虫技术怎么挣钱-10万被动收入...

    我利用Python爬虫技术年挣10万被动收入的方式,在正式聊Python爬虫技术之前,先来说说挣钱的事,说说作为一个自由职业或兼职者怎么利用爬虫来挣钱. 个人爬虫挣钱方法大致如下 爬虫技术挣钱方法1: ...

最新文章

  1. DCGAN论文笔记+源码解析
  2. WebBrowser 打印设置,打印预览,去页眉和页脚
  3. suse linux 软件包安装,SUSE Linux 11系统rpm包离线安装GCC
  4. python简单操作题_Python简单练习题可以一起做做
  5. win10连接计算机,如何在win10中连接计算机和打印机
  6. Linux系统入门之如何安装Linux系统
  7. VTK:可视化之StructuredDataTypes
  8. 程序的灵魂-----算法
  9. 在Scala中列出| 关于Scala列表的完整教程
  10. 分拣外观残缺的机器人_【移动机器人(AGV)联盟一周要闻】
  11. 华为p20:拍美景,听讲解,旅行更智能
  12. EasyUI:datagrid清空所有选择行
  13. DOS窗口执行Jmeter测试脚本生成html报告
  14. iOS http文件下载
  15. 2018年中国人均GDP接近1万美元,这在全球处于什么样的水平?
  16. A 股历年三大财务报表 API 接口
  17. eureka多台注册中心_spring cloud eureka集群,注册中心再添加一台服务器
  18. 如何利用Syncthing+蒲公英快速实现异地文件同步
  19. vue简单实现多功能弹幕(比上一个好)
  20. STM32学习之:RAM的分配和占用

热门文章

  1. html5文字游戏制作工具,橙光文字游戏制作工具
  2. 新侨移民告诉你:为什么要移民新西兰?
  3. 创业感悟:低调务实是创业者最可贵的精神
  4. ubuntu 终端查看图片(eog)
  5. 神舟笔记本风扇声音很大怎么办
  6. 网站开发进阶(二十四)HTML颜色代码表
  7. python barcode字符串生成条形码_python批量生成条形码的示例
  8. 奥特曼小分队之四(Work Breakdown Structure)
  9. 云存储——fileserve
  10. php rrd getcreator,Cacti ERROR: opening '*.rrd': No such file or directory 解决方法