https://www.xin3721.com/eschool/pythonxin3721/

【一、项目背景】

相信大家都有一种头疼的体验,要下载电影特别费劲,对吧?要一部一部的下载,而且不能直观的知道最近电影更新的状态。

今天小编以电影天堂为例,带大家更直观的去看自己喜欢的电影,并且下载下来。

【二、项目准备】

首先 我们第一步我们要安装一个Pycharm的软件。Pycharm软件安装可以看这篇教程:Python环境搭建—安利Python小白的Python和Pycharm安装详细教程。

电影天堂网的网址:

https://www.ygdy8.net/html/gndy/dyzz/list_23_1.html

我们需要下载几个库,怎么下载呢?首先打开Pycharm点击File再点开setting。

打开后会出现这个界面点击你的项目名字(project:(你的项目名字))project  interpreter点击加号下载我们需要的库本项目需要(requests,requests,time,re模块),如下图所示。

如果不会加载解释器的话,可以参考这篇手把手教程:安装好Pycharm后如何配置Python解释器简易教程。

如果还缺少相应库的话,可以按照如下方式进行下载和安装。

【三、项目实施】

我们需要(requests,requests,time,re模块 ),如下图所示。

用封装方法去实现各个部分功能。首先要写一个框架 :构造一个类FilmSky 然后定义一个—init方法里继承(self),再定义一个主方法(main)。最后实现这个main方法。代码如下:

这个time是用于防止反爬,设置的时间延时。

首先我们来分析一下这个网址下一页得到特点。

通过点击了三页我们会发现地址都是在原有的基础上“23—3,4,5”这样的变化。

我们可以用{}去代替变化的值就像这样:

https://www.ygdy8.net/html/gndy/dyzz/list_23_{}.html

这样我们在inti方法初始化url地址和构造请求头。

在主方法main函数里边用for循环实现遍历网址。

得到下图这样的结果:

说明你已经成功一半了加油!!

现在我们需要对这些网址发生请求,为了更直观的看出来,我们用一个类写。

我们用requests发生请求 这个网站的编码是gbk (怎么看网站的编码?)。

打开一个网站右键检查在header的标签,以这个网站为例,可以看到charset=“gb312”。

这个gb2312就是编码 我们常见的编码方式有2种(utf_8,  gbk)。

我们可以验证一下是不是真的请求到了。使用Print(html)看到这个结果(一个完整的html网页)说明请求成功。

我们再定义这个方法(对我们的网页代码进行解析)。

我们用正则表达式 来解析数据 我们右键检查可以看到我们要的网站在table里面的标签的标签的标签的href。

所以我们可以先找到table,一层一层的去找,可以参考一下下面的图。

正则表达式就是(.?)里面就是你想要得到的内容,“.?”就是可以省略其中的标签,取到你想要地区那一层。for循环遍历得到每个网址,点击这些网址我们要对二级页面发生请求,并解析它。

因为在网页网址上的链接有一些是空的 ,所有这样会导致电影下载的链接不匹配。所以我们要加个判断,如果下载链接的长度大于0那么就照常显示,否则就给它一个空值,这样就不会不对应了。最后返回这个结果,如下图所示。

点开第二级页面如图右键点击下载链接,如下图所示:

我们用正则表达式解析 得到我们下载链接地址,如下图所示:

看去了不是很美观,我们把链接处理一下,如下图所示:

得到结果,如下图所示:

最后我们用把数据保存在一个字典加上下载链接和电影名字:

最后我们优化一下请求的代码有点重复 我们优化一下;

用一个值去保存说明请求头的内容以后请求我们只有调用这个方法进行请求就好,如下图所示:

程序运行之后可以看到效果图,如下图所示:

点击蓝色的链接就可以这个下载(要下载迅雷 迅雷下载更快哇)

这样是不是能够更直观的看出你要电影啦?点击即可下载噢!

【五、总结】

本文基于Python网络爬虫技术,提供了一种更直观的去看自己喜欢的电影并且方便下载的方式。

不建议抓取太多,容易使得服务器负载。

python下载电影天堂视频教程_一篇文章教会你利用Python网络爬虫获取电影天堂视频下载链接|python基础教程|python入门|python教程...相关推荐

  1. scrapy 中爬取时被重定向_一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程...

    今天小编给大家详细的讲解一下Scrapy爬虫框架,希望对大家的学习有帮助. 1.Scrapy爬虫框架 Scrapy是一个使用Python编程语言编写的爬虫框架,任何人都可以根据自己的需求进行修改,并且 ...

  2. python网络爬虫_一篇文章教会你利用Python网络爬虫获取穷游攻略

    点击上方"IT共享之家",进行关注 回复"资料"可获赠Python学习福利 [一.项目背景] 穷游网提供原创实用的出境游旅行指南.攻略,旅行社区和问答交流平台, ...

  3. python下载电影天堂视频_一篇文章教会你利用Python网络爬虫获取电影天堂视频下载链接...

    点击上方"IT共享之家",进行关注 回复"资料"可获赠Python学习福利 [一.项目背景] 相信大家都有一种头疼的体验,要下载电影特别费劲,对吧?要一部一部的 ...

  4. 利用python从网络上爬取图片_一篇文章教会你利用Python网络爬虫抓取王者荣耀图片...

    点击上方"IT共享之家",进行关注 回复"资料"可获赠Python学习福利 [一.项目背景] 王者荣耀作为当下最火的游戏之一,里面的人物信息更是惟妙惟肖,但受到 ...

  5. 如何用python搜索要用的素材_一篇文章教会你利用Python网络爬虫获取素材图片

    [一.项目背景] 在素材网想找到合适图片需要一页一页往下翻,现在学会python就可以用程序把所有图片保存下来,慢慢挑选合适的图片. [二.项目目标] 1.根据给定的网址获取网页源代码. 2.利用正则 ...

  6. python爬取素材图片代码_一篇文章教会你利用Python网络爬虫获取素材图片

    [一.项目背景] 在素材网想找到合适图片需要一页一页往下翻,现在学会python就可以用程序把所有图片保存下来,慢慢挑选合适的图片. [二.项目目标] 1.根据给定的网址获取网页源代码. 2.利用正则 ...

  7. 如何写一个python程序浏览淘宝_一篇文章教会你用Python爬取淘宝评论数据(写在记事本)...

    [一.项目简介] 本文主要目标是采集淘宝的评价,找出客户所需要的功能.统计客户评价上面夸哪个功能多,比如防水,容量大,好看等等. [二.项目准备工作] 1. 准备Pycharm,下载安装等,可以参考这 ...

  8. python3爬虫有道翻译_一篇文章教会你利用Python网络爬虫获取有道翻译手机版的翻译接口...

    [一.项目背景] 有道翻译作为国内最大的翻译软件之一,用户量巨大.在学习时遇到不会的英语词汇,会第一时间找翻译,有道翻译就是首选.今天教大家如何去获取有道翻译手机版的翻译接口. ![image](ht ...

  9. python 抖音文案提取_一篇文章教会你用Python抓取抖音app热点数据!

    今天给大家分享一篇简单的安卓app数据分析及抓取方法.以抖音为例,我们想要抓取抖音的热点榜数据. 要知道,这个数据是没有网页版的,只能从手机端下手. 首先我们要安装charles抓包APP数据,它是一 ...

最新文章

  1. 京东商城-商城研发部 算法岗面试
  2. SQLiteOpenHelper简介
  3. Squared Permutation(线段树)
  4. MySQL 19个规则数据库设计总结
  5. express 4 简单实现自动注册路由功能
  6. 将编号为0和1的两个栈存放于一个数组空间V[m]中。
  7. 保护眼睛的电脑设置_干货,怎么设置显示器,才能保护好我们的眼睛?
  8. 机器学习(1)之梯度下降(gradient descent)
  9. OpenShift 4 - 使用ArgoCD Operator
  10. mybatis 二级缓存使用注意
  11. linux的telnet
  12. 简约高级导航源码+支持PC/WAP有后台
  13. 除去工作赚到第一桶金10W+,我都做了哪些事儿?
  14. C语言圆角矩形画法,GDI+ 如何绘制圆角矩形(vc++)
  15. 2021年第四季度全球消费者信心总体持平,印度仍为全球最高,中国大幅增长,日本仍远低于全球平均水平 | 美通社头条...
  16. echarts 清除上一次的实例
  17. Utf8和Unicode转换问题 C语言 千字文问题
  18. | 名师博客 | 地址 |
  19. 中控煤化工丨大型煤化工智能工厂高效精准生产,到底有多牛?
  20. 持续集成Jenkins大法好

热门文章

  1. 原材料行业采购供应链系统实现业务数据线上化,助力企业便捷管理
  2. Unity Dotween插件的运动曲线(Ease)介绍Ease选项Ease效果示例以及C#修改动画曲线功能
  3. css 动画中 ease,seae-in,ease-in-out,ease-out,解释
  4. 我用了这么久的加密软件居然是个骗局!
  5. rhce考试试题以及答案_RHCE认证考试模拟题及答案.docx
  6. windows下php的exec函数执行不成功的另一种原因
  7. HotDB Server开放下载先知--组件名词介绍
  8. 配色素描必备书籍分享
  9. chrome浏览器的JSON格式化插件JSON-Handle
  10. 盘点 6 个 牛牛牛牛牛 的开源项目