一、概述

对于一个宅男,喜欢看电影,每次打开电影网站,各种弹出的广告,很是麻烦,还是要自己去复制下载链接到迅雷上粘贴并下载,这个过程中还有选择困难症;这一系列的动作让人甚是不爽,不如有下好的,点着看就好了;作为一个python爱好者,结合对爬虫的一点小了解,于是周末花了点时间用python写了一个爬取某电影网站上的最新电影板块;

思路:

爬虫针对某电影网站,收集电影名,下载链接,评分,等信息;当天更新的电影,特别的打印出来;同时通过评分调用迅雷下载,当然先判断下,是否已经下载过了,再决定是否下载;然后,就是可以看了~

本次版本是基于python3.x下通过,在windows上才能调用迅雷~linux平台只能获取相关信息!

python安装和相关的模块安装这里不讲述,如有不明白请留言我~

jupyter上运行如下:

二、代码

废话不多说上代码吧~

# coding:utf-8

# version 20181027 by san

import re,time,os

from urllib import request

from lxml import etree # python xpath 单独使用导入是这样的

import platform

import ssl

ssl._create_default_https_context = ssl._create_unverified_context # 取消全局证书

#爬虫电影之类

class getMovies:

def __init__(self,url,Thuder):

''' 实例初始化 '''

self.url = url

self.Thuder = Thuder

def getResponse(self,url):

url_request = request.Request(self.url)

url_response = request.urlopen(url_request)

return url_response #返回这个对象

def newMovie(self):

''' 获取最新电影 下载地址与url '''

http_response = self.getResponse(webUrl) #拿到http请求后的上下文对象(HTTPResponse object)

data = http_response.read().decode('gbk')

#print(data) #获取网页内容

html = etree.HTML(data)

newMovies = dict()

lists = html.xpath('/html/body/div[1]/div/div[3]/div[2]/div[2]/div[1]/div/div[2]/div[2]/ul/table//a')

for k in lists:

if "app.html" in k.items()[0][1] or "最新电影下载" in k.text:

continue

else:

movieUrl = webUrl + k.items()[0][1]

movieName = k.text.split('《')[1].split("》")[0]

newMovies[k.text.split('《')[1].split("》")[0]] = movieUrl = webUrl + k.items()[0][1]

return newMovies

def Movieurl(self,url):

''' 获取评分和更新时间 '''

url_request = request.Request(url)

movie_http_response = request.urlopen(url_request)

data = movie_http_response.read().decode('gbk')

if len(re.findall(r'豆瓣评分.+?.+users',data)): # 获取评分;没有评分的返回null

pingf = re.findall(r'豆瓣评分.+?.+users',data)[0].split('/')[0].replace("\u3000",":")

else:

pingf = "豆瓣评分:null"

desc = re.findall(r'简\s+介.*',data)[0].replace("\u3000","").replace('
',"").split("src")[0].replace('&ldquo',"").replace('&rdquo',"").replace('

times = re.findall(r'发布时间.*',data)[0].split('\r')[0].strip() # 获取影片发布时间

html = etree.HTML(data)

murl = html.xpath('//*[@id="Zoom"]//a')

for k in murl:

for l in k.items():

if "ftp://" in l[1]:

print

return l[1],times,pingf,desc

def check_end(self,fiename,path):

''' 检测文件是否下载完成 '''

return os.path.exists(os.path.join(save_path,fiename))

def check_start(self,filename):

''' 检测文件是否开始下载 '''

cache_file = filename+".xltd"

return os.path.exists(os.path.join(save_path,cache_file))

def DownMovies(self,name,url):

''' windows下载 '''

PlatForm = platform.system()

print("即将下载的电影是:%s" %name)

if PlatForm == "Windows":

try:

print(r'"{0}" "{1}"'.format(self.Thuder,url))

os.system(r'"{0}" {1}'.format(self.Thuder,url))

except Exception as e:

print(e)

else:

print("当前系统平台不支持")

def Main(self):

''' 最终新电影存储在字典中 '''

NewMoveis = dict()

Movies = self.newMovie() # 获取电影的字典信息

for k,v in Movies.items():

NewMoveis[k] = self.Movieurl(v),v

return NewMoveis

def NewMoives(self):

''' 查看已经获取到的电影信息 '''

Today = time.strftime("%Y-%m-%d")

print("今天是:%s" %Today)

Movies = self.Main()

print("最近的 %s 部新电影:" % len(Movies.keys()))

for k,v in Movies.items():

# print(v[0][1].split(":")[0])

if Today in v[0][1].split(":")[0]:

print("++++++++++++++++今天刚更新++++++++++++++:","\n",k,"-->",v,"\n")

else:

print("========================================")

print(k,"-->",v,"\n")

if __name__ == '__main__':

# 以下依据您个人电影迅雷的相关信息填写即可

save_path="O:\迅雷下载" # 电影下载保存位置 (需要填写)

Thuder = "O:\Program\Thunder.exe" #Thuder: 迅雷Thuder.exe路径 (需要填写)

webUrl = 'http://www.dytt8.net' # 电影网站

test = getMovies(webUrl,Thuder) # 实例化

test.NewMoives()

Movies = test.Main()

for k,v in Movies.items():

movies_name = v[0][0].split('/')[3]

socre = v[0][2].split(":")[1]

check_down_status = test.check_end(movies_name,save_path)

# print(check_down_status)

if check_down_status:

print("电影: %s 已经下载" %movies_name)

continue

elif socre == 'null':

continue

elif float(socre) > 7.0:

print(movies_name,socre)

test.DownMovies(k,v[0][0])

time.sleep(10)

注意:以上代码是针对windows平台下,迅雷版本为非极速版本,本次使用的是9.14 如图:

另外需要勾选以下配置项,否则程序调用迅雷下载时会有提示框:

程序运行效果如图:

再看下O盘 下载的目录:

至此自动获取最新电影并下载指定评分电影完成~ 再也不用担心选择困难了,下好看就行了~

补充说明:

这只是一个基本的获取并下载电影的程序,也可能扩充成下载好发邮件,或不想下载,定时运行,有新电影发邮件提示的功能~更功能自行发挥吧,如有那位大牛知道linux下自行下载的方法,欢迎留言交流,谢谢~如果觉得还可以,不要忘记点个赞哦~

python下载电影_python爬取电影并下载相关推荐

  1. python爬虫下载小说_python 爬取小说并下载的示例

    代码 import requests import time from tqdm import tqdm from bs4 import BeautifulSoup """ ...

  2. python程序爬电影_Python爬取电影天堂最新发布影片消息

    从今天开始我会把我学习python爬虫的一些心得体会和代码发布在我现在的博客,好记性不如烂笔头,以便以后的我进行复习. 虽然我现在的爬虫还很幼小,希望有一天她能长得非常非常的强大. --------- ...

  3. python软件安装链接电视_Python爬取电影天堂指定电视剧或者电影

    1.分析搜索请求 一位高人曾经说过,想爬取数据,要先分析网站 今天我们爬取电影天堂,有好看的美剧我在上面都能找到,算是很全了. 这个网站的广告出奇的多,用过都知道,点一下搜索就会弹出个窗口,伴随着滑稽 ...

  4. Python小工具-电影天堂爬取电影下载链接

    import requests import bs4# 获取单独的url def movie_info(url):'''内容标签:<div id="Zoom">下载链接 ...

  5. python 爬取_Python爬取电影天堂

    前言: 本文非常浅显易懂,可以说是零基础也可快速掌握.如有疑问,欢迎留言,笔者会第一时间回复.本文代码存于github 一.爬虫的重要性: 如果把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来 ...

  6. python做壁纸_Python爬取壁纸

    不想一张张看壁纸怎么办,不想一张张下载怎么办,来让我们用python解决一切,爬取一网站所有壁纸. 1.准备前期运行环境 ·python运行环境,安装request模块 (这个问题需要自己去解决) 2 ...

  7. python自动爬取更新电影网站_python爬取电影网站信息

    一.爬取前提 1)本地安装了mysql数据库 5.6版本 2)安装了Python 2.7 二.爬取内容 电影名称.电影简介.电影图片.电影下载链接 三.爬取逻辑 1)进入电影网列表页, 针对列表的ht ...

  8. python下载电影_Python抓取电影天堂电影信息的代码

    Python2.7Mac OS 抓取的是电影天堂里面最新电影的页面.链接地址: http://www.dytt8.net/html/gndy/dyzz/index.html 获取页面的中电影详情页链接 ...

  9. 一个简单python爬虫的实现——爬取电影信息

    最近在学习网络爬虫,完成了一个比较简单的python网络爬虫.首先为什么要用爬虫爬取信息呢,当然是因为要比人去收集更高效. 网络爬虫,可以理解为自动帮你在网络上收集数据的机器人. 网络爬虫简单可以大致 ...

  10. python教程app下载地址_Python爬取APP下载链接的实现方法

    首先是准备工作 Python 2.7.11:下载python 其中python2和python3目前同步发行,我这里使用的是python2作为环境.Pycharm是一款比较高效的Python IDE, ...

最新文章

  1. lisp修改天正标高值_【求教】如何批量修改天正字体
  2. sublime福音:微信小程序组件及API补全插件
  3. 十一、Redis五大数据类型之三Set
  4. 我司用了 6 年的 Redis 分布式限流器,很牛逼了!
  5. 【大数据算法】蓄水池抽样算法
  6. [C++STL]C++实现unordermap容器和unorderset容器
  7. Oracle入门(七B)之表空间删除数据文件未删除
  8. 模拟退火算法_Simulated Annealing 模拟退火算法
  9. idea配置java和maven_Maven配置,使用IntelliJ IDEA和Maven创建Java Web项目
  10. Day2:C语言学习2
  11. 每个python文件就是一个模块、模块的名字就是_Python-模块和包
  12. C++遇到错误蓝屏电脑代码底层分享!
  13. Apple 850 订单EDI X12报文格式解析
  14. 一键清理系统垃圾.bat文件中的误区,你了解吗?
  15. 基于flink的电商用户行为数据分析【1】| 项目整体介绍
  16. mariadb登陆报错: 1698 - Access denied for user
  17. 查看服务器数据库信息,怎么查看数据库服务器信息
  18. 【OpenPCDet】稀疏卷积SPConv-v1.2代码解读(5)
  19. VNode 是什么? 什么是虚拟 DOM?
  20. PAP认证和CHAP认证原理解析

热门文章

  1. 2、sudo时候出现no valid sudoers sources found, quitting
  2. [译]R语言——Shiny框架之入门(一):Shiny应用的基本构成
  3. Mac 快速查找快捷键command+f失效解决办法
  4. 暴笑新东方老师老罗语录(转)
  5. 前后端分离实现上传图片的功能
  6. ansible进阶(五)-handlers-任务发生更改时触发操作
  7. 华为EC1261使用小记
  8. word自动编号与文字间距太大怎么办
  9. 微博营销有什么优势与缺点?如何利用微博开展营销?
  10. java毕业设计基于的高校教室申请管理系统mybatis+源码+调试部署+系统+数据库+lw