【爬虫】Python3搜索并获取电影网站的迅雷下载链接

用到的python第三方库：bs4、requests、execjs（在python中调用js脚本）

目标网站: www.beiwo.tv

通过分析网页源码发现，网页通过调用一个加密JS脚本来加密网页源码中的一段字符串从而获得迅雷电影链接，将分析网页得到的JS加密源码存放到encode.js文件中，通过exejs库在python中调用并传递我们抓取到的待加密的字符串从而获得想要得到的电影迅雷下载链接。

抓包可以分析出网页搜索所发送的表单，构造data表单，向网页发送请求获得搜索网页url，然后按照上面所说解析网页获得待加密字符串。

源码如下：

 1 #ThunderUrl.py
 2 import execjs
 3 def echoDown(str):
 4     #获得未编码的迅雷链接
 5     gurl = []
 6     s = str.split("###")
 7     for i in range(0,len(s)-1):
 8         gurl = s[i].split("$")
 9     return gurl[1]
10
11 def getJs():
12     #生成JS脚本对象
13     f = open("encode.js", 'r')
14     line = f.readline()
15     htmlstr = ''
16     while line:
17         htmlstr = htmlstr + line
18         line = f.readline()
19     return htmlstr
20
21 """
22 将str编码成可用的迅雷链接
23 """
24 def getThunderUrl(str):
25     t_url = echoDown(str)
26     jsstr = getJs()
27     ctx = execjs.compile(jsstr)
28     ThunderUrl = ctx.call('ThunderEncode',t_url)
29     print(ThunderUrl)

 1 #MovieSearch.py
 2 import requests
 3 from bs4 import BeautifulSoup
 4 import re
 5
 6 def MovieSeach(movieName):
 7 #根据movideName 从url中请求搜索结果 并将结果url存放到集合movieUrlSet中
 8     name = movieName
 9     data = {'typeid': '2', 'wd': name}
10     url = 'http://www.beiwo.tv/index.php?s=vod-search'
11     headers = {
12         'Cache-Control': 'max-age=0',
13         'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
14         'Accept-Encoding': 'gzip, deflate',
15         'Accept-Language': 'zh-CN,zh;q=0.8',
16         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'
17     }
18     response = requests.post(url, data=data)
19     if response.status_code != 200:
20         print('网页打开失败')
21         exit(0)
22     response.raise_for_status()
23     response.encoding = response.apparent_encoding
24     soup = BeautifulSoup(response.text, 'lxml')
25     movieUrl = soup.find_all('a')
26     movieUrlSet = set()
27     for movie in movieUrl:
28         temp = re.findall(r'(/vod/.*/)', movie['href'])
29         if len(temp):
30             url = 'http://www.beiwo.tv' + "".join(list(temp))
31             movieUrlSet.add(url)
32     return movieUrlSet
33
34 """
35 解析urls中的url获得编码前的迅雷链接
36 将迅雷链接存放到Thunders中
37 """
38 def UrlParser(url):
39     response = requests.get(url)
40     if response.status_code != 200:
41         print('网页解析失败')
42         exit(0)
43     response.raise_for_status()
44     response.encoding = response.apparent_encoding
45     soup = BeautifulSoup(response.text,'lxml')
46     ThunderUrls = soup.find_all('script')
47     Thunders = re.findall(r'var GvodUrls3 = "(.*###)";',str(ThunderUrls))
48     return Thunders

 1 #main.py
 2 from ThunderUrl import *
 3 from MovieSearch import *
 4
 5 if __name__ == "__main__":
 6     print('请输入要搜索的影片名:',end="")
 7     name = input()
 8     UrlSet = MovieSeach(name)
 9     for url in UrlSet:
10         Thunders = UrlParser(url)
11         for Thunder in Thunders:
12             getThunderUrl(Thunder)

运行结果：

侵删

转载于:https://www.cnblogs.com/MyCodeLife-/p/7522959.html

【爬虫】Python3搜索并获取电影网站的迅雷下载链接相关推荐

如何获取百度云的迅雷下载链接
寡人经过千百万次的试验, 终于被朕找到最新最有效的获取百度云的迅雷下载链接的方法!!,估计在很长的时间内百度都无法屏蔽!!!!!
Python爬虫小实践：获取某个网站所有的外部链接以及内部链接
我们在进行爬虫时有的时候不可能只是在一个网站上进行内容上的爬取,理想中的爬虫应该是顺着一个链接从一个页面到另外一个页面,这需要获取页面上的所有的外链,同时收集每个页面上的内链.网站首页上不一定会发现外 ...
仿权重8高收录面包网pc+手机苹果cmsv8影视网站含迅雷下载N430模板
苹果cmsv8仿权重8高收录面包电影网模板主题介绍: 模板名称:仿权重8高收录面包网pc+手机苹果cmsv8影视网站含迅雷下载N430模板模板程序:苹果cmsv8 模板类型:pc+手机模板颜色:白 ...
Java百度网盘创建链接,java获取百度网盘真实下载链接的方法
本文实例讲述了java获取百度网盘真实下载链接的方法.分享给大家供大家参考.具体如下: 目前还存在一个问题,同一ip在获取3次以后会出现验证码,会获取失败,感兴趣的朋友对此可以加以完善. 返回的Lis ...
php音乐链接,用PHP获取虾米音乐网的下载链接_php
做链接转换的时候遇到的.虾米的链接解密有点烦,解法是我看别人的源码得到的.然后我把他改写成了php的版本.贴出来,有需要的就拿去用~ $mp3_id = '';//音乐ID function unes ...
Python爬虫1：批量获取电影标题和剧照
1.爬取某电影网站的电影名称下面展示一些代码. import requests from lxml import etreedef dianying(number):url ='https://w ...
Python 爬虫实现：抓取电影网站信息并入库
文章目录一.环境搭建 1.下载安装包 2.修改环境变量 3.安装依赖模块二.代码开发三.运行测试 1.新建电影信息表 2.代码运行四.问题排查和修复 1.空白字符报错 2.请求报错一.环境搭 ...
爬取allitebooks网站的电子书下载链接
allitebooks网址是目前为止还在更新的不多几个电子书免费下载网站.之前一直访问的http://it-ebooks.info由于版权原因已经去掉了全部的下载链接,转型为电子书导购网站.趁着还能访 ...
Python 多线程、利用request使用代理、利用递归深度抓取电影网页的内容并将电影的介绍和下载链接保存到mysql中
本文仅为学习python过程的一个笔记,其中还有一些bug! 还请各位大佬赐教有些专业的说法还不是很熟悉,欢迎各位大佬帮忙指出本人时一个新晋奶爸,而立之年突然想转业,想学习python 先介绍一个 ...

【爬虫】Python3搜索并获取电影网站的迅雷下载链接

【爬虫】Python3搜索并获取电影网站的迅雷下载链接相关推荐

最新文章

热门文章