电影天堂电影链接爬取
1 import requests,re 2 3 4 def getdetail(url): 5 6 response = requests.get(url) 7 html = response.content.decode('gbk') 8 # 电影详情页标题 9 movie_title_name = re.search('<h1><font color=#07519a>(.*)</f',html) 10 movie_title = movie_title_name.group(1) 11 # 电影 磁力 magnet 12 movie_magnet_url = re.search('/><a href="(.*)"><str',html) 13 # print(movie_magnet.group(1)) 14 movie_magnet = movie_magnet_url.group(1) 15 # torrent种子 16 movie_torrent_url = re.search('ddf"><a href="(.*)">ft',html) 17 movie_torrent = movie_torrent_url.group(1) 18 # print(movie_torrent.group(1)) 19 # 这个列表用来title 20 movie_title_list = [] 21 movie_title_list.append(movie_title) 22 23 # 这个列表两个下载的链接 24 movie_down_url = [] 25 movie_down_url.append(movie_magnet) 26 movie_down_url.append(movie_torrent) 27 movie_down_url_all = [] 28 movie_down_url_all.append(movie_down_url) 29 30 31 movie_dict = dict(zip(movie_title_list,movie_down_url_all)) 32 print(movie_dict) 33 34 35 36 def getpage(): 37 38 for i in range(1,178): 39 lurl = 'http://www.dytt8.net/html/gndy/dyzz/list_23_%s.html' % i 40 41 response = requests.get(lurl) 42 43 html = response.text 44 45 movie_url_list = re.findall('<a href="(.*)" class="ulink"',html) 46 47 for movie_item in movie_url_list: 48 movie_url = 'http://www.dytt8.net'+movie_item 49 getdetail(movie_url) 50 51 52 if __name__ == '__main__': 53 getpage()
转载于:https://www.cnblogs.com/daihao9527/p/9503189.html
电影天堂电影链接爬取相关推荐
- python爬电影天堂_python爬虫爬取电影天堂电影
python爬虫爬取电影天堂电影?本项目实现一个简单的爬虫,通过requests和BeautifulSoup爬取电影天堂电影信息,包括片名.年代.产地.类别.语言.海报链接和视频链接等内容.pytho ...
- 爬虫学习(一)---爬取电影天堂下载链接
欢迎加入python学习交流群 667279387 爬虫学习 爬虫学习(一)-爬取电影天堂下载链接 爬虫学习(二)–爬取360应用市场app信息 主要利用了python3.5 requests,Bea ...
- 使用requests库和lxml解析爬取电影天堂电影信息
使用requests库获取电影天堂电影信息,将所有链接保存下来后可以使用迅雷批量下载.快速获得最新最全电影资源! 站点分析 以电影天堂国内电影为例 http://www.ygdy8.net/html/ ...
- python3批量抓取电影天堂下载链接
1.思路分析 首先打开电影天堂的列表页 右键审查元素查看电影简介的链接 将此链接打开可以得到下载地址 可能是爬虫原因网站审查元素和用request得到的数据不一样,因此代码的正则表达式会改变 加上列表 ...
- python爬虫——三步爬得电影天堂电影下载链接,30多行代码即可搞定:
python爬虫--三步爬得电影天堂电影下载链接,30多行代码即可搞定: 本次我们选择的爬虫对象是:https://www.dy2018.com/index.html 具体的三个步骤:1.定位到202 ...
- requests+xpath爬取电影天堂电影信息
电影天地网址:http://www.ygdy8.net/html/gndy/china/list_4_1.html 目标: 1.爬取电影天堂的国内电影一栏的所有电影的url 2.进入每个电影的url获 ...
- 爬取电影天堂电影列表和详情页
爬取电影天堂电影列表和详情页 import requests from lxml import etreebase_list_url = 'https://www.dytt8.net'headers ...
- python3爬虫:爬取电影天堂电影信息
python3爬虫:爬取电影天堂电影信息 #爬取电影天堂电影信息 #爬取电影天堂电影信息 #爬取电影天堂电影信息 from lxml import etree import requestsBASE_ ...
- Python爬虫之豆瓣电影评论数据的爬取(十四)
原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080 本次代码的环境: 运行平台: Windows Python版本: ...
- Golang实现并发版网络爬虫:豆瓣-电影名人数评分爬取并保存文件
爬取豆瓣电影信息: 双向爬取: 横向:以页为单位.纵向:以一个页面内的条目为单位. 横向: https://movie.douban.com/top250?start=0&filter= 1 ...
最新文章
- 设置在本文件里查找_Win 10 自带聚焦搜索?这么设置轻松查找电脑文件
- 节点身份认证(1)DID(Decentralized Identity)系统
- 【译】SQL Server误区30日谈-Day2-DBCC CHECKDB会导致阻塞
- Feign-自定义配置
- 数学之美系列12(转帖)
- 缓存区的输入输出,字符串常用操作,实现strlen/strcpy/strcat/strcmp函数)
- [Leetcode]-- Valid Number
- 什么是Shell、Shell脚本
- 使用游标逐行更新数据
- php 对mvc的认识,【PHP】MVC框架为何这么难! 4年后终于明白了,被ThinkPHP害得!...
- Python之package、module
- 计算机组装与维护重点难点,计算机组装与维修复习重难点.doc
- 使用gensim训练维基百科
- CF1380D.Berserk And Fireball 【2000】你值得学习的【思维】+【模拟】+【贪心】
- 掘安平台Writeup(持续解题)
- 歌唱比赛报名php源码,2021东方音乐挑战赛正式官宣发布 歌唱比赛音乐选秀节目全球报名招募...
- Docker安装ELK
- 双方都在线,qq总是离线发文件
- css js html 实现滚动字幕
- 十进制转换成二进制——C语言
热门文章
- Vue3.0 + Ts 项目框架搭建四:配置 Svg-Icon、Icon图标
- axios post,get,put
- 【Spring笔记】使用javaconfig配置
- 【python笔记】可迭代对象和迭代器
- 计算机人员简历英语,计算机专业英文个人简历范文
- linux无线网卡断断续续,关于ubuntu16无线网卡RTL8723BE频繁掉线及信号不足的解决方法...
- 台式计算机华硕电源,美声大师+智能电源 华硕台式电脑M51AC
- Windows cmd终端美化:Windows terminal背景图
- dbeaver 设置编码_DBeaver 一个神奇的数据库操作软件
- Python入门--常用的内置模块