python3学习之路 -- 9.1.4)- 获取yemian内容练习
# 1. 定位到2022必看片
# 2. 从2022必看中提取到子页面的链接地址
# 3. 请求子页面的链接地址,拿到想要的下载地址import requests
import redomain = "https://www.dytt89.com/"
#resp = requests.get(domain, verify=False)#如果需要SSl,加verify,表示去掉安全验证resp = requests.get(domain)
resp.encoding = "gb2312"
#print(resp.text) #乱码,会看到网页编码是gb2312,需要做解码为gb2312
"""
#内容:<div class="co_area2" style="float:left;width:470px;height:auto;overflow:hidden;margin-left:6px;"><div class="title_all"><p><span style="float:left;">2022必看热片</span><em style="float:right;"><a href="/html/bikan/">更多>></a></em></p></div><div class="co_content222"><ul><li><a href='/i/105424.html' title="2022年美国7.6分动作犯罪片《新蝙蝠侠》HD中英双字">2022年美国7.6分动作犯罪片《新蝙蝠侠》HD中英双字</a><span><font color=#FF0000>04-19</font></span></li>
<li><a href='/i/105405.html' title="2022年国产7.4分剧情片《奇迹·笨小孩》HD国语中字">2022年国产7.4分剧情片《奇迹·笨小孩》HD国语中字</a><span><font color=#FF0000>04-15</font></span></li>
<li><a href='/i/105296.html' title="2022年国产6.5分喜剧片《这个杀手不太冷静》HD国语中字">2022年国产6.5分喜剧片《这个杀手不太冷静》HD国语中字</a><span><font color=#FF0000>04-02</font></span></li>
<li><a href='/i/105283.html' title="2022年美国科幻灾难片《月球陨落》BD中英双字">2022年美国科幻灾难片《月球陨落》BD中英双字</a><span><font color=#FF0000>03-31</font></span></li>
<li><a href='/i/105259.html' title="2022年国产7.7分战争历史片《狙击手》HD国语中字">2022年国产7.7分战争历史片《狙击手》HD国语中字</a><span><font color=#FF0000>03-26</font></span></li>
<li><a href='/i/101839.html' title="2020年美国8.2分动作犯罪片《绅士们》蓝光中英双字">2020年美国8.2分动作犯罪片《绅士们》蓝光中英双字</a><span><font color=#FF0000>03-22</font></span></li>
<li><a href='/i/105188.html' title="2022年美国8.3分动画片《青春变形记》BD国粤英三语中字">2022年美国8.3分动画片《青春变形记》BD国粤英三语中字</a><span><font color=#FF0000>03-20</font></span></li>
<li><a href='/i/104733.html' title="2021年美国动作科幻片《黑客帝国:矩阵重启》蓝光国英双语中英双字">2021年美国动作科幻片《黑客帝国:矩阵重启》蓝光国英双语中英双</a><span><font color=#FF0000>03-19</font></span></li>
<li><a href='/i/105212.html' title="2022年国产动画片《小虎墩大英雄》HD国语中字">2022年国产动画片《小虎墩大英雄》HD国语中字</a><span><font color=#FF0000>03-18</font></span></li>
<li><a href='/i/105182.html' title="2021年美国7.5分动作科幻片《蜘蛛侠:英雄无归》蓝光中英双字">2021年美国7.5分动作科幻片《蜘蛛侠:英雄无归》蓝光中英双字</a><span><font color=#FF0000>03-15</font></span></li>
<li><a href='/i/105114.html' title="2021年中国香港动作犯罪片《反贪风暴5:最终章》HD双语中字">2021年中国香港动作犯罪片《反贪风暴5:最终章》HD双语中字</a><span><font color=#FF0000>02-27</font></span></li>
<li><a href='/i/105028.html' title="2021年美国喜剧动作片《王牌特工:源起》蓝光特效中英双字">2021年美国喜剧动作片《王牌特工:源起》蓝光特效中英双字</a><span><font color=#FF0000>02-21</font></span></li>
<li><a href='/i/105057.html' title="2021年国产6.0分剧情片《穿过寒冬拥抱你》HD国语中字">2021年国产6.0分剧情片《穿过寒冬拥抱你》HD国语中字</a><span><font color=#FF0000>02-15</font></span></li>
<li><a href='/i/105005.html' title="2021年国产8.3分动画片《雄狮少年》HD国粤双语中字">2021年国产8.3分动画片《雄狮少年》HD国粤双语中字</a><span><font color=#FF0000>02-04</font></span></li>
<li><a href='/i/104994.html' title="2021年国产剧情犯罪片《误杀2》4K国语中字">2021年国产剧情犯罪片《误杀2》4K国语中字</a><span><font color=#FF0000>02-03</font></span></li></ul></div></div>
"""
# 拿到ul里面的li
obj1 = re.compile(r"2022必看热片.*?<ul>(?P<ul>.*?)</ul>", re.S)
# 从2022比看中提取子页面链接,也就是目前获得信息的href后面的信息
obj2 = re.compile(r"<a href='(?P<href>.*?)'", re.S)
# 获取片名
obj3 = re.compile(r'◎片 名(?P<movie>.*?)<br />.*?'r'<td style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="(?P<download>.*?)">', re.S)result1 = obj1.finditer(resp.text)
child_href_list = []for it in result1:ul = it.group('ul')#print(ul)#提取子页面链接result2 = obj2.finditer(ul)for itt in result2:#href = itt.group("href")# 拼接子页面的url地址: 域名 + 子页面地址# print(href) #拿到一堆链接,如:/i/105505.htmlchild_href = domain + itt.group("href").strip("/")#print(child_href) # https://www.dytt89.com/i/105057.htmlchild_href_list.append(child_href) #把子页面链接保存到列表# 提取子页面内容
for href in child_href_list:child_resp = requests.get(href)child_resp.encoding = 'gb2312'#print(child_resp.text)result3 = obj3.search(child_resp.text)print(result3.group("movie"))print(result3.group("download"))#break # 测试用,此时只会拿到一条数据就退出循环
python3学习之路 -- 9.1.4)- 获取yemian内容练习相关推荐
- python3 学习之路1
Python学习之路 参考书目: 0.趣学Python编程--Python for kids 1.父与子的编程之旅--和小卡特一起学Python 2.Python编程快速上手--让繁琐工作自动化 3. ...
- Python3学习之路
python基础知识点 1.python基础知识点汇总 2.python常用数据类型 3.python之列表 4.python之字符串 5.python常用数据运算符 6.python之字典 7.py ...
- python3学习之路 -- 7)初级练习4 - 支付密码、账号、价格竞猜、星座
#实操案例4 -- 任务1 -- 支付密码验证 pwd = input('支付宝支付密码:') if pwd.isdigit():print('支付数据合法!') else:print('支付数据不合 ...
- python3学习之路 -- 7)初级练习15 - 千年虫、购物车
1.enumerate可以打印索引和列表值 enumerate(sequence, [start=0]) sequence – 一个序列.迭代器或其他支持迭代对象. start – 下标起始位置. e ...
- python3学习之路 -- 7)初级练习12 -- 乐器、车 - 类(面向对象 - 封装、继承、多态)
# 实操案例13 -- 任务1 -- 乐器 - 类 class Instrument(): #定义一个乐器类def make_sound(self): #定义一个发声的函数passclass Erhu ...
- h5获取http请求头_java学习之路(2),http协议,request类
java学习之路(2),http协议,request类 java学习之路(2),http协议,request类 1.一个httpServlet的多个地址定义 对于httpServlet可以定义一个数组 ...
- AI 学习之路——轻松初探 Python 篇(三)
喜欢小之的文章的可以关注公众号「WeaponZhi」持续关注动态 这是「AI 学习之路」的第 3 篇,「Python 学习」的第 3 篇 Python 字符串使用和 C 语言比较类似,但还有一些我们值 ...
- python 爬虫 包_python爬虫学习之路-抓包分析
利用浏览器抓包,是爬虫中的很实用的技能.在爬虫编程之前,我们要对抓取的目标页面有所了解,比如浏览器的这个请求这个页面中间都经历了什么,数据是怎么发送和返回的. 抓包的作用 我把抓包分析的作用简单列一下 ...
- Python学习之路9☞面向对象的程序设计
Python学习之路9☞面向对象的程序设计 一 面向对象的程序设计的由来 见概述:http://www.cnblogs.com/linhaifeng/articles/6428835.html 二 什 ...
最新文章
- mr图像翻转的原因_CSS图片翻转例子
- 014_TimePicker时间选择器
- 【Git 】命令总结记录
- Facebook揭秘其应用测试平台,并开源核心技术
- Identity和IdentityServer的区别及联系
- 【Leetcode | 01】Backtracking
- 描写计算机老师上课的神态,请你用一段话描写一位老师上课的情景,注意抓住神态语言动作等细节...
- dell屏幕亮度调节不了_?戴尔XPS13 7390笔电测评:10代酷睿加持,屏幕/散热/续航升级...
- 两个有序链表序列的交集_剑指offer第21天:合并两个有序链表
- 在Razor中如何引入命名空间?(import namespace in razor view)
- [leetcode]746. 使用最小花费爬楼梯
- winscp连接Linux步骤
- 湖南师范大学计算机网络基础教学平台,基于网络的师徒式教学平台的设计与实现...
- 丁磊力荐 网易卡搭编程构建国内首个开放生态
- Python oct()函数
- 电脑计算机显示向程序发送命令时出现问题,word提示向程序发送命令时出现问题怎么解决 wo...
- html表单站内搜,网站集成百度、Bing必应搜索引擎,在网页中实现站内全文搜索...
- 任正非的忠告:不赚钱的产品就关闭压缩
- 专题·置换【including 置换,置换快速幂,洛谷·[HNOI2001]洗牌机
- 数据处理小工具:Excel 批量数据文件拆分/整合器...