# 1. 定位到2022必看片
# 2. 从2022必看中提取到子页面的链接地址
# 3. 请求子页面的链接地址,拿到想要的下载地址import requests
import redomain = "https://www.dytt89.com/"
#resp = requests.get(domain, verify=False)#如果需要SSl,加verify,表示去掉安全验证resp = requests.get(domain)
resp.encoding = "gb2312"
#print(resp.text) #乱码,会看到网页编码是gb2312,需要做解码为gb2312
"""
#内容:<div class="co_area2" style="float:left;width:470px;height:auto;overflow:hidden;margin-left:6px;"><div class="title_all"><p><span style="float:left;">2022必看热片</span><em style="float:right;"><a href="/html/bikan/">更多>></a></em></p></div><div class="co_content222"><ul><li><a href='/i/105424.html' title="2022年美国7.6分动作犯罪片《新蝙蝠侠》HD中英双字">2022年美国7.6分动作犯罪片《新蝙蝠侠》HD中英双字</a><span><font color=#FF0000>04-19</font></span></li>
<li><a href='/i/105405.html' title="2022年国产7.4分剧情片《奇迹·笨小孩》HD国语中字">2022年国产7.4分剧情片《奇迹·笨小孩》HD国语中字</a><span><font color=#FF0000>04-15</font></span></li>
<li><a href='/i/105296.html' title="2022年国产6.5分喜剧片《这个杀手不太冷静》HD国语中字">2022年国产6.5分喜剧片《这个杀手不太冷静》HD国语中字</a><span><font color=#FF0000>04-02</font></span></li>
<li><a href='/i/105283.html' title="2022年美国科幻灾难片《月球陨落》BD中英双字">2022年美国科幻灾难片《月球陨落》BD中英双字</a><span><font color=#FF0000>03-31</font></span></li>
<li><a href='/i/105259.html' title="2022年国产7.7分战争历史片《狙击手》HD国语中字">2022年国产7.7分战争历史片《狙击手》HD国语中字</a><span><font color=#FF0000>03-26</font></span></li>
<li><a href='/i/101839.html' title="2020年美国8.2分动作犯罪片《绅士们》蓝光中英双字">2020年美国8.2分动作犯罪片《绅士们》蓝光中英双字</a><span><font color=#FF0000>03-22</font></span></li>
<li><a href='/i/105188.html' title="2022年美国8.3分动画片《青春变形记》BD国粤英三语中字">2022年美国8.3分动画片《青春变形记》BD国粤英三语中字</a><span><font color=#FF0000>03-20</font></span></li>
<li><a href='/i/104733.html' title="2021年美国动作科幻片《黑客帝国:矩阵重启》蓝光国英双语中英双字">2021年美国动作科幻片《黑客帝国:矩阵重启》蓝光国英双语中英双</a><span><font color=#FF0000>03-19</font></span></li>
<li><a href='/i/105212.html' title="2022年国产动画片《小虎墩大英雄》HD国语中字">2022年国产动画片《小虎墩大英雄》HD国语中字</a><span><font color=#FF0000>03-18</font></span></li>
<li><a href='/i/105182.html' title="2021年美国7.5分动作科幻片《蜘蛛侠:英雄无归》蓝光中英双字">2021年美国7.5分动作科幻片《蜘蛛侠:英雄无归》蓝光中英双字</a><span><font color=#FF0000>03-15</font></span></li>
<li><a href='/i/105114.html' title="2021年中国香港动作犯罪片《反贪风暴5:最终章》HD双语中字">2021年中国香港动作犯罪片《反贪风暴5:最终章》HD双语中字</a><span><font color=#FF0000>02-27</font></span></li>
<li><a href='/i/105028.html' title="2021年美国喜剧动作片《王牌特工:源起》蓝光特效中英双字">2021年美国喜剧动作片《王牌特工:源起》蓝光特效中英双字</a><span><font color=#FF0000>02-21</font></span></li>
<li><a href='/i/105057.html' title="2021年国产6.0分剧情片《穿过寒冬拥抱你》HD国语中字">2021年国产6.0分剧情片《穿过寒冬拥抱你》HD国语中字</a><span><font color=#FF0000>02-15</font></span></li>
<li><a href='/i/105005.html' title="2021年国产8.3分动画片《雄狮少年》HD国粤双语中字">2021年国产8.3分动画片《雄狮少年》HD国粤双语中字</a><span><font color=#FF0000>02-04</font></span></li>
<li><a href='/i/104994.html' title="2021年国产剧情犯罪片《误杀2》4K国语中字">2021年国产剧情犯罪片《误杀2》4K国语中字</a><span><font color=#FF0000>02-03</font></span></li></ul></div></div>
"""
# 拿到ul里面的li
obj1 = re.compile(r"2022必看热片.*?<ul>(?P<ul>.*?)</ul>", re.S)
# 从2022比看中提取子页面链接,也就是目前获得信息的href后面的信息
obj2 = re.compile(r"<a href='(?P<href>.*?)'", re.S)
# 获取片名
obj3 = re.compile(r'◎片  名(?P<movie>.*?)<br />.*?'r'<td style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="(?P<download>.*?)">', re.S)result1 = obj1.finditer(resp.text)
child_href_list = []for it in result1:ul = it.group('ul')#print(ul)#提取子页面链接result2 = obj2.finditer(ul)for itt in result2:#href = itt.group("href")# 拼接子页面的url地址: 域名 + 子页面地址# print(href)  #拿到一堆链接,如:/i/105505.htmlchild_href = domain + itt.group("href").strip("/")#print(child_href) # https://www.dytt89.com/i/105057.htmlchild_href_list.append(child_href) #把子页面链接保存到列表# 提取子页面内容
for href in child_href_list:child_resp = requests.get(href)child_resp.encoding = 'gb2312'#print(child_resp.text)result3 = obj3.search(child_resp.text)print(result3.group("movie"))print(result3.group("download"))#break  # 测试用,此时只会拿到一条数据就退出循环

python3学习之路 -- 9.1.4)- 获取yemian内容练习相关推荐

  1. python3 学习之路1

    Python学习之路 参考书目: 0.趣学Python编程--Python for kids 1.父与子的编程之旅--和小卡特一起学Python 2.Python编程快速上手--让繁琐工作自动化 3. ...

  2. Python3学习之路

    python基础知识点 1.python基础知识点汇总 2.python常用数据类型 3.python之列表 4.python之字符串 5.python常用数据运算符 6.python之字典 7.py ...

  3. python3学习之路 -- 7)初级练习4 - 支付密码、账号、价格竞猜、星座

    #实操案例4 -- 任务1 -- 支付密码验证 pwd = input('支付宝支付密码:') if pwd.isdigit():print('支付数据合法!') else:print('支付数据不合 ...

  4. python3学习之路 -- 7)初级练习15 - 千年虫、购物车

    1.enumerate可以打印索引和列表值 enumerate(sequence, [start=0]) sequence – 一个序列.迭代器或其他支持迭代对象. start – 下标起始位置. e ...

  5. python3学习之路 -- 7)初级练习12 -- 乐器、车 - 类(面向对象 - 封装、继承、多态)

    # 实操案例13 -- 任务1 -- 乐器 - 类 class Instrument(): #定义一个乐器类def make_sound(self): #定义一个发声的函数passclass Erhu ...

  6. h5获取http请求头_java学习之路(2),http协议,request类

    java学习之路(2),http协议,request类 java学习之路(2),http协议,request类 1.一个httpServlet的多个地址定义 对于httpServlet可以定义一个数组 ...

  7. AI 学习之路——轻松初探 Python 篇(三)

    喜欢小之的文章的可以关注公众号「WeaponZhi」持续关注动态 这是「AI 学习之路」的第 3 篇,「Python 学习」的第 3 篇 Python 字符串使用和 C 语言比较类似,但还有一些我们值 ...

  8. python 爬虫 包_python爬虫学习之路-抓包分析

    利用浏览器抓包,是爬虫中的很实用的技能.在爬虫编程之前,我们要对抓取的目标页面有所了解,比如浏览器的这个请求这个页面中间都经历了什么,数据是怎么发送和返回的. 抓包的作用 我把抓包分析的作用简单列一下 ...

  9. Python学习之路9☞面向对象的程序设计

    Python学习之路9☞面向对象的程序设计 一 面向对象的程序设计的由来 见概述:http://www.cnblogs.com/linhaifeng/articles/6428835.html 二 什 ...

最新文章

  1. mr图像翻转的原因_CSS图片翻转例子
  2. 014_TimePicker时间选择器
  3. 【Git 】命令总结记录
  4. Facebook揭秘其应用测试平台,并开源核心技术
  5. Identity和IdentityServer的区别及联系
  6. 【Leetcode | 01】Backtracking
  7. 描写计算机老师上课的神态,请你用一段话描写一位老师上课的情景,注意抓住神态语言动作等细节...
  8. dell屏幕亮度调节不了_?戴尔XPS13 7390笔电测评:10代酷睿加持,屏幕/散热/续航升级...
  9. 两个有序链表序列的交集_剑指offer第21天:合并两个有序链表
  10. 在Razor中如何引入命名空间?(import namespace in razor view)
  11. [leetcode]746. 使用最小花费爬楼梯
  12. winscp连接Linux步骤
  13. 湖南师范大学计算机网络基础教学平台,基于网络的师徒式教学平台的设计与实现...
  14. 丁磊力荐 网易卡搭编程构建国内首个开放生态
  15. Python oct()函数
  16. 电脑计算机显示向程序发送命令时出现问题,word提示向程序发送命令时出现问题怎么解决 wo...
  17. html表单站内搜,网站集成百度、Bing必应搜索引擎,在网页中实现站内全文搜索...
  18. 任正非的忠告:不赚钱的产品就关闭压缩
  19. 专题·置换【including 置换,置换快速幂,洛谷·[HNOI2001]洗牌机
  20. 数据处理小工具:Excel 批量数据文件拆分/整合器...

热门文章

  1. 【Web安全】常见的网站安全及解决方案
  2. 独立开发变现周刊(第82期):开发一个在线PDF编辑器,年收入50万美元
  3. DateTimePicker
  4. GetLastError
  5. internal_error:xst:cmain.c:3423:1.29
  6. Spring Cloud云服务架构 - commonservice-config配置服务搭建
  7. 实习周记(附):学习笔记
  8. swift使用相机拍照
  9. Windows 照片查看器无法显示此图片,因为计算机上的可用内存可能不足
  10. 今日睡眠质量记录70