# 1. 定位到2021必看片
# 2. 从2021必看片中提取到子页面的链接地址
# 3. 请求子页面的链接地址. 拿到我们想要的下载地址....
import requests
import redomain = "https://www.dytt89.com/"
requests.packages.urllib3.disable_warnings()#这里是Python3访问HTTPS时移除SSL认证,但移除认证后控制台总是抛出警告,根据提示路径https://urllib3.readthedocs.io/en/latest/advanced-usage.html#ssl-warnings可找到方法一些解决办法,简单的办法可用移除警告:disable_warnings()在请求代码前添加如如上代码即可。
resp = requests.get(domain, verify=False)  # verify=False 去掉安全验证
resp.encoding = 'gb2312'  # 指定字符集
# print(resp.text)# 拿到ul里面的li
obj1 = re.compile(r"2021必看热片.*?<ul>(?P<ul>.*?)</ul>", re.S)
obj2 = re.compile(r"<a href='(?P<href>.*?)'", re.S)
obj3 = re.compile(r'◎片  名(?P<movie>.*?)<br />.*?<td 'r'style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="(?P<download>.*?)">', re.S)result1 = obj1.finditer(resp.text)
child_href_list = []
for it in result1:ul = it.group('ul')# 提取子页面链接:result2 = obj2.finditer(ul)for itt in result2:# 拼接子页面的url地址:  域名 + 子页面地址child_href = domain + itt.group('href').strip("/")child_href_list.append(child_href)  # 把子页面链接保存起来# 提取子页面内容
for href in child_href_list:child_resp = requests.get(href, verify=False)child_resp.encoding = 'gb2312'result3 = obj3.search(child_resp.text)print(result3.group("movie"))print(result3.group("download"))# break  # 测试用

正则表达式爬取电影天堂相关推荐

  1. python爬电影_使用Python多线程爬虫爬取电影天堂资源

    最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...

  2. #爬取电影天堂的磁力链接#

    #爬取电影天堂的磁力链接 百度百科对网络爬虫的定义:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外 ...

  3. 爬取电影天堂最新电影的名称和下载链接

    此次的目标是爬取电影天堂最新200页的最新电影的电影名称和下载链接,电影的下载链接在二级页面,所以需要先匹配一级页面的所有链接,然后逐个请求二级页面,代码如下: """爬 ...

  4. python爬电影天堂_python爬虫爬取电影天堂电影

    python爬虫爬取电影天堂电影?本项目实现一个简单的爬虫,通过requests和BeautifulSoup爬取电影天堂电影信息,包括片名.年代.产地.类别.语言.海报链接和视频链接等内容.pytho ...

  5. scrapy初步-简单静态爬虫(爬取电影天堂所有电影)

    之前用java写过一个简单的爬取电影天堂信息的爬虫,后来发现用python写这种简单的爬虫程序更简单,异步网络框架在不使用多线程和多进程的情况下也能增加爬取的速度,目前刚开始学scrapy,用这个写了 ...

  6. 使用 beautifulsoup4 爬取 电影天堂IMB 评分8.0以上的 欧美电影

    一.目的: 个人比较喜欢看欧美电影,最近刚学了爬虫,所以敲了这个程序 来爬取 电影天堂IMB 评分8.0以上的 欧美电影  跟大家分享一下. 二.爬取电影天堂需要掌握的基本技能: 1.熟悉python ...

  7. python软件安装链接电视_Python爬取电影天堂指定电视剧或者电影

    1.分析搜索请求 一位高人曾经说过,想爬取数据,要先分析网站 今天我们爬取电影天堂,有好看的美剧我在上面都能找到,算是很全了. 这个网站的广告出奇的多,用过都知道,点一下搜索就会弹出个窗口,伴随着滑稽 ...

  8. python爬取电影天堂新片精品模块电影列表,并用迅雷下载

    python版本是3.6.5,上代码: # 爬取电影天堂 from selenium import webdriver import requests from bs4 import Beautifu ...

  9. 爬取电影天堂最新电影(xpath结合lxml)

    完整代码 import requests from lxml import etree from openpyxl import WorkbookBASEURL='https://www.dytt8. ...

最新文章

  1. 很实用但经常忘的小常识
  2. 信号与系统课程向学校教务科需要提交的资料
  3. 并发异步处理队列 .NET 4.5+ (改进性能计数器) 2013-11-16
  4. Thread Per Message Pattern
  5. [Java] java中的接口定义
  6. 电脑显示链接网络正常但是不能上网,用某些软件会提示系统丢失libeay32.dll
  7. 计算机专业课教学,计算机专业课教学的原则和方法
  8. 剑指offer面试题17. 打印从1到最大的n位数
  9. jQuery 学习笔记 元素操作
  10. java 内省 反射_java 反射与内省
  11. 最新版云铺购ds网系统全开源可运营程序源码
  12. 软考高级 真题 2016年上半年 信息系统项目管理师 论文
  13. Windows系统服务器配置SSH服务
  14. 埋葬了我曾经的执着与思恋题记不过是所谓的世界末日
  15. cannot load facet kotlin
  16. Python基础学习(2)基本数据类型、三元运算、深浅拷贝、函数式编程、参数、变量、lambda表达式、python内置函数、文件处理、上下文管理、递归、命名空间、闭包
  17. VIN码识别/车牌识别:是入口,是门面
  18. 微信公众号点击菜单出现白屏问题探究
  19. 前端:Tomcat服务器部署Web项目
  20. 主成分回归的r语言代码

热门文章

  1. BeautifulSoup爬取国家政策网目标话题的10篇文章,以及基于jieba的关键字生成
  2. 《华林科纳-半导体工艺》 氧化锌单晶衬底表面差异导致的表面处理方法和外延生长工艺的区别
  3. gif透明背景动画_iPad Procreate入门笔记03 - GIF动画制作
  4. qt 弹出标签自动渐渐消失
  5. 2021年12月中国汽车发动机生产企业销售量排行榜:排名前三的企业销量环比均有所增长,且只销售汽油发动机(附月榜TOP58详单)
  6. 局域网访问互联网配置教程
  7. 高抛低吸,谁都知道,为什么还亏钱?
  8. 手机视频聚合App影响 视频网站转型堪忧
  9. Oracle从零基础到基础熟练
  10. MySql学习(七)排序和分页(order by limit),及存在的坑