import requests,redef getdetail(url):response = requests.get(url)#dytt的编码为gbk非utf-8html = response.content.decode('gbk')# 电影详情页标题movie_title_name = re.search('<h1><font color=#07519a>(.*)</f',html)movie_title = movie_title_name.group(1)# 电影 磁力   magnetmovie_magnet_url = re.search('/><a href="(.*)"><str',html)# print(movie_magnet.group(1))movie_magnet = movie_magnet_url.group(1)# torrent种子movie_torrent_url = re.search('ddf"><a href="(.*)">ft',html)movie_torrent = movie_torrent_url.group(1)# print(movie_torrent.group(1))# 这个列表用来titlemovie_title_list = []movie_title_list.append(movie_title)# 这个列表两个下载的链接movie_down_url = []movie_down_url.append(movie_magnet)movie_down_url.append(movie_torrent)movie_down_url_all = []movie_down_url_all.append(movie_down_url)#保持标题,磁力,种子的同步准确性movie_dict = dict(zip(movie_title_list,movie_down_url_all))print(movie_dict)def getpage():num = int(input('你要爬取多少页电影呢'))#获取每一页的urlfor i in range(1,num):lurl = 'http://www.dytt8.net/html/gndy/dyzz/list_23_%s.html' % iresponse = requests.get(lurl)html = response.text#取出电影详情页的urlmovie_url_list = re.findall('<a href="(.*)" class="ulink"',html)for movie_item in movie_url_list:movie_url = 'http://www.dytt8.net'+movie_itemgetdetail(movie_url)if __name__ == '__main__':getpage()

python实现电影天堂种子磁力的爬取相关推荐

  1. python爬虫电影信息_Python爬虫入门 | 爬取豆瓣电影信息

    这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬 ...

  2. #爬取电影天堂的磁力链接#

    #爬取电影天堂的磁力链接 百度百科对网络爬虫的定义:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外 ...

  3. Python爬虫小白教程(二)—— 爬取豆瓣评分TOP250电影

    文章目录 前言 安装bs4库 网站分析 获取页面 爬取页面 页面分析 其他页面 爬虫系列 前言 经过上篇博客Python爬虫小白教程(一)-- 静态网页抓取后我们已经知道如何抓取一个静态的页面了,现在 ...

  4. python爬虫多久能学会-不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据...

    原标题:不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据 Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方 ...

  5. 基于python爬虫————静态页面和动态页面爬取

    基于python爬虫----静态页面和动态页面爬取 文章目录 基于python爬虫----静态页面和动态页面爬取 1. 爬虫的原理 2. 用正则表达式匹配获取数据 3. 页面源码解析 4. 通过req ...

  6. 猫眼电影加密数字破解(爬取评分票房票价)

    title: 猫眼电影加密数字破解(爬取评分票房票价) toc: true date: 2018-07-01 22:05:27 categories: methods tags: 爬虫 Python ...

  7. python爬虫图片-如何用Python来制作简单的爬虫,爬取到你想要的图片

    原标题:如何用Python来制作简单的爬虫,爬取到你想要的图片 在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材. 我 ...

  8. python爬虫入门实战---------一周天气预报爬取_Python爬虫入门实战--------一周天气预报爬取【转载】【没有分析...

    Python爬虫入门实战--------一周天气预报爬取[转载][没有分析 Python爬虫入门实战--------一周天气预报爬取[转载][没有分析] 来源:https://blog.csdn.ne ...

  9. Python使用多进程提高网络爬虫的爬取速度

    多线程技术并不能充分利用硬件资源和大幅度提高系统吞吐量,类似需求应使用多进程编程技术满足. 以爬取中国工程院院士简介和照片为例,参考代码如下,请自行分析目标网页结构并与参考代码进行比对.另外需要注意, ...

最新文章

  1. 实操教程|使用图像分割来做缺陷检测的一个例子
  2. nn.embding()使用注意点
  3. 3.Ubuntu18.04取消警告音
  4. 网站SEO优化的高效手段有哪些?
  5. React Router 使用教程
  6. php 存储过程 sqlsrv_query,php-PHP如何得用sqlsrv函数来调用MSSQL中的存储过程,并返回数据集?...
  7. java三种经典的比对方法_几种任务调度的 Java 实现方法与比较
  8. 把lighttpd配置为系统服务
  9. 基于UDP协议的Java聊天室
  10. 进阶篇:4.2)DFA设计指南:优化装配工序
  11. 大学四年,因为这40个开发工具,我成为别人眼中的大神
  12. 计算机软硬件问题及解决方法(经验篇)
  13. 爱聚云店宝,荣获 “中国新零售联盟联合发起人”单位
  14. 射频中经常是用50欧姆作为阻抗匹配的标准的原因
  15. C语言中关键字const、typedef
  16. 赵雅智_名片夹(5)_Android中listview可折叠伸缩仿手风琴效果(动态)
  17. 基于ssm+vue的班级同学录网站管理系统 elementui
  18. 墨者学院-密码学加解密实训(摩斯密码第2题)
  19. 卷帘相机原理和卷帘门补偿(其中循环的理解)
  20. 对冲基金表现大盘点(一):DE Shaw

热门文章

  1. 魅族黄章深夜发文:雷军做小米不是因为我“不舍股份”
  2. 刺猬实习-IT类大学生实习平台
  3. 队长C罗继续选择了自己喜爱的7号球衣
  4. 《黑客与画家》——不能说的话
  5. 牛客15034 德玛西亚万岁(状压dp)
  6. 计算机省级教学团队建设,计算机教学团队建设
  7. 虚拟机kali2021安装Realtek 8811cu网卡驱动
  8. service endpoint with name xxx already exists.
  9. front在html的作用,HTML在Front,Page中的应用
  10. 火狐stylish插件解决BIOS之家没有滚动条问题