Python爬取De下载站相关代码,因为没有设置代理,所以爬到800页左右就被干掉了,后续要加上

import urllib.request
import bs4
import re
import time
from  multiprocessing import Pool
class getLink(object):def __init__(self,url):self.url = urldef main(self):downFile = open("down.txt", "w", encoding='utf-8')downFile.truncate()i = 0page = 1for urlSingle in self.url:result = self.getResult(urlSingle)print("第%d" % (page) + "页")downFile.write("第%d" % (page) + "页\n")page += 1for rs in result:pid, Name = self.getInfo(rs)DownUrl0, DownUrl1 = self.getDownUrl(pid)i += 1print("*******************************************")print("正在爬取第%d" % (i) + "个 " + "电影名称: " + Name)downFile.write("--------")downFile.write("第%d" % (i) + "个" + Name + "\n")downFile.write("英语中字: " + DownUrl0 + "\n")downFile.write("中英双字: " + DownUrl1 + "\n")def getResult(self,url):#shift+tab 同时左移headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36Name"}html = urllib.request.Request(url, headers=headers)response = urllib.request.urlopen(html).read().decode('utf-8')# 获取pid与电影name# 设置正则匹配规则pat1bs = bs4.BeautifulSoup(response, "lxml")result = bs.find_all(class_="main_top")return resultdef getInfo(self,result):# 获取名字Name = result.find('a').getText()# 获取hrefhref = result.find('a').get('href')# 获取pidstr1 = href.split('.')str2 = str1[2].split('/')pid = str2[4]return pid, Namedef getDownUrl(self,pid):DownUrl0 = "http://www.dexiazai.cc/newdown/?pid=" + pid + "&linkn=0"DownUrl1 = "http://www.dexiazai.cc/newdown/?pid=" + pid + "&linkn=1"return DownUrl0, DownUrl1
if __name__ == '__main__':pool = Pool(4)url = []for i in range(1467):url.append("http://www.dexiazai.cc" + "/plus/list.php?tid=50&PageNo=" + str(i))Link = getLink(url)#Link.main()pool.map_async(Link.main())pool.close()pool.join()

python基础学习路线:点击打开链接

Python爬取De下载站相关代码相关推荐

  1. python代码示例下载-python爬取音频下载的示例代码

    抓取"xmly"鬼故事音频 import json # 在这个url,音频链接为JSON动态生成,所以用到了json模块 import requests headers = { & ...

  2. python爬虫公众号音频源代码_python爬取音频下载的示例代码

    抓取"xmly"鬼故事音频 import json # 在这个url,音频链接为JSON动态生成,所以用到了json模块 import requests headers = { & ...

  3. python关于二手房的课程论文_基于python爬取链家二手房信息代码示例

    基本环境配置 python 3.6 pycharm requests parsel time 相关模块pip安装即可 确定目标网页数据 哦豁,这个价格..................看到都觉得脑阔 ...

  4. 用python爬取冰冰B站千条评论,我发现了这些...

    Python爬取 冰冰 第一条B站视频的千条评论,绘制词云图,看看大家说了什么吧 B站当日弹幕获取冰冰B站视频弹幕爬取原理解析 数据分析 import pandas as pd data = pd.r ...

  5. python爬取豆瓣电影top250的代码_Python爬虫——爬取豆瓣电影Top250代码实例

    利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Excel表中 ...

  6. python爬取并下载代码_python 爬取并批量下载网易云歌单源代码

    #!/usr/bin/env python#!--*--coding:utf-8 --*-- #![url=home.php?mod=space&uid=238618]@Time[/url]  ...

  7. python爬取视频--下载2019巴菲特股东大会直播视频

    项目背景 今天一个朋友想下载东方财富网上的2019巴菲特股东大会直播视频,我觉得还挺有趣,之前没有爬取过视频,所以研究了下,用python实现了爬取这个视频. 其实,以现在的带宽网速及wifi普及,我 ...

  8. python 爬取网页照片!全代码!指定数量,指定目录,爬取过程详细!关于有下载照片过程但是不显示照片的问题的解释

    作者:untilyouydc 原文:https://blog.csdn.net/qq_40774175/article/details/81273198 原博主解释比较详细,有些知识还附带上了链接解释 ...

  9. 使用python爬取电影下载地址并使用transmissionrpc下载

    说明 python练手,爬取电影天堂的新电影,获取到磁力链接,输出到日志文件,使用transmissionrpc下载, 涉及知识点: 1.python 操作mongodBD,参考文档 2.Beauti ...

最新文章

  1. table 锁定表头
  2. Oracle 触发器的使用小结
  3. 对于机器学习中,数据增强
  4. 1个不为人知的 Jupyter notebook 使用技巧,今天分享出来。
  5. 计算机网络 | 应用层 :HTTP协议详解
  6. linux编译libevent
  7. Hive体系结构(四)注意事项与扩展特性
  8. TypeScript 类装饰器的一个例子和使用单步调试搞清楚其运行原理
  9. 51单片机——SPI
  10. ORA-00997: 非法使用 LONG 数据类型
  11. 数字图像处理(七) 图像分割
  12. 计算机方向关键字,从计算机的角度理解volatile关键字
  13. 中国人工智能人才培养白皮书
  14. 【STC15】定时器/计数器的相关寄存器解读
  15. sqlserver transact-sql UPDATE tran 用事务处理更新语句
  16. JAVA数据结构之Map和Set
  17. android rom结构_如何将新的ROM刷新到您的Android手机
  18. Discuz!您当前的访问请求当中含有非法字符,已经被系统拒绝!
  19. 顺序表前m和后n元素交换位置
  20. [Excel 替换数字/数值格式混乱] ,txt协助解决

热门文章

  1. 双路服务器芯片组的发展
  2. 不使用插件,小程序也能完整的渲染富文本(视频展现,图片自适应)
  3. contiki学习笔记(七)contiki系统
  4. 视频基本术语介绍 码流、帧率、分辨率、I帧、带宽
  5. lintcode 873 模拟松鼠(JavaScript)
  6. You have to use a classifier to attach supplemental artifacts to the project instead of replacing th
  7. 个人逾期,失信黑名单
  8. 哈希传递PTH、密钥传递PTT、票据传递PTK的实现和比较
  9. dva model数据管理
  10. 灰、黄、蓝三种颜色的收集装置模型练习及实现思路