爬取manhua.fzdm.com上的妖尾漫画
学习使我快乐
初学者,爬取manhua.fzdm.com上妖精的尾巴漫画,
没做任何防错设施和防爬虫设施,因为不会。。。
运行的时候过了好久才被发现,可能是网速太慢了
import requests
import re
import os#获得一页的响应
def get_one_page(url):headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4482.400 QQBrowser/9.7.13001.400'}response=requests.get(url,headers=headers)return response#在源码中找到图片的地址
def parse_one_page(html):pattern=re.compile('var\smhurl="(.*?)".*?var e.*?e.src="(.*?)"+',re.S)address=re.search(pattern,html)picture_address=address.group(2)+address.group(1)return picture_address#访问图片地址并保存
def get_picture(picture_address):r=requests.get(picture_address)with open(str(a)+'_'+str(b)+'.jpg','ab') as f:f.write(r.content)def main(a,b):html=response.textpicture_address=parse_one_page(html)result=get_picture(picture_address)if __name__=='__main__':os.mkdir('D:\\妖精的尾巴')os.chdir('D:\\妖精的尾巴')for a in range(420,515): #从420章到514章for b in range(1,30): #每一章从第1页找到29页,如果没20多页以后的网址,breakurl='http://manhua.fzdm.com/27/'+str(a)+'/index_'+str(b)+'.html' #27是这个网站上妖尾的。。。response=get_one_page(url)if response.status_code==200:main(a,b)else:break
爬取manhua.fzdm.com上的妖尾漫画相关推荐
- 爬取了京东商城上的部分手机评论数据,仅供学习使用
京东的手机评论数据爬虫,仅供学习使用 说明 爬取了京东商城上的部分手机评论数据.由于项目的数据量要求不大,仅仅采用了比较简单的方式来进行数据的爬取,过程分为两个部分: 根据不同的手机品牌选择了第一页的 ...
- 爬取智联招聘上的求职信息
爬虫爬取智联招聘上的求职信息,并将爬取的内容保存到文件中 链接:https://pan.baidu.com/s/1p4gn2enm_WnyqK_3kjnoaQ 提取码:prdb 复制这段内容后打开百度 ...
- 14. python爬虫——基于scrapy框架爬取糗事百科上的段子内容
python爬虫--基于scrapy框架爬取糗事百科上的段子内容 1.需求 2.分析及实现 3.实现效果 4.进行持久化存储 (1)基于终端指令 (2)基于管道 [前置知识]python爬虫--scr ...
- mooc上python课程哪个好_如何爬取中国大学MOOC上的课程信息
因为最近需要做一个关于课程类的项目,但苦于没有相关课程的信息及简介.当我在看MOOC上面的Python爬虫课程时,突然想到MOOC上面的课程信息如此完善,我为何不利用下MOOC上面的课程信息呢,说干就 ...
- 爬取智联招聘上24座热门城市中Java招聘信息
一.确定URL及其传递的参数 获取北京中Java的招聘信息url: 获取上海中Java的招聘信息url: 通过对比得知,url中传递了三个参数,jl代表城市的编号,kw代表职业,p代表当前在招聘页面的 ...
- python爬取安居客网站上北京二手房数据
目标:爬取安居客网站上前10页北京二手房的数据,包括二手房源的名称.价格.几室几厅.大小.建造年份.联系人.地址.标签等. 网址为:https://beijing.anjuke.com/sale/ B ...
- Python开发爬虫之BeautifulSoup解析网页篇:爬取安居客网站上北京二手房数据
目标:爬取安居客网站上前10页北京二手房的数据,包括二手房源的名称.价格.几室几厅.大小.建造年份.联系人.地址.标签等. 网址为:https://beijing.anjuke.com/sale/ B ...
- 我用Python爬取网易云音乐上的Hip-hop歌单,分析rapper如何押韵
缘起 <中国有嘻哈>这个节目在这个夏天吸引了无数的目光,也让嘻哈走进了大众的视野.作为我今年看的唯一一个综艺节目,它对我的影响也蛮大.这个夏天,我基本都在杭州度过,在上下班的taxi上,我 ...
- python爬取音乐并保存_Python爬取网易云音乐上评论火爆的歌曲
前言 网易云音乐这款音乐APP本人比较喜欢,用户量也比较大,而网易云音乐之所以用户众多和它的歌曲评论功能密不可分,很多歌曲的评论非常有意思,其中也不乏很多感人的评论.但是,网易云音乐并没有提供热评排行 ...
最新文章
- 太真实!当程序员接手了新项目...... | 每日趣闻
- linux 下载jdk
- 印度Thermax携FRENELL执行亚洲首个集成太阳能热电厂
- fifo 上使用 select -- 转
- Android studio 4.1 不显示光标当前的类名、方法名
- html图片postmultipart,sendmail-MIMEText-MIMEImage-MIMEMultipart.py——发送带图片的HTML格式报表...
- SAP Fiori Application Generator 在 Visual Studio Code 启动时遇到的错误消息
- django 1.8 官方文档翻译: 2-5-4 聚合 (初稿)
- 建立网站的全套流程与详细解释(转载)
- 实现点击打卡_打卡APP哪家强?快来看!这里有一款超好用的轻量级免费的习惯养成APP!...
- 探地雷达系统行业调研报告 - 市场现状分析与发展前景预测
- static_cast vs dynamic_cast
- 54. mysqli 扩展库
- python安卓手机编程入门自学_编程入门学习路线(附教程推荐)
- 计算机算法需要什么数学知识,计算机编程算法和数学有什么关系?
- 想让游戏代入感更强,要靠他。。
- vs2017 自定义背景图片
- *【华为机试真题详解】判断字符串子序列**
- IOS端 vux中scroll滚动自动回弹到顶部或者左侧的解决办法
- App Store审核条款更新:WWDC 2016重写版本
热门文章
- 计算机任务无法结束,简单几步解决win7任务管理器无法结束进程的问题
- 【蓝桥杯选拔赛真题07】python输出乘积 青少年组蓝桥杯python 选拔赛STEMA比赛真题解析
- 计算机辅助设计软件应用答案,专科《计算机辅助设计软件的应用》_试卷_答案.doc...
- 【序列建模】DIN深度兴趣网络
- MySQL函数(CREATE FUNCTION 函数名(参数列表) RETURNS 返回类型)
- HTML报错:UncaughtTypeError
- 双硬盘安装win10+ubuntu18.04双系统,U盘安装,UEFI引导
- Chrome浏览器 v71.0.3578.99
- 2020南京大学软件学院夏令营模拟机试题集
- Zotero使用指南03:扩充空间