好无聊啊~ 来试试用Python采集下载漫画【附原码哟~】
前言
嗨嗨,大家好~
前段时间看小说看的上头,现在有点腻了,开始看漫画了
今天就来用Python采集一下漫画吧
就随便爬一个,大家搞清楚思路后,可以自己去采集自己喜欢看的漫画哦
知识点:
- 爬虫基本流程
- 保存海量漫画数据
- requests的使用
- base64解码
开发环境:
- 版 本:python 3.8
- 编辑器:pycharm
- requests: pip install requests
- parsel: pip install parsel
如何安装python第三方模块:
win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests)回车
在pycharm中点击Terminal(终端) 输入安装命令
实现代码:
- 发送请求
- 获取数据
- 解析数据
- 保存数据
代码
import base64
import requests
import re
import json
import parsel
import os
# 伪装
headers = {# 用户信息'cookie': '__AC__=1; tvf....
原码.点击即可领取 【备注:苏】
select = parsel.Selector(requests.get(main_url, headers=headers).text)
title_list = select.css('.chapter-page-all.works-chapter-list li a::text').getall()
link_list = select.css('.chapter-page-all.works-chapter-list li a::attr(href)').getall()for title, link in zip(title_list, link_list):url = 'https://ac.qq.com' + linktitle = title.strip()if not os.path.exists(f'中国惊奇先生/{title}'):os.makedirs(f'中国惊奇先生/{title}')python学习交流Q群:770699889 ### 源码领取# 1. 发送请求response = requests.get(url=url, headers=headers)print(title, url)# 2. 获取数据html_data = response.text# 3. 解析数据DATA = re.findall("var DATA = '(.*?)'", html_data)[0]for i in range(len(DATA)):try:json_str = base64.b64decode(DATA[i:].encode("utf-8")).decode("utf-8")json_str = re.findall('"picture":(\[.*?\])', json_str)[0]# 字符串 转 字典/列表json_list = json.loads(json_str)count = 1for imgInfo in json_list:imgUrl = imgInfo['url']print(imgUrl)# 4. 保存数据img_data = requests.get(url=imgUrl).contentwith open(f'中国惊奇先生/{title}/{count}.jpg', mode='wb') as f:f.write(img_data)count += 1breakexcept:pass
最后效果
最后
给大家推荐一些Python视频教程,希望对大家有所帮助:
觉得我分享的文章不错的话,可以关注一下我,或者给文章点赞(/≧▽≦)/
好无聊啊~ 来试试用Python采集下载漫画【附原码哟~】相关推荐
- 担心你的文章图片被盗?试试用python加水印
引言 你是不是担心,辛辛苦苦做的图表被盗用? 试试用python加上你的专属水印,让盗版无所遁形. 只需几行代码,比用ps软件操作更简单.更快捷. 方式一:叠加文字水印 最简单的一种方式是,在图片上绘 ...
- 分享Python采集99个VB源码,总有一款适合您
分享Python采集99个VB源码,总有一款适合您 Python采集的99个VB源码下载链接:https://pan.baidu.com/s/1Ljs41rWn_WxvGqFWCkmGsA?pwd=1 ...
- 分享Python采集77个VB源码,总有一款适合您
分享Python采集77个VB源码,总有一款适合您 Python采集的77个VB源码下载链接:https://pan.baidu.com/s/15jH2rxm5RXt7g9uIUFxYhA?pwd=2 ...
- AS2.0列表带图片视频播放器【附原码下载】
AS2.0列表带图片视频播放器[附原码下载] http://km258369.blog.163.com/blog/static/2390120112016101914615450 原码下载链接:htt ...
- 【Python】实现一个小说下载器,可以打包成exe(附原码)
前言 闲的无聊,现在没得什么好剧追(你们或许可以给我推荐推荐) 朋友都在看小说,那我就来用Python搞一个小说下载器吧 顺便打包一下 实现步骤 爬虫基本四个步骤: 采集一章小说内容 发送请求, 模拟 ...
- 100个Python实战项目(附源码),练完即可就业,从入门到进阶
前言: "读"代码是不能给你带来任何收益的,正如"读书"一样,如果在读的时候你不琢磨,保管你读完仨月准忘了一大半.真正需要的是去"试"代码, ...
- Python实现物流管理系统(附源码)
前言 基于Django实现的物流管理系统,工作时忙里偷闲写的练手项目. 特点 前端基于Bootstrap 4框架和AdminLTE框架. 使用MySQL作为数据库后端. 实现了运单录入.发车出库.到货 ...
- 【Python】一文弄懂python装饰器(附源码例子)
目录 前言 一.什么是装饰器 二.为什么要用装饰器 三.简单的装饰器 四.装饰器的语法糖@ 五.装饰器传参 六.带参数的装饰器 七.类装饰器 八.带参数的类装饰器 九.装饰器的顺序 总结 写在后面 前 ...
- python基础运算符讲解(原码、补码、反码)
Python 1.Python基础 python是一门弱类型(PHP,python,Javascript,ruby)的语言,变量的类型不固定,当输入值是什么类型时,变量就会变成什么类型. 那什么是强数 ...
最新文章
- 一个代理商×××条件
- 计算机信息管理技术 互联网,计算机信息管理技术在网络安全中的运用思路
- linux 安装 apache+mysql+php
- $\mathbb{R}^n$中点集概念梳理
- 命名空间_python基础 13 类命名空间于对象、实例的命名空间,组合方法
- 初识jQuery(适合初学者哟.........)
- mysql从dos界面_从DOS界面进入MYSQL数据库
- 探果(简称tamguo)是基于java开发的在线题库系统
- wpf 轮询mysql数据库_WPF非轮询方式实时更新数据库变化SqlDependency
- 对话Pauly Comtois:赫斯特商业媒体中的企业DevOps采用
- python如何画出多个独立的图片_python使用matplotlib:subplot绘制多个子图的示例
- 异或运算符 判断奇偶
- puppet详解(四)——package资源详解
- 转行之后,我为什么选择做软件测试
- 【基础知识】~ 锁存器/触发器、寄存器
- 请注意:黑客开始用云隐藏IP地址
- 服务器一直即将注销你的登录,win10系统提示即将注销你的登录如何解决
- AIX7.1 安装配置 EMC CLARiiON 存储驱动软件
- 计算机专业二级证书有哪些科目,国家计算机二级考试都有哪些科目以及考核形式?...
- 初级会计难吗,用不用报班,自学可以吗?速看!