文章目录

  • 前言
  • 一、爬虫是什么?
  • 二、使用步骤

    1.引入库

    2.文件夹准备

    3.将列表存储为txt格式文件

    4.爬取每日更新页面具体代码:

    5.运行结果

  • 总结

前言

根据基本的爬虫知识,爬取快看漫画每日更新模块的漫画名,对应漫画的描述和对应的封面图片。


一、爬虫是什么?

爬虫是通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。

二、使用步骤

1.引入库

代码如下:

import itertools
import requests

2.文件夹准备

在该程序下创建一个同级的image文件夹,用来存放下载的每日更新漫画封面图片。

3.将列表存储为txt格式文件

代码如下:

def listTxt(list, path):file = open(path, 'w', encoding='utf-8')for l in list:l = str(l) # 强制转换if l[-1] != '\n':l = l + '\n'file.write(l)flie.colse()print(f"{path}文件存储成功")

4.爬取每日更新页面具体代码:

代码如下:

# @ClassName 快看
# @Description TODO:(爬取《快看》漫画每日更新模块,每天按时爬取并保存到kkmh.txt文件中,并将爬取的图片保存到image文件夹中)
import itertools
import requests# 将列表存储为txt格式文件
def listTxt(list, path):file = open(path, 'w', encoding="utf-8")for l in list:l = str(l)  # 强制转换if l[-1] != '\n':l = l + '\n'file.write(l)file.close()print(f"{path}文件存储成功")# 图片下载
def download_img(url_info):num = 1# 遍历匹配成功的链接for img in url_info:print(img)response = requests.get(img)image = response.content# 将下载的图片保存到对应的文件夹中with open('./image/%s.jpg' % num, 'wb') as fb:fb.write(image)print("正在下载第%s张图片" % num)num = num + 1print("下载完成!")# 接口
url = 'https://www.kuaikanmanhua.com/v2/pweb/daily/topics?pos=0'
# 常用请求头信息:
#     User-Agent:请求载体的身份标识
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36 Edg/111.0.1661.44"
}# 获取页面的源码
response = requests.get(url=url, headers=headers)
code = response.json()['code']  # 获取状态码
if code == 200:topics = response.json()['data']['topics']# print(type(topics))titles = ["漫画名: " + topic['title'] for topic in topics]descriptions = ["描述: " + topic['description'].replace('\n', ' ') for topic in topics]image = [topic['vertical_image_url'] for topic in topics]download_img(image)# print(titles)# print(descriptions)kkmh = list(itertools.chain.from_iterable(zip(titles, descriptions)))  # list交替合并# print(kkmh)listTxt(kkmh, './kkmh.txt')
else:print("网页访问错误")

5.运行结果

下载成功的图片存入到了image文件夹中,漫画名和相应的描述存入了txt文件中。

注:1、由于是异步请求,所以没有使用BeautifulSoup进行解析。

2、 实现每日爬取这个功能,可以用宝塔面板中的“计划任务”功能,设置如下图。


总结

以上就是今天我分享的内容,一个爬取快看漫画每日更新模块的简单教程。和大家一起进步呀!Fighting!!!

Python爬虫,爬取快看漫画每日更新模块相关推荐

  1. Python爬虫-爬取快看漫画网图片并拼接成漫画长图

    Python爬虫-爬取快看漫画网图片并拼接成漫画长图 1.爬取图片 2.拼接图片 1.爬取图片 import os import requests from bs4 import BeautifulS ...

  2. python自动爬取快看漫画并发布至头条号(没编程基础也可学会)

    一,介绍 1.简介:这是一个可以自动爬取快看漫画上的漫画,下载到本地,并自动发布到今日头条号的编程,无编程基础的人也可学会 2.学习: 1)对于学习python技术的,你可以学习python爬虫技术 ...

  3. Python爬虫爬取网站小漫画

    python爬取小漫画 最近在google冲浪的时候发现一个很有意思的漫画网站,可以看韩国的小漫画,但是只可以看很少的一部分,后面的需要付费观看,于是就想着怎么才能免费看到这个网站的所有漫画. 于是我 ...

  4. python爬虫——爬取快读小说app

    1. 爬取结果(csv文件,出现了有两个表头-不明所以,无关大雅) 2. 使用fiddler4进行抓包 通过观察url,我们不难发现其中的规律,要实现进行分类抓取,需要更改url第一个数字,如下 ht ...

  5. python爬虫--爬取9某1看剧网电视剧

    文章目录 python爬虫--爬取91看剧网电视剧 爬取视频必备知识 思路 代码 合并视频 python爬虫–爬取91看剧网电视剧 爬取视频必备知识 https://www.91kanju.com/v ...

  6. Python爬虫---爬取腾讯动漫全站漫画

    Python爬虫---爬取腾讯动漫全站漫画 操作环境 网页分析 明确目标 提取漫画地址 提取漫画章节地址 提取漫画图片 编写代码 导入需要的模块 获取漫画地址 提取漫画的内容页 提取章节名 获取漫画源 ...

  7. python爬虫爬取必应每日高清壁纸

    python爬虫爬取必应每日高清壁纸 一.简介 二.使用的环境 三.网页分析 1.分析网页每一页url形式以及总页数 2.网页重要信息收集 3.在源码中寻找所需信息的位置 四.代码实现 五.运行爬虫 ...

  8. python爬虫爬取网页新闻标题-看完保证你会

    python爬虫爬取网页新闻标题方法 1.首先使用浏览自带的工具--检查,查找网页新闻标题对应的元素位置,这里查到的新闻标题是在 h3 标签中 2.然后使用编辑器编写python代码 2.1方法一: ...

  9. python爬虫数据分析可以做什么-python爬虫爬取的数据可以做什么

    在Python中连接到多播服务器问题,怎么解决你把redirect关闭就可以了.在send时,加上参数allow_redirects=False 通常每个浏览器都会设置redirect的次数.如果re ...

最新文章

  1. Linux 查看磁盘分区、文件系统、磁盘的使用情况相关的命令和工具介绍
  2. 216. 组合总和 III017(回溯法求解)
  3. [article]回忆录的开始
  4. 生活中的七个语音识别经典应用
  5. 企业安全管理的内外合规之ISO27001标准详解
  6. 用Python模拟一个区域广播通信网络 2020年4月认证杯数学建模比赛代码
  7. 从零开始Ubuntu16.04+ORBSLAM2+ROS实验实录(四):ORBSLAM评估工具EVO的使用
  8. 从《乔家大院》悟企业留人
  9. 工程项目成本费用明细表_工程施工合同成本费用明细表有哪些
  10. 使用终端模拟器通过wifi连接eclipse
  11. sublimeText3编辑器使用大全
  12. 【Android之SmartImageView图片控件】
  13. xshell免费版下载教程
  14. U-boot 对UEFI的支持
  15. Arduino开发板使用矩阵键盘的方法
  16. flvplayer.swf、flv视频播放器使用方法
  17. java 日历签到功能_Android 在日历的基础上实现签到功能
  18. spyder python 使用_如何在spyder中使用vpython?
  19. Android TextView 自动排版工具类
  20. IntelliJ IDEA中文插件

热门文章

  1. A - Artwork ( 并查集 )
  2. 计算机组成原理百道必考大总结(下)
  3. 高通平台wifi命令操作
  4. 学习FPGA绝佳网站推荐
  5. 数据分析实战二:爬取淘宝商品详情页进行分析
  6. 错误:安装autocad2012的时候提示Command line option syntax error.Type Command/?for help.
  7. 世界著名设计公司-网址介绍
  8. YAML详解 是什么
  9. 微信协议pc微信协议
  10. 企微有客户流失提醒功能吗?如何设置?