但是点进去就没了

这里先来测试是否有反爬虫

import requests

from bs4 import BeautifulSoup

import os

html = requests.get(‘https://i588ku.com/beijing/0-0-default-0-8-0-0-0-0-1/‘)

print(html.text)

输出是404,添加个ua头就可以了

可以看到每个图片都在一个div class里面,比如fl marony-item bglist_5993476,是3个class但是最后一个编号不同就不取

我们就可以获取里面的url

import requests

from bs4 import BeautifulSoup

import os

headers = {

‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36‘

}

html = requests.get(‘https://i588ku.com/beijing/0-0-default-0-8-0-0-0-0-1/‘,headers=headers)

soup = BeautifulSoup(html.text,‘lxml‘)

Urlimags = soup.select(‘div.fl.marony-item div a‘)

for Urlimag in Urlimags:

print(Urlimag[‘href‘])

输出结果为

//i588ku.com/ycbeijing/5993476.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5991004.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5990729.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5991308.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5990409.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5989982.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5978978.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5993625.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5990728.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5951314.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5992353.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5993626.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5992302.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5820069.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5804406.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5960482.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5881533.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5986104.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5956726.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5986063.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5978787.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5954475.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5959200.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5973667.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5850381.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5898111.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5924657.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5975496.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5928655.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5963925.html

//i588ku.com/comnew/vip/

这个/vip是广告,过滤一下

for Urlimag in Urlimags:

if ‘vip‘ in Urlimag[‘href‘]:

continue

print(‘http:‘+Urlimag[‘href‘])

然后用os写入本地

import requests

from bs4 import BeautifulSoup

import os

headers = {

‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36‘

}

html = requests.get(‘https://i588ku.com/beijing/0-0-default-0-8-0-0-0-0-1/‘,headers=headers)

soup = BeautifulSoup(html.text,‘lxml‘)

Urlimags = soup.select(‘div.fl.marony-item div a‘)

for Urlimag in Urlimags:

if ‘vip‘ in Urlimag[‘href‘]:

continue

# print(‘http:‘+Urlimag[‘href‘])

imgurl = requests.get(‘http:‘+Urlimag[‘href‘],headers=headers)

imgsoup = BeautifulSoup(imgurl.text,‘lxml‘)

imgdatas = imgsoup.select_one(‘.img-box img‘)

title = imgdatas[‘alt‘]

print(‘无水印:‘,‘https:‘+imgdatas[‘src‘])

if not os.path.exists(‘千图网图片‘):

os.mkdir(‘千图网图片‘)

with open(‘千图网图片/{}.jpg‘.format(title),‘wb‘)as f:

f.write(requests.get(‘https:‘+imgdatas[‘src‘],headers=headers).content)

import requests

from bs4 import BeautifulSoup

import os

headers = {

‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36‘

}

for i in range(1,11):

print(‘正在下载第{}页‘.format(i))

html = requests.get(‘https://i588ku.com/beijing/0-0-default-0-8-0-0-0-0-{}/‘.format(i),headers=headers)

soup = BeautifulSoup(html.text,‘lxml‘)

Urlimags = soup.select(‘div.fl.marony-item div a‘)

for Urlimag in Urlimags:

if ‘vip‘ in Urlimag[‘href‘]:

continue

# print(‘http:‘+Urlimag[‘href‘])

imgurl = requests.get(‘http:‘+Urlimag[‘href‘],headers=headers)

imgsoup = BeautifulSoup(imgurl.text,‘lxml‘)

imgdatas = imgsoup.select_one(‘.img-box img‘)

title = imgdatas[‘alt‘]

print(‘无水印:‘,‘https:‘+imgdatas[‘src‘])

if not os.path.exists(‘千图网图片‘):

os.mkdir(‘千图网图片‘)

with open(‘千图网图片/{}.jpg‘.format(title),‘wb‘)as f:

f.write(requests.get(‘https:‘+imgdatas[‘src‘],headers=headers).content)

原文:https://www.cnblogs.com/yicunyiye/p/13666054.html

爬取千库网ppt_python爬取千库网相关推荐

  1. python爬取历史天气查询_Python爬取南京历史天气数据(2345天气网)

    最近学习了如何在2345天气网上爬取历史天气数据,并使用pandas库对数据进行清洗和导出.不过,本文方法对其它网站并不一定适用,主要是记录一种思考的方式. 南京的历史天气数据在这个网站上:http: ...

  2. Scrapy入门、当当网商品爬取实战

    文章目录 一.如何创建Scrapy爬虫项目 二.Scrapy的一些指令说明 三.当当网商品爬取实战 一.如何创建Scrapy爬虫项目 (1) Win+R 打开cmd,假如我要在F盘的Scrapy文件中 ...

  3. 入门小远学爬虫(二)(四)简单GET型网页爬虫实战——“前程无忧”爬虫岗位信息的爬取之正则概念以及Python中re库的简单应用

    文章目录 前言 一.正则表达式是什么? 二.正则表达式语法 1.简介 2.干货分享 三.re库 1.安装 2.用法 四.终于进入正题 小结 前言 这是本系列第一个实战项目的第四课,有关前三课相关的内容 ...

  4. python爬虫网络数据包_Python爬虫之多线程图虫网数据爬取(十六)

    Python爬虫之多线程图虫网数据爬取(十六) 发布时间:2019-05-14 10:11, 浏览次数:289 , 标签: Python 原创不易,转载前请注明博主的链接地址:Blessy_Zhu h ...

  5. 爬虫基本库request使用—爬取猫眼电影信息

    使用request库和正则表达式爬取猫眼电影信息. 1.爬取目标 猫眼电影TOP100的电影名称,时间,评分,等信息,将结果以文件存储. 2.准备工作 安装request库. 3.代码实现 1 imp ...

  6. 知网爬虫——爬取某个主题下的文章标题以及发表时间

    前几天帮朋友做了个知网的爬虫,爬取了"新闻传播"主题下的文章标题及发表时间:自己拖拖拉拉写了2天才写完,自己还是太弱了.个人认为这个作为一个练手的爬虫小项目还是不错的,于是写了主要 ...

  7. Python-使用正则表达式爬取斗破苍穹小说文字内容(使用Requests库实现)

    **Python-爬取斗破苍穹小说文字内容(使用Requests库实现) ** 本次爬取的小说网站为:斗破小说网点击直达网站首页,本人爬取的网站里面的天斗破苍穹,你也可以根据文中提供的代码爬取其他的小 ...

  8. 北京二手房链家网数据爬取

    直接放代码 # -*- coding: utf-8 -*- # @Time : 2022/12/23 20:46import re # 正则表达式 import json from numpy imp ...

  9. 多线程爬虫实战--彼岸图网壁纸爬取

    多线程爬虫实战–彼岸图网壁纸爬取 普通方法爬取 import requests from lxml import etree import os from urllib import requesth ...

最新文章

  1. 机器学习(15)精确率召回率F1-score(查看癌症预测结果的精确率、召回率)
  2. MongoDB 文档的更新操作
  3. hadoopHA自动切换不成功的坑
  4. java下载pdf6_疯狂java讲义第6版 电子版(pdf格式)
  5. python3.8.2中文手册chm_springboot2.2.X手册:构建全局唯一的短链接数据中心
  6. 加密选项_视频会议Zoom 5.0版本重大更新,增强加密功能提供更多安全选项
  7. .NET 开源项目 StreamJsonRpc 介绍[中篇]
  8. [笔记] FireDAC DataSet 导入及导出 JSON
  9. 二刻拍案惊奇之——国人为什么那么轻视技术
  10. 关于Bugzilla WebService接口
  11. 计算机操作系统笔记(三)
  12. fedora 23 vlc 以root运行的方法
  13. 计算机telnet命令大全,Telnet命令
  14. 360卫士监测出APP有木马问题
  15. Spark之SparkSQL和DataFrame
  16. 辞职信微信html,微信退款处理.html
  17. lo linux 环回端口,本地环回接口lo The Loopback Network Interface lo--用Enki学Linux系列(2)...
  18. 当技术重构遇上DDD,如何实现业务、技术双赢?
  19. php 上标和下标,css如何显示文字的上标和下标
  20. linux keypad driver

热门文章

  1. NeurIPS 2022 | 一种基于毒性样本敏感性的有效后门防御!
  2. ISO19702毒性测试
  3. 优达学城机器学习之--支持向量机(SVM)
  4. 集齐ABCI四张牌,TA“召唤”了网安新风向!
  5. Jmeter—监听器之察看结果数、聚合报告
  6. java mysql选择题_MySQL选择填空基础题
  7. 列合并:两列 或 多列 合并为 一列
  8. Mac常见问题|Safari下载文件没有反应的解决方法
  9. 如何白嫖你需要的知识?
  10. matlab中的mkdir函数_matlab所有函数集合