爬取千库网ppt_python爬取千库网

但是点进去就没了

这里先来测试是否有反爬虫

import requests

from bs4 import BeautifulSoup

import os

html = requests.get(‘https://i588ku.com/beijing/0-0-default-0-8-0-0-0-0-1/‘)

print(html.text)

输出是404，添加个ua头就可以了

可以看到每个图片都在一个div class里面，比如fl marony-item bglist_5993476，是3个class但是最后一个编号不同就不取

我们就可以获取里面的url

import requests

from bs4 import BeautifulSoup

import os

headers = {

‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36‘

}

html = requests.get(‘https://i588ku.com/beijing/0-0-default-0-8-0-0-0-0-1/‘,headers=headers)

soup = BeautifulSoup(html.text,‘lxml‘)

Urlimags = soup.select(‘div.fl.marony-item div a‘)

for Urlimag in Urlimags:

print(Urlimag[‘href‘])

输出结果为

//i588ku.com/ycbeijing/5993476.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5991004.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5990729.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5991308.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5990409.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5989982.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5978978.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5993625.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5990728.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5951314.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5992353.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5993626.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5992302.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5820069.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5804406.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5960482.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5881533.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5986104.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5956726.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5986063.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5978787.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5954475.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5959200.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5973667.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5850381.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5898111.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5924657.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5975496.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5928655.html

//i588ku.com/comnew/vip/

//i588ku.com/ycbeijing/5963925.html

//i588ku.com/comnew/vip/

这个/vip是广告，过滤一下

for Urlimag in Urlimags:

if ‘vip‘ in Urlimag[‘href‘]:

continue

print(‘http:‘+Urlimag[‘href‘])

然后用os写入本地

import requests

from bs4 import BeautifulSoup

import os

headers = {

‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36‘

}

html = requests.get(‘https://i588ku.com/beijing/0-0-default-0-8-0-0-0-0-1/‘,headers=headers)

soup = BeautifulSoup(html.text,‘lxml‘)

Urlimags = soup.select(‘div.fl.marony-item div a‘)

for Urlimag in Urlimags:

if ‘vip‘ in Urlimag[‘href‘]:

continue

# print(‘http:‘+Urlimag[‘href‘])

imgurl = requests.get(‘http:‘+Urlimag[‘href‘],headers=headers)

imgsoup = BeautifulSoup(imgurl.text,‘lxml‘)

imgdatas = imgsoup.select_one(‘.img-box img‘)

title = imgdatas[‘alt‘]

print(‘无水印:‘,‘https:‘+imgdatas[‘src‘])

if not os.path.exists(‘千图网图片‘):

os.mkdir(‘千图网图片‘)

with open(‘千图网图片/{}.jpg‘.format(title),‘wb‘)as f:

f.write(requests.get(‘https:‘+imgdatas[‘src‘],headers=headers).content)

import requests

from bs4 import BeautifulSoup

import os

headers = {

‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36‘

}

for i in range(1,11):

print(‘正在下载第{}页‘.format(i))

html = requests.get(‘https://i588ku.com/beijing/0-0-default-0-8-0-0-0-0-{}/‘.format(i),headers=headers)

soup = BeautifulSoup(html.text,‘lxml‘)

Urlimags = soup.select(‘div.fl.marony-item div a‘)

for Urlimag in Urlimags:

if ‘vip‘ in Urlimag[‘href‘]:

continue

# print(‘http:‘+Urlimag[‘href‘])

imgurl = requests.get(‘http:‘+Urlimag[‘href‘],headers=headers)

imgsoup = BeautifulSoup(imgurl.text,‘lxml‘)

imgdatas = imgsoup.select_one(‘.img-box img‘)

title = imgdatas[‘alt‘]

print(‘无水印:‘,‘https:‘+imgdatas[‘src‘])

if not os.path.exists(‘千图网图片‘):

os.mkdir(‘千图网图片‘)

with open(‘千图网图片/{}.jpg‘.format(title),‘wb‘)as f:

f.write(requests.get(‘https:‘+imgdatas[‘src‘],headers=headers).content)

原文：https://www.cnblogs.com/yicunyiye/p/13666054.html

爬取千库网ppt_python爬取千库网相关推荐

python爬取历史天气查询_Python爬取南京历史天气数据（2345天气网）
最近学习了如何在2345天气网上爬取历史天气数据,并使用pandas库对数据进行清洗和导出.不过,本文方法对其它网站并不一定适用,主要是记录一种思考的方式. 南京的历史天气数据在这个网站上:http: ...
Scrapy入门、当当网商品爬取实战
文章目录一.如何创建Scrapy爬虫项目二.Scrapy的一些指令说明三.当当网商品爬取实战一.如何创建Scrapy爬虫项目 (1) Win+R 打开cmd,假如我要在F盘的Scrapy文件中 ...
入门小远学爬虫（二）（四）简单GET型网页爬虫实战——“前程无忧”爬虫岗位信息的爬取之正则概念以及Python中re库的简单应用
文章目录前言一.正则表达式是什么? 二.正则表达式语法 1.简介 2.干货分享三.re库 1.安装 2.用法四.终于进入正题小结前言这是本系列第一个实战项目的第四课,有关前三课相关的内容 ...
python爬虫网络数据包_Python爬虫之多线程图虫网数据爬取（十六）
Python爬虫之多线程图虫网数据爬取(十六) 发布时间:2019-05-14 10:11, 浏览次数:289 , 标签: Python 原创不易,转载前请注明博主的链接地址:Blessy_Zhu h ...
爬虫基本库request使用—爬取猫眼电影信息
使用request库和正则表达式爬取猫眼电影信息. 1.爬取目标猫眼电影TOP100的电影名称,时间,评分,等信息,将结果以文件存储. 2.准备工作安装request库. 3.代码实现 1 imp ...
知网爬虫——爬取某个主题下的文章标题以及发表时间
前几天帮朋友做了个知网的爬虫,爬取了"新闻传播"主题下的文章标题及发表时间:自己拖拖拉拉写了2天才写完,自己还是太弱了.个人认为这个作为一个练手的爬虫小项目还是不错的,于是写了主要 ...
Python-使用正则表达式爬取斗破苍穹小说文字内容（使用Requests库实现）
**Python-爬取斗破苍穹小说文字内容(使用Requests库实现) ** 本次爬取的小说网站为:斗破小说网点击直达网站首页,本人爬取的网站里面的天斗破苍穹,你也可以根据文中提供的代码爬取其他的小 ...
北京二手房链家网数据爬取
直接放代码 # -*- coding: utf-8 -*- # @Time : 2022/12/23 20:46import re # 正则表达式 import json from numpy imp ...
多线程爬虫实战--彼岸图网壁纸爬取
多线程爬虫实战–彼岸图网壁纸爬取普通方法爬取 import requests from lxml import etree import os from urllib import requesth ...

爬取千库网ppt_python爬取千库网

爬取千库网ppt_python爬取千库网相关推荐

最新文章

热门文章