python输入数据爬取_python根据用户需求输入想爬取的内容及页数爬取图片方法详解...

2024-04-13 03:17:54

本次小编向大家介绍的是根据用户的需求输入想爬取的内容及页数。

主要步骤：

1.提示用户输入爬取的内容及页码。

2.根据用户输入，获取网址列表。

3.模拟浏览器向服务器发送请求，获取响应。

4.利用xpath方法找到图片的标签。

5.保存数据。

代码用面向过程的形式编写的。

关键字：requests库，xpath,面向过程

现在就来讲解代码书写的过程：

1.导入模块

import parsel # 该模块主要用来将请求后的字符串格式解析成re,xpath,css进行内容的匹配

import requests # 爬虫主要的包

from urllib.request import urlretrieve # 本文用来下载图片

import os # 标准库，本文用来新建文件夹

每个模块的作用都已经备注了。

2.提示用户输入内容和页数

if not os.path.exists("王一博图片"):

os.mkdir("王一博图片") # 判断有没有该文件夹，如果没有就创建改文件夹

k = input("请输入你想搜索的关键字：")

num = int(input("请输入你想搜索的页数："))

3.准备好url和header

header = {"user-agent":

"Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Mobile Safari/537.36"

}

base_url = "https://www.duitang.com/search/?kw=" + k + "&type=feed#!s-p"

title_url = []

n = 0

user-agent是服务器识别浏览器的重要参数，我们就用这个来蒙骗服务器，user-agent在浏览器里可以找到

那么现在我们就关注右边

这样header就找到了，注意要以字典的形式

4.发送请求、

for i in range(num):

title_url = base_url + str(i)

respons = requests.get(title_url, headers=header).text

html = parsel.Selector(respons) # 解析数据 -- parsel 转化为Selector对象，Selector对象具有xpath的方法，能够对转化的数据进行处理

pic_url = html.xpath('//div[@class="mbpho"]/a/img/@src').extract()

一切准备就绪后，就可以发送请求了。request.get.text返回的是网页的源代码，然后将源代码转换为Selector对象，再通过xpath的方法找到图片的网址。

5.保存数据

获取图片的图片的链接后，我们就可以保存了。

for url in pic_url:

n = n + 1

file_path = "王一博图片" + '/' + str(n)+".jpg"

urlretrieve(url, file_path) # 下载图片，具体的用法可以去搜索下，很简单的

print("第%d张图片下载成功" % n)

注意：这里的for循环是在上面的循环里嵌套的。

最后来看看全部的代码吧！

import parsel # 该模块主要用来将请求后的字符串格式解析成re,xpath,css进行内容的匹配

import requests

from urllib.request import urlretrieve # 本文用来下载图片

import os # 标准库，本文用来新建文件夹

if not os.path.exists("王一博图片"):

os.mkdir("王一博图片") # 判断有没有该文件夹，如果没有就创建改文件夹

k = input("请输入你想搜索的关键字：")

num = int(input("请输入你想搜索的页数："))

header = {"user-agent":

"Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Mobile Safari/537.36"

}

base_url = "https://www.duitang.com/search/?kw=" + k + "&type=feed#!s-p"

title_url = []

n = 0

for i in range(num):

title_url = base_url + str(i)

respons = requests.get(title_url, headers=header).text

html = parsel.Selector(respons)

pic_url = html.xpath('//div[@class="mbpho"]/a/img/@src').extract()

# print(pic_url)

for url in pic_url:

n = n + 1

file_path = "王一博图片" + '/' + str(n)+".jpg"

urlretrieve(url, file_path) # 下载图片，具体的用法可以去搜索下，很简单的

print("第%d张图片下载成功" % n)

来看看运行的结果，以搜索王一博，搜索5页为例。

然后你就发信多了一个王一博的文件夹了，点开就可以看见王一博的帅照了。

到此这篇关于python根据用户需求输入想爬取的内容及页数爬取图片方法详解的文章就介绍到这了,更多相关python爬取图片方法内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

python输入数据爬取_python根据用户需求输入想爬取的内容及页数爬取图片方法详解...相关推荐

python输入字符串并反序result_python字符串反转的四种方法详解
python字符串反转的四种方法详解这篇文章主要介绍了python字符串反转的四种详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 1.用red ...
python的装饰器迭代器与生成器_python3 装饰器、列表生成器、迭代器、内置方法详解等（第四周）...
前言: 为什么要学习python3? 原因: 1.学习一门语言能力 2.通过该语言能力完成测试自动化以及独立完成自测框架知识那么我要做什么呢? 1.每天花十个小时完成python3的学习要在什么地 ...
python输入数据的维度_python – Keras LSTM输入维度设置
我试图用keras训练LSTM模型,但我觉得我在这里弄错了. 我收到了错误 ValueError: Error when checking input: expected lstm_17_input ...
python接口自动化项目_python接口自动化（四十二）- 项目结构设计之大结局（超详解）...
简介这一篇主要是将前边的所有知识做一个整合,把各种各样的砖块---模块(post请求,get请求,logging,参数关联,接口封装等等)垒起来,搭建一个房子.并且有很多小伙伴对于接口项目测试的框架 ...
用python爬取网页数据并存入数据库中源代码_Python爬取51cto数据并存入MySQL方法详解...
[] 实验环境 1.安装Python 3.7 2.安装requests, bs4,pymysql 模块实验步骤1.安装环境及模块可参考https://www.jb51.net/article/19 ...
python怎么取共轭_python print出共轭复数的方法详解
python print出共轭复数的方法详解发布时间:2020-09-21 01:42:19 来源:脚本之家阅读:92 作者:爱喝马黛茶的安东尼复数是由一个实数和一个虚数组合构成,表示为:x+y ...
python下载微信公众号文章_python如何导出微信公众号文章方法详解
1.安装wkhtmltopdf 下载地址:https://wkhtmltopdf.org/downloads.html 我测试用的是windows的,下载安装后结果如下 2 编写python 代码导出 ...
python支持向量机回归_Python中支持向量机SVM的使用方法详解
除了在Matlab中使用PRTools工具箱中的svm算法,Python中一样可以使用支持向量机做分类.因为Python中的sklearn库也集成了SVM算法,本文的运行环境是Pycharm. 一.导 ...
python中文字符串多余空格_python使用正则表达式去除中文文本多余空格，保留英文之间空格方法详解...
python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解在pdf转为文本的时候,经常会多出空格,影响数据观感,因此需要去掉文本中多余的空格,而文本中的英文之间的正常空格需要保留,输入 ...

最新文章

热门文章