day19 学习python爬虫—

day19 学习python爬虫——requests和bs4

一、requests使用详解

import  requests

1.发送请求

requests.get(请求地址) - 直接获取请求地址对应的数据（请求对象没有要求是浏览器的时候）

requests.get(请求地址，headers= 请求头) - 直接获取请求地址对应的数据，并且通过请求头完成浏览器伪装

例如：豆瓣网

headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'
}

2.获取请求结果

1)直接打印响应对象，如果状态码不是200，表示请求失败

print(response)

2）获取状态码

 print(response.status_code)  # response.status_code == 200请求成功，不是则失败

3)设置编码方式（在请求结果中乱码的时候设置，设置成网页源代码中charset的值）

response.encoding='utf-8'

4)获取响应头（可以查看服务器信息和返回的数据相关信息）

print(response.headers)

5)获取请求结果（获取从服务器中返回的数据）

a.方式1. 响应对象.text - 以字符串的方式获取数据（请求对象是网页）

 print(response.text)

b.方式2：响应对象.content - 以二进制的方式获取数据（请求对象是二进制数据，比如：下载图片、音频等）

 print(response.content)

c.方式3：响应对象.json() - 对请求结果进行json解析返回结果（请求对象是json接口）

print(response.json())

二、请求的三种方法

1.爬网页数据 - 请求地址是网址

import requests
from  re import findall

response =  requests.get('https://cd.zu.ke.com/zufang')
if response.status_code == 200:#通过text获取请求结果，然后再敬一部解析print(response.text)

2.下载图片、视频、、音频 - 请求地址是图片、音频、视频地址

1）对图片地址萨松请求

response = requests.get('https://img1.baidu.com/it/u=4219797949,2706556049&fm=253&fmt=auto&app=138&f=JPEG?w=500&h=833')

2)在请求成功的时候将得到的图片数据写入到文件中

if response.status_code == 200:f = open('files/11.jpeg','wb')f.write(response.content)f.close()

练习：下载贝克租房首页所有的房屋的效果图片

1.直接对网页发送请求获取所有图片地址
response = requests.get('https://cd.zu.ke.com/zufang')
if response.status_code == 200:all_img = findall(r'data-src="(.+)"\s+class="lazyloaded">', response.text)print(all_img)2.遍历得到每张图片地址count =0for x in all_img:img_response = response.get(x)f=open(f'files/{count}.jpeg','wb')count +=1f.write(img_response.content)f.close()

三、json数据

1.json

json是一种通用的数据格式**（转换成通用的数据格式供不同的客户端使用）**（为了让不同编程语言的程序之间可以进行有效的数据交流而存在的）

json数据格式：一个json有且只有一个数据，并且唯一的这个数是json支持的数据类型的数据

json支持的数据类型：

1）数字 - 像数字一样，1，-0.2，3.3，4e2等…

2）字符串 - 必须使用双引号引起来：“abc”、“你好”、“abc\n123”、“\u4e00”

3)布尔 - true和false

4）数组 - 就是python的列表[10,20,true,“abc”]

5）字典 - json中字典的键必须是字符串：{“name”: “小明”, “age”: 18}

6)空值 - null

2.json和python的相互转换

from json import  loads,dumps

1)json 转python - loads

loads(json格式字符串) - 将json数据转换成对应的python数据

#"abc"
result = loads('"abc"')
print(result,type(result))result =loads('[10,"你好",true,null]')
print(result) #[10, '你好', True, None]

1)python转json - dumps

json支持的数据类型再加上元组的都可以转换成json

dumps(python数据) - 将python数据转换成对应的json格式字符串

dumps('abc') #'"abc"'
dumps(10) #'10'
dumps([10,'abc',None,False]) #'[10,"abc",null,false]'
dumps({'a':10,10:20,'c':'d'}) #  '{"a": 10, "10": 20, "c": "d"}'

四、bs4网页数据解析

安装xlml和beautifulsoup4虚拟环境第三方库

import requests

使用bs4安装第三方库的时候安装的是：beautifulsoup4

from bs4 import BeautifulSoup

1. 基于网页源代码创建BeautifulSoup对象

BeautifulSoup(网页源代码, 'lxml')
html = open('data.html').read()
soup = BeautifulSoup(html, 'lxml')

2. 基于css选择器解析数据：获取标签 -> 获取标签内容和标签属性

1)获取标签

BeautifulSoup对象.select(css选择器) - 获取整个网页中css选择器选中的所有标签；返回一个列表，列表中元素是标签对象

BeautifulSoup对象.select_one(css选择器) - 获取整个网页中css选择器选中的第一个标签；返回一个标签对象

标签对象.select(css选择器) - 获****取指定标签中css选择器选中的所有标签

标签对象.select_one(css选择器) - 获取指定标签中css选择器选中的第一个标签

result = soup.select('p')
print(result)result = soup.select('.c1')
print(result)result = soup.select('#p1')
print(result)result = soup.select('div>p')
print(result)result = soup.select('div p')
print(result)result = soup.select_one('p')
print(result)

div = soup.select_one('div')
result = div.select('p')
print(result)span = soup.select_one('#s1')
result = span.select('p')
print(result)

2）获取标签内容和标签属性

标签对象.text - 获取标签内容

标签对象.attrs[属性名] - 获取指定标签中指定属性的值

a = soup.select_one('div>div>a')
print(a, a.text)img = soup.select_one('img')
print(img, img.attrs['alt'], img.attrs['src'])

案例：bs4解析豆瓣电影第一页电影名称、评论、电影评分

import requests
from bs4 import BeautifulSoup

获取网页数据

headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'
}
response = requests.get('https://movie.douban.com/top250', headers=headers)
html = response.text

解析数据

soup = BeautifulSoup(html, 'lxml')div_list = soup.select('.grid_view>li>.item')for div in div_list:title = div.select_one('.title').textcomment = div.select('.star>span')[-1].textscore = div.select_one('.star>.rating_num').textprint(title, comment, score)