百度首页爬取

提供我的爬取页面的思路，不一定是正确的但是我都是按照这个思路走的

第一步（页面分析）

可以看到页面非常简单

那么我们的需求就是首先构造url 然后观察我们想要爬取的对象

我们的需求是：爬取新闻 hao123 这些的文字以及点击以后要跳转的页面的url

首先构造百度的url
直接复制urlurl = ('https://www.baidu.com/')

然后使用F12开发工具查看新闻这些标题的位置以及会跳转的url的位置在什么地方

这里我们还需要查看网页的编码方式和是POST方法还是GET方法

如图片所示圈出的部分是新闻的文本以及跳转的Url所在的位置以及使用的是什么编码方式和get方法

我们可以使用 xpath 正则表达式以及BeautifiSoup 进行定位元素然后使用get方法获取元素

那么我们就可以开始写程序已经分析完页面了

第二步（代码的编写）

在上面我们以及分析完页面以后我选择使用xpath方法来定位元素接下来导入库

import requests
from lxml import etree

这里有一个问题会出现就是我们初学的时候设置headers 就只设置一个User-Agent

但是我们在爬取一些网站的时候他需要的头文件不只这些网站会设置反爬如果我们不伪装的像一点就会被识别爬虫就会失效

那么在我们爬取网站的时候可以多使用一点头文件如图

这些文件我们都可以使用用来伪装我们的爬虫程序代码如下

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36 Edg/97.0.1072.55','Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8','Accept-Encoding':'gzip, deflate, br','Accept-Language':'zh-CN,zh;q=0.9'
}

接下来就是定义请求头然后设置编码格式

req = requests.get(url=url,headers=headers)
content = req.content.decode('utf-8')

接下来就是使用xpath语法去定位元素

在使用xpath语法的时候我们需要在页面观察定位的元素在什么地方

首先找到 id唯一命名然后定位到以后判断一个是在href元素中一个是a标签的文本当中

如下图以及代码

get = etree.HTML(content)
geturl = get.xpath('//div[@id="s-top-left"]/a/@href')
getname = get.xpath('//div[@id="s-top-left"]/a/text()')

运行完以后查看是否能成功爬出想要的东西可以print 一下 geturl 和 getname 查看是否爬取成功

接下来就相当于一个总和的步骤爬取完以后我们需要把爬取的数据放到一起

要用到 zip函数

zip函数相当于可以拼接数据一个geturl对应一个getname 让我们更清楚的看出来一个名字然后他跳转的Url是多少

这里需要用到字典来存放数据代码如下:

works=[]
for urls,names in zip(geturl,getname):work={"url":urls,"name":names}works.append(work)
print(works)

第三步（检查错误优化代码）

在写这个代码的时候我一开始用的不是zip 我直接写了一个for就写完了这个zip方法是我后来改的

给大家多提供几种写法源码如下下面这个我是直接用for方法与 xpath结合如果刚刚入门xpath语法的小伙伴可以看一看使用zip的方法下面的这个是结合起来可能稍微难一点

# get = etree.HTML(content)
# works=[]
# select = get.xpath('//div[@id="s-top-left"]/a')
# for selects in select:
#     geturl=selects.xpath('./@href')
#     urlname = selects.xpath('./text()')
#     work={
#         "url":geturl,
#         "name":urlname
#     }
#     works.append(work)
# print(works)

最后附上源码

import requests
from lxml import etreeurl = ('https://www.baidu.com/')headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36 Edg/97.0.1072.55','Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8','Accept-Encoding':'gzip, deflate, br','Accept-Language':'zh-CN,zh;q=0.9'
}req = requests.get(url=url,headers=headers)
content = req.content.decode('utf-8')get = etree.HTML(content)
geturl = get.xpath('//div[@id="s-top-left"]/a/@href')
getname = get.xpath('//div[@id="s-top-left"]/a/text()')
works=[]
for urls,names in zip(geturl,getname):work={"url":urls,"name":names}works.append(work)
print(works)

爬虫实战（1）————百度首页爬取相关推荐

python爬虫实战之百度新闻爬取
百度新闻信息爬取目录百度新闻信息爬取序言获取在百度新闻中搜索"阿里巴巴"的网页源代码编写正则表达式提取新闻信息数据清洗并打印输出实战完整代码序言通过对百度新闻标 ...
Python爬虫实战系列(一)-request爬取网站资源
Python爬虫实战系列(一)-request爬取网站资源 python爬虫实战系列第一期文章目录 Python爬虫实战系列(一)-request爬取网站资源前言一.request库是什么? 二 ...
Python 爬虫实战，模拟登陆爬取数据
Python 爬虫实战,模拟登陆爬取数据从0记录爬取某网站上的资源连接: 模拟登陆爬取数据保存到本地结果演示: 源网站展示: 爬到的本地文件展示: 环境准备: python环境安装略安装r ...
初探Scrapy爬虫框架之百度网页爬取
初探Scrapy爬虫框架之百度网页爬取 scrapy框架及百度网页爬取与保存一.scrapy框架简介二.自己初使用的心得体会 1.爬虫之前明确目标 2.scrapy框架的简单使用流程 3.scra ...
python爬虫实战（一）--爬取知乎话题图片
原文链接python爬虫实战(一)–爬取知乎话题图片前言在学习了python基础之后,该尝试用python做一些有趣的事情了–爬虫. 知识准备: 1.python基础知识 2.urllib库使用 ...
Python爬虫实战之一 - 基于Requests爬取拉勾网招聘信息，并保存至本地csv文件
Python爬虫实战之二 - 基于Requests抓取拉勾网招聘信息 ---------------readme--------------- 简介:本人产品汪一枚,Python自学数月,对于小白,本 ...
爬虫实战(二) 用Python爬取网易云歌单
最近,博主喜欢上了听歌,但是又苦于找不到好音乐,于是就打算到网易云的歌单中逛逛本着 "用技术改变生活" 的想法,于是便想着写一个爬虫爬取网易云的歌单,并按播放量自动进行排序这篇 ...
用python 爬取百度百科内容-爬虫实战(一) 用Python爬取百度百科
最近博主遇到这样一个需求:当用户输入一个词语时,返回这个词语的解释我的第一个想法是做一个数据库,把常用的词语和词语的解释放到数据库里面,当用户查询时直接读取数据库结果但是自己又没有心思做这样一个数 ...
爬虫实战——绝对通俗易懂，爬取房产数据
爬取房产数据爬虫介绍实战目标 1.获取url 2.利用BeautifulSoup获取html的索引 3.查找所需数据索引 4.正则表达式获取所需要的信息完整代码爬虫介绍简单介绍一下爬虫,百度 ...

爬虫实战（1）————百度首页爬取

百度首页爬取

爬虫实战（1）————百度首页爬取相关推荐

最新文章

热门文章