爬虫练习网站 -http://quotes.toscrape.com的爬虫练习

本人是纯新手自学，所以代码的变量命名都不是很专业，有些变量的名字起的还不是很好理解，菜鸡本人。
本文思路：用requests请求页面，用xpath解析页面，用for循环对xpath返回的字典进行逐个的元素保存
出现的错误：在尝试获取网页右侧的链接页面时，返回一个空列表，后来检查发现是url的拼接出现了错误；在对xpath获取的页面尝试进行直接的存储，报错：提示write只能保存str类型的数据，于是想到用for循环的方法对列表中的元素进行逐个的保存

import  requests
from lxml import etree
request_header ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36 Edg/88.0.705.74'
}url ='http://quotes.toscrape.com/page/1/'  #这是我们打开网站的第一个页面file = open('./quotes.txt','a',encoding='utf-8') #此处没有使用with open的方法，因为它会自动关闭文件夹。'a'表示对addition，即追加，在原有文本的基础上继续写入response =requests.get(url=url,headers=request_header).texttree =etree.HTML(response)
web_main_data =tree.xpath('/html/body/div/div[2]/div[1]/div/span[1]/text()') # 页面解析for each_data in web_main_data: #持久化存储首页的所有数据file.write(each_data)web_right_data = tree.xpath('/html/body/div/div[2]/div[2]/span/a/@href') #获取所有的侧边栏的不完整链接
for link in web_right_data: #每次请求一个右侧名言的链接，每次保存一个返回后的页面base_url ='http://quotes.toscrape.com' + link  #因为每条名言的链接都不是完整链接，所以需要使用拼接的方法来获取整个完整的链接print(base_url)  # 用来检查所获得url的可靠性response_side =requests.get(url=base_url,headers=request_header).text #所有侧边栏链接请求页面tree2 = etree.HTML(response_side)response_side_artical = tree2.xpath('/html/body/div/div[2]/div[1]/div/span[1]/text()') #页面解析 获取了右侧名言链接背后的所有内容for artical in response_side_artical: # 对右侧名言链接的文章进行持久化存储file.write(artical+'\n'+'\n')

如果想要尝试运行本代码，需要安装lxml和requests模块，另外文件的保存路径需要自定义
见file = open('./quotes.txt','a',encoding='utf-8')一句中的文件路径。

爬虫练习网站 -http://quotes.toscrape.com的爬虫练习相关推荐

【python实现网络爬虫（5）】第一个Scrapy爬虫实例项目（Scrapy原理及Scrapy爬取名言名句网站信息）
Scrapy介绍总共有五部分组成的:具体的流程可看图示引擎.调度器.下载器.蜘蛛和项目管道爬取流程针对于每个URL, Scheduler -> Downloader -> Spid ...
python中data.find_all爬取网站为空列表_Python网络爬虫之Scrapy 框架-分布式【第二十九节】...
1. 介绍scrapy-redis框架 scrapy-redis 一个三方的基于redis的分布式爬虫框架,配合scrapy使用,让爬虫具有了分布式爬取的功能. github地址: https://g ...
网络营销专员表示网络营销中设置不当会影响蜘蛛爬虫对网站抓取
在日常网站优化中如果想要网站拥有良好的网站排名,就要针对搜索引擎的抓取习惯培养友好度和信任度,网站在运营优化中难免会发生因为一些细节问题影响蜘蛛爬虫对网站正常抓取,那么究竟哪些操作设置会影响蜘蛛爬虫对 ...
运行scrapy shell 'http://quotes.toscrape.com'出现错误ValueError: invalid hostname: 'http
解决办法是把单引号改为双引号,即 scrapy shell "http://quotes.toscrape.com"
彻底解决Python3写爬虫或网站时的乱码问题
彻底解决Python3写爬虫或网站时的乱码问题参考文章: (1)彻底解决Python3写爬虫或网站时的乱码问题 (2)https://www.cnblogs.com/pozhu15/p/113063 ...
requests+bs4批量爬取反爬虫图片网站
导读:爬取反爬虫图片网站预览效果遇到的问题: 刚开始爬虫的时候,爬取到的所有图片都是一张重定向推广图片解决办法:在requests请求头headers中配置Referer属性,指向爬取网站的顶级 ...
小爬虫sitemap网站seo优化(黄梦岚)
其实关于SEO优化网络有什么多种的方法,可以通过自己提交链接给百度让网络蜘蛛爬到,也可以使用我这种方法.下面给大家介绍一下小爬虫sitemap网站的seo优化,在这里申明我喜欢的人是黄梦岚(湖南永州东 ...
python百度云盘搜索引擎_2016百度云网盘搜索引擎源码,附带Python爬虫+PHP网站+Xunsearch搜索引擎...
品牌: 其他语言: PHP 数据库: Mysql 源文件: 完全开源(含全部源文件) 授权: 免授权规格: 整站源码移动端: 无移动端安装服务: 收费安装(另补差价) 操作系统: Window ...
python爬虫练习网站，墙裂安利这个可以练习爬虫的网站
python爬虫练习网站,墙裂安利这个可以练习爬虫的网站今天无意间发现的一个大佬做的网站,http://www.glidedsky.com/,需要注册登录后跟着大佬提供的题目做,刚刚完成了第一个题目 ...
爬虫获取网站美女图片
爬虫获取网站美女图片 import requests from lxml import html import os if __name__=="__main__":etree = ...

爬虫练习网站 -http://quotes.toscrape.com的爬虫练习

爬虫练习网站 -http://quotes.toscrape.com的爬虫练习相关推荐

最新文章

热门文章