本人是纯新手自学,所以代码的变量命名都不是很专业,有些变量的名字起的还不是很好理解,菜鸡本人。
本文思路:用requests请求页面,用xpath解析页面,用for循环对xpath返回的字典进行逐个的元素保存
出现的错误:在尝试获取网页右侧的链接页面时,返回一个空列表,后来检查发现是url的拼接出现了错误;在对xpath获取的页面尝试进行直接的存储,报错:提示write只能保存str类型的数据,于是想到用for循环的方法对列表中的元素进行逐个的保存

import  requests
from lxml import etree
request_header ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36 Edg/88.0.705.74'
}url ='http://quotes.toscrape.com/page/1/'  #这是我们打开网站的第一个页面file = open('./quotes.txt','a',encoding='utf-8') #此处没有使用with open的方法,因为它会自动关闭文件夹。'a'表示对addition,即追加,在原有文本的基础上继续写入response =requests.get(url=url,headers=request_header).texttree =etree.HTML(response)
web_main_data =tree.xpath('/html/body/div/div[2]/div[1]/div/span[1]/text()') # 页面解析for each_data in web_main_data: #持久化存储首页的所有数据file.write(each_data)web_right_data = tree.xpath('/html/body/div/div[2]/div[2]/span/a/@href') #获取所有的侧边栏的不完整链接
for link in web_right_data: #每次请求一个右侧名言的链接,每次保存一个返回后的页面base_url ='http://quotes.toscrape.com' + link  #因为每条名言的链接都不是完整链接,所以需要使用拼接的方法来获取整个完整的链接print(base_url)  # 用来检查所获得url的可靠性response_side =requests.get(url=base_url,headers=request_header).text #所有侧边栏链接请求页面tree2 = etree.HTML(response_side)response_side_artical = tree2.xpath('/html/body/div/div[2]/div[1]/div/span[1]/text()') #页面解析 获取了右侧名言链接背后的所有内容for artical in response_side_artical: # 对右侧名言链接的文章进行持久化存储file.write(artical+'\n'+'\n')

如果想要尝试运行本代码,需要安装lxml和requests模块,另外文件的保存路径需要自定义
见file = open('./quotes.txt','a',encoding='utf-8')一句中的文件路径。

爬虫练习网站 -http://quotes.toscrape.com的爬虫练习相关推荐

  1. 【python实现网络爬虫(5)】第一个Scrapy爬虫实例项目(Scrapy原理及Scrapy爬取名言名句网站信息)

    Scrapy介绍 总共有五部分组成的:具体的流程可看图示 引擎.调度器.下载器.蜘蛛和项目管道 爬取流程 针对于每个URL, Scheduler -> Downloader -> Spid ...

  2. python中data.find_all爬取网站为空列表_Python网络爬虫之Scrapy 框架-分布式【第二十九节】...

    1. 介绍scrapy-redis框架 scrapy-redis 一个三方的基于redis的分布式爬虫框架,配合scrapy使用,让爬虫具有了分布式爬取的功能. github地址: https://g ...

  3. 网络营销专员表示网络营销中设置不当会影响蜘蛛爬虫对网站抓取

    在日常网站优化中如果想要网站拥有良好的网站排名,就要针对搜索引擎的抓取习惯培养友好度和信任度,网站在运营优化中难免会发生因为一些细节问题影响蜘蛛爬虫对网站正常抓取,那么究竟哪些操作设置会影响蜘蛛爬虫对 ...

  4. 运行scrapy shell 'http://quotes.toscrape.com'出现错误ValueError: invalid hostname: 'http

    解决办法是把单引号改为双引号,即 scrapy shell "http://quotes.toscrape.com"

  5. 彻底解决Python3写爬虫或网站时的乱码问题

    彻底解决Python3写爬虫或网站时的乱码问题 参考文章: (1)彻底解决Python3写爬虫或网站时的乱码问题 (2)https://www.cnblogs.com/pozhu15/p/113063 ...

  6. requests+bs4批量爬取反爬虫图片网站

    导读:爬取反爬虫图片网站 预览效果 遇到的问题: 刚开始爬虫的时候,爬取到的所有图片都是一张重定向推广图片 解决办法:在requests请求头headers中配置Referer属性,指向爬取网站的顶级 ...

  7. 小爬虫sitemap网站seo优化(黄梦岚)

    其实关于SEO优化网络有什么多种的方法,可以通过自己提交链接给百度让网络蜘蛛爬到,也可以使用我这种方法.下面给大家介绍一下小爬虫sitemap网站的seo优化,在这里申明我喜欢的人是黄梦岚(湖南永州东 ...

  8. python百度云盘搜索引擎_2016百度云网盘搜索引擎源码,附带Python爬虫+PHP网站+Xunsearch搜索引擎...

    品牌: 其他 语言: PHP 数据库: Mysql 源文件: 完全开源(含全部源文件) 授权: 免授权 规格: 整站源码 移动端: 无移动端 安装服务: 收费安装(另补差价) 操作系统: Window ...

  9. python爬虫练习网站,墙裂安利这个可以练习爬虫的网站

    python爬虫练习网站,墙裂安利这个可以练习爬虫的网站 今天无意间发现的一个大佬做的网站,http://www.glidedsky.com/,需要注册登录后跟着大佬提供的题目做,刚刚完成了第一个题目 ...

  10. 爬虫获取网站美女图片

    爬虫获取网站美女图片 import requests from lxml import html import os if __name__=="__main__":etree = ...

最新文章

  1. 嵌入式程序员应知道的基本问题-C语言(zz)
  2. 测试系统存储是大端模式还是小端模式的方法
  3. 前端如何实现音乐盒胶盘的转动_郑州Web前端入门教程之如何实现图片优化?
  4. Vuex和普通全局对象
  5. Bootstrap开篇理解:
  6. centOS6.4部署svn
  7. 数据库性能监控之联合索引使用
  8. 【最新版win10 adb环境变量配置】
  9. 成功解决TypeError: distplot() got an unexpected keyword argument ‘y‘
  10. 达叔的游戏框架(二) 得到其他模块的方式
  11. c语言随机数 抛硬币,C语言 抛硬币的问题
  12. windows环境下编译ACE+TAO问题及解决办法
  13. 微信公众号页面中监听手机“返回”,并回到公众号里
  14. 显卡驱动版本 与 cuda版本
  15. 拯救脂肪肝第一步!以飞桨3D医疗影像分割方案MedicalSeg自主诊断脂肪肝
  16. Ubuntu20.04安装Docker以及Docker安装微信、企业微信、Docker常用命令
  17. 桌面计算机找不到硬盘,计算机BIOS启动项找不到硬盘,我该怎么办?
  18. java毕业设计springboot框架 java二手交易网站系统毕业设计开题报告功能参考
  19. 极客日报:2021年年终奖人均水平为2.3万元;消息人士回应华为自研浏览器内核传闻;Linux取消对a.out格式的支持
  20. 写博客,轻松拿大奖!博客征文第二期:那些年我们一起写过的代码

热门文章

  1. 密码忘了怎么办? 5种破密方法轻松搞定
  2. Could not find artifact xxx.xxx:ww-www-ww:pom:1.0.1-SNAPSHOT in xxxx(http://xxx.xxx.xxx:xxxx私服地址)
  3. java虚拟机假死怎么办_虚拟机假死解决方法
  4. Linux端口被占用怎么解决
  5. leader epoch
  6. c语言的字符型都有什么作用是什么,字符型数据是什么意思怎么理解
  7. C1见习工程师能力认证 考纲
  8. sql优化相关概念,explain的使用说明
  9. 高等数学学习笔记——第八十九讲——高斯公式
  10. 要装系统就装WINDOWSXPSP3VL正式版操作系统