更新日期:2021.03.12

本节学习内容

  1. 爬取网页(第一页)的源代码:初步了解 requests 的使用。
  2. 解析代码:初步了解 BeautifulSoup (bs4) 和 re 的使用。
  3. 保存信息: 先用最简单的文件类型 txt。
  4. 爬取,解析并保存余下的网页。

目录

  • 1. 下载第一个网页的源代码
  • 2. 解析代码
  • 3. 保存信息
  • 4. 爬取,解析并保存余下的网页
  • 5. 总结

1. 下载第一个网页的源代码

需要安装 requests库

import requestsurl = 'http://www.tuke88.com/soexcel/qingdan/__zonghe_0_1.shtml'
headers= {'User Agent': 'replace with your own header'}
response = requests.get(url, headers)
if response.status_code == 200: #检查状态是否正常,只有“200”代码表示正常状态print(response.text) #如果状态不正常,需要进一步考虑怎样处理

找目标:找到一个符合爬虫小白的网页好难

Python爬虫学习笔记 (2) [初级] 初识 requests + bs4 + re相关推荐

  1. Python爬虫学习笔记 (9) [初级] 小练习 爬取慕课网课程清单

    更新日期: 2021.03.28 本节学习内容 : 练习使用 bs4 和 xlwings - 爬取慕课网免费课程清单并存为 Excel 文件. 目录 1. 目标信息 2. 爬取步骤 3. 代码 5. ...

  2. python爬虫学习笔记 1.9 (Handler处理器 和 自定义Opener)

    python爬虫学习笔记 1.1(通用爬虫和聚焦爬虫) python爬虫学习笔记 1.2 ( HTTP和HTTPS ) python爬虫学习笔记 1.3 str和bytes的区别 python爬虫学习 ...

  3. Python爬虫学习笔记 -- 爬取糗事百科

    Python爬虫学习笔记 -- 爬取糗事百科 代码存放地址: https://github.com/xyls2011/python/tree/master/qiushibaike 爬取网址:https ...

  4. python爬虫学习笔记3.2-urllib和request练习

    python爬虫学习笔记3.2-urllib和request练习 一.urllib练习 1.百度贴吧案例 需求 分析 手动测试查询流程 观察页面 分析特殊部分 https://tieba.baidu. ...

  5. python爬虫学习笔记 3.9 (了解参考:训练Tesseract)

    python爬虫学习笔记 3.9 (了解参考:训练Tesseract) 参考阅读:训练Tesseract 要使用 Tesseract 的功能,比如后面的示例中训练程序识别字母,要先在系统中设置一 个新 ...

  6. python爬虫学习笔记2模拟登录与数据库

    前言 为了加入学校里面一个技术小组,我接受了写一个爬取学校网站通知公告的任务.这个任务比以前写的爬虫更难的地方在于,需要模拟登录才能获得页面,以及将得到的数据存入数据库. 本文按照日期来记录我完成任务 ...

  7. Python爬虫学习笔记:概念、知识和简单应用

    Python爬虫:概念.知识和简单应用 什么是爬虫? 使用的开发工具 一个简单的爬虫实例 Web请求过程分析 HTTP协议 请求头中的重要内容 响应头中的重要内容 请求方式 requests 安装 G ...

  8. python爬虫学习笔记一:网络爬虫入门

    参考书目 <python网络爬虫从入门到实践>唐松 第一章 网络爬虫入门 1.1 robots协议 举例:查看京东的robots协议 京东robots协议地址 User-agent: * ...

  9. Python爬虫学习笔记总结(一)

    〇. python 基础 先放上python 3 的官方文档:https://docs.python.org/3/ (看文档是个好习惯) 关于python 3 基础语法方面的东西,网上有很多,大家可以 ...

最新文章

  1. 无法嵌入互操作类型...请改用适用的接口 解决办法
  2. 计算机科学与技术真的会掉头发吗,大学“最辛苦”的三个专业,“脱发率”很高,毕业后却都很吃香!...
  3. 皮克斯首款VR体验《寻梦环游记》登陆 Oculus Rift
  4. 自动化测试(三)如何用python写一个函数,这个函数的功能是,传入一个数字,产生N条邮箱,产生的邮箱不能重复。...
  5. python所有软件-如何在Python中列出所有已安装的软件包及其版本?
  6. html5画直线,小白学canvas-从0到1,画直线
  7. PowerBI使用Tabular Editor翻译报表模型<二>
  8. 计算机网络原理学习笔记
  9. 使用最广泛的缓存Redis,升级到6.0后超神了
  10. vue 中的slot属性(插槽)的使用
  11. 已登陆windows忘记密码的修改密码方法重置密码
  12. 罗技c930e摄像头描述符
  13. 天天都在和游戏打交道,你知道到底什么是游戏UI吗?优漫动游
  14. 最全的盲埋孔板工艺介绍与设计原则​​​​​​​
  15. arcscene如何制作三维真实场景
  16. 死亡搁浅 服务器不稳定,[收集]死亡搁浅现有bug临时解决方案
  17. keil 工程编译后出现 file has been changed outside the editor, reload?
  18. 计算机考研A区211大学,三本学生调剂A区211大学,自己的一些调剂经验供大学参考...
  19. Redisson实现分布式锁(3)—项目落地实现
  20. 智慧职教云答案在哪里找_职教云获取答案软件,智慧职教云答案在哪里找,职教云的答案在哪里找?...

热门文章

  1. 驼峰命名法和下划线命名法互转
  2. 【AtCoder】AtCoder Grand Contest 046
  3. fscanf php,php fscanf 函数_PHP教程
  4. 计算机中英文术语对照表
  5. html引入let,let.html
  6. apache安装过程
  7. 关于iTunes connect审核“Missing or invalid signature”的问题
  8. ANSYS中的轴承载荷(BearingLoad)_51CAE_新浪博客
  9. 【枚举算法】佩尔方程
  10. 港口数字化转型不能盲目跟风