系列文章目录

无敌python爬虫教程学习笔记(一)
无敌python爬虫教程学习笔记(二)
无敌python爬虫教程学习笔记(三)
无敌python爬虫教程学习笔记(四)


手刃一个小爬虫

  • 系列文章目录
  • 前言
  • 基本的爬虫源码及改善

前言

编写的一个爬虫小程序


基本的爬虫源码及改善

#爬虫:通过编写程序来获取到互联网上的资源
#百度
#需求:用程序模拟浏览器,输入一个网址,从该网址中获取到资源或者内容
#三步from urllib.request import urlopen#导包url = "http://www.baidu.com"#输入网址
resp = urlopen(url)#返回一个响应print(resp.read())#读取响应

运行结果:

结果其实是有中文的,需要解码,怎么解,其实可以观察到是utf-8。

我们加入解码,重新运行。

#爬虫:通过编写程序来获取到互联网上的资源
#百度
#需求:用程序模拟浏览器,输入一个网址,从该网址中获取到资源或者内容
#三步from urllib.request import urlopen#导包url = "http://www.baidu.com"#输入网址
resp = urlopen(url)#返回一个响应print(resp.read().decode("utf-8"))#读取响应

结果也是显示中文。

但是还是有问题,大家看到的还是一堆看不懂的东西,和浏览器看到的还是有区别的。我们现在把他保存在一个文件中。
再次修改代码,让我们看的舒服点,能看懂。

#爬虫:通过编写程序来获取到互联网上的资源
#百度
#需求:用程序模拟浏览器,输入一个网址,从该网址中获取到资源或者内容
#三步from urllib.request import urlopen#导包url = "http://www.baidu.com"#输入网址
resp = urlopen(url)#返回一个响应with open("mybaidu.html",mode="wb") as f:f.write(resp.read())print("over!!!")


提示操作成功,爬取到的内容放入了mybaidu.html中。

发现和刚刚区别不大,不着急我们点击run,运行这个HTML文件。

这就是一个最基础的爬虫框架,只需要改目标网址即可。

无敌python爬虫教程学习笔记(二)相关推荐

  1. 无敌python爬虫教程学习笔记(一)

    python爬虫系列文章目录 无敌python爬虫教程学习笔记(一) 无敌python爬虫教程学习笔记(二) 无敌python爬虫教程学习笔记(三) 无敌python爬虫教程学习笔记(四) 本文目录 ...

  2. (Python入门)学习笔记二,Python学习路线图

    (Python入门)学习笔记二,Python学习路线图 千里之行始于足下,谋定而后动,冰冻三尺非一日之寒.之所以说这三句话,就是对于下面整理的路线图,即不让自己感觉路途的遥远而感到达到巅峰神界的遥遥无 ...

  3. 【莫烦Python】Python 基础教程——学习笔记

    文章目录 本笔记基于p1-p29[莫烦Python]Python 基础教程 大家可以根据代码内容和注释进行学习. 安装 我的:python3.8+anaconda+VS code print() pr ...

  4. Python基础教程学习笔记:第一章 基础知识

    Python基础教程 第二版 学习笔记 1.python的每一个语句的后面可以添加分号也可以不添加分号:在一行有多条语句的时候,必须使用分号加以区分 2.查看Python版本号,在Dos窗口中输入&q ...

  5. 【python爬虫】学习笔记1-爬取某网站妹子图片

    最近刚刚学习爬虫,看了视频之后准备自己写一个爬虫练习,爬妹子图 这次准备爬取的网站是:http://www.umei.cc/p/gaoqing/xiuren_VIP/ 接下来先说一下我的思路: 首先我 ...

  6. python基础教程学习笔记十二

    图形用户界面 Tkinter Wxpython Pythonwin Java swing PyGTK pyQt 第五章 数据库支持 一python数据库api 1 全局变量 Apilevel  版本 ...

  7. python爬虫个人学习笔记

    1.URI 是统一资源标识符(Universal Resource Identifier),URL 是统一资源定位符(Universal Resource Locator),URI 是用字符串来标识某 ...

  8. python笔记基础-Python基础教程学习笔记-1

    今天学习了第9章的八皇后问题,Python简洁的语法令我叹服.现总结如下: Python实现程序如下: def conflict(state,nextX): nextY=len(state) for ...

  9. 【莫烦Python】Python 基础教程学习笔记与代码

    文章目录 2 print 3 数学 4 自变量 5 while循环 6 for循环 7 if 条件 8 if else条件 9 if elif else 10 def 函数 11 函数.参数 12 函 ...

最新文章

  1. Java BufferImage图片处理(获取宽高、图片截取、转换灰度图)
  2. datafactory生成mysql数据_测试数据生成工具DataFactory的使用
  3. Ubuntu 16.04安装VirtualBox 5.1实现无缝模式
  4. 如何去掉文章里的非关键词c++_平台运营|阿里国际站代码查找产品三个关键词的方法...
  5. JQuery Datatables —— 自定义导出列
  6. Linux Shell脚本入门教程系列之(五)Shell字符串
  7. Android Studio 3.1无法导入模块的解决办法
  8. php代码敲得很慢,thinkphp好慢 帮忙看看什么原因?已贴代码
  9. 从excel读取数据到datatable
  10. TCP,UDP,IP数据包格式详解
  11. 转python 发送邮件实例
  12. MarkDown公式输入
  13. 2017安防摄像头技术发展趋势分析
  14. 模拟鼠标键盘操作,含硬件模拟技术。[转]
  15. 网站推荐:快速查询 “中国传统配色” 的色值和色名
  16. 设置淘宝sku方法技巧 淘宝SKU如何设置
  17. i12蓝牙耳机使用说明书图片_蓝牙耳机使用常见问题
  18. 浅谈与时俱进的OS发展史
  19. 应用机器学习 Applied Machine Learning (AML) ppt2
  20. 从网红店到家居设计,“Ins风”正在无孔不入

热门文章

  1. 机器学习中的数据集切分
  2. 技术到管理岗位的角色转换:从优秀骨干到优秀管理者
  3. 百度地图坐标转高德地图坐标
  4. css中鼠标变成手型设置
  5. python之父:《Python程序员指南》这本书你应该了解以下,pdf
  6. Java基础知识(八) Java平台与内存管理
  7. maf相关代码和命令
  8. c语言文件大小限制,文件超过某个大小就删除(C语言)
  9. 测度论中的概率空间,可测空间
  10. Two Shuffled Sequences