本文以爬取百度首页为示例来学习,python版本为python3.6.7,完整代码会在文章末附上

本次学习所用到的python框架:
urllib.request:

本次学习所用到的函数:
urllib.request.urlopen():发送http的get请求
.read():读取抓到的内容
.decode("utf-8"):将获取的betys格式数据转换为string格式数据

1.发送http的get请求使用的函数urllib.request.urlopen() ,其返回内容是所请求[做运维的小年轻]的url的网页源代码 可以将返回的内容赋给另外一个key
例如 response = urllib.request.urlopen(url)

代码执行结果:

好像是存在内存里,这应该展示的是一个内存地址。

2.我们需要将内容读出来就用到了有一个函数.read()
data = response.read()response的内容读出来赋值给data

代码执行结果:获取的数据类型为bytes,没有可读性哈


3.需要进行转换将data转换成字符串类型,用到函数.decode("utf-8")
str_data = data.decode("utf-8")

代码执行结果:【ps:将上面的https改为http】不截图了这里就能打印出url所对应的网页源代码了

4.接下来是数据持久化的问题【固定格式记住就行了】

代码运行会生成一个baidu.html保存的是上面搜抓取的内容。
可以本地运行会打开一个浏览器页面:

完整代码见附件。
5.那我们在爬虫的时候也会有需求,将字符串转换为你bytes格式,这就需要用到函数.encode

代码运行结果:

Python爬取到的数据类型一般有两种:str 、 bytes
如果是爬取回来的是bytes类型,但是需要写入的是str类型用到的就是第4条的.decode(utf-8)
如果爬取回来的是str类型,但是需要写入的是bytes类型用到的就是第5条对的.encode(utf-8)

Python爬虫==【openurl】相关推荐

  1. python爬虫百科-python爬虫百科

    广告关闭 腾讯云双11爆品提前享,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高满返5000元! 专业点来说就是应用多台机器同时实现爬虫任务,这多台机器上的爬虫,就是称作分布式爬虫 ...

  2. python爬虫资源路径报错_python爬虫

    一.网络爬虫介绍 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成. 例如,百度.google搜索某关键字时,就是爬取整个互联网上的相关资源,给呈现出来. 实际爬 ...

  3. 关于Python爬虫原理和数据抓取1.1

    为什么要做爬虫? 首先请问:都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数.阿里指数.TBI腾讯浏览指数.新浪微博指数 数据平台购买数据:数据堂.国云数据 ...

  4. python爬虫之Scrapy框架的post请求和核心组件的工作 流程

    python爬虫之Scrapy框架的post请求和核心组件的工作 流程 一 Scrapy的post请求的实现 在爬虫文件中的爬虫类继承了Spider父类中的start_urls,该方法就可以对star ...

  5. python爬虫抓取信息_python爬虫爬取网上药品信息并且存入数据库

    我最近在学习python爬虫,然后正好碰上数据库课设,我就选了一个连锁药店的,所以就把网上的药品信息爬取了下来. 1,首先分析网页 2,我想要的是评论数比较多的,毕竟好东西大概是买的人多才好.然后你会 ...

  6. python爬虫案例_推荐上百个github上Python爬虫案例

    现在学生都对爬虫感兴趣,这里发现一些好的github开源的代码,分享给各位 1.awesome-spider 该网站提供了近上百个爬虫案例代码,这是ID为facert的一个知乎工程师开源的,star6 ...

  7. Python培训分享:python爬虫可以用来做什么?

    爬虫又被称为网络蜘蛛,它可以抓取我们页面的一些相关数据,近几年Python技术的到来,让我们对爬虫有了一个新的认知,那就是Python爬虫,下面我们就来看看python爬虫可以用来做什么? Pytho ...

  8. 玩转 Python 爬虫,需要先知道这些

    作者 | 叶庭云 来源 | 修炼Python 头图 | 下载于视觉中国 爬虫基本原理 1. URI 和 URL URI 的全称为 Uniform Resource Identifier,即统一资源标志 ...

  9. 买不到口罩怎么办?Python爬虫帮你时刻盯着自动下单!| 原力计划

    作者 | 菜园子哇 编辑 | 唐小引 来源 | CSDN 博客 马上上班了,回来的路上,上班地铁上都是非常急需口罩的. 目前也非常难买到正品.发货快的口罩,许多药店都售完了. 并且,淘宝上一些新店口罩 ...

  10. 一个月入门Python爬虫,轻松爬取大规模数据

    如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样一个月入门Python爬虫,轻松爬的编程语言提供越来越多的优秀工具,让爬虫 ...

最新文章

  1. pcb二次钻孔_PCB的内层制作流程,你学会了吗?
  2. python循环五角星做法_python实现while循环打印星星的四种形状
  3. boost::geometry::append用法的测试程序
  4. 伪元素:placeholder-shown:focus-within
  5. 高性能网站架构设计之缓存篇(6)- Redis 集群(中)
  6. mysql批量插入数据的函数和存储过程
  7. 【批处理】windows环境将文件隐藏到图片中
  8. golang切片内存应用技巧
  9. LG显示将在坡州工厂为iPhone 14 Pro Max生产120Hz刷新率屏幕
  10. 素数五个为一行的_对标交流 ▏潍坊市心理咨询师协会名誉理事长、潍坊医学院王力教授一行到昌邑市妇幼保健院指导交流工作...
  11. light7在微信ios下input点击困难
  12. ios中strong和weak的解释理解
  13. 【Hadoop】HDFS三组件:NameNode、SecondaryNameNode和DataNode
  14. Linux安装docker及docker基本操作
  15. 2dpsk调制解调实验matlab_贼详细的8PSK调制与解调详细过程
  16. Python编程学习笔记:列表
  17. H5打包成app的在线工具
  18. 悬赏任务发布平台系统源码|威客任务网站源码PHP开源版
  19. 基于图书管理系统的需求分析之可行性分析安全需求分析系统需求分析
  20. PicoNeo开发中遇到的问题(一)

热门文章

  1. Sqoop2入门之导入关系型数据库数据到HDFS上(sqoop2-1.99.4版本)
  2. android布局之LinearLayout 转
  3. Fedora 33更新异常:Errors during downloading metadata for repository ‘updates‘
  4. Linux命令中的rpm安装命令
  5. 八句经典座右铭必有一句适合你
  6. AI时代!我选Python因为Python是人工智能的未来
  7. linux安装字体后wps无法打开,Ubuntu安装WPS后提示缺失字体怎么办?
  8. mysql core 文件_MySQL未能加载文件或程序集“Ubiety.Dns.Core”或它的某一个依赖项 问题的解决...
  9. yolov4网络结构_重磅更新!YoLov4最新论文!解读YoLov4框架!
  10. 栈----生产者消费者实例