网络爬虫MOOC学习打卡 - 第一天

文章目录

  • 网络爬虫MOOC学习打卡 - 第一天
  • 一、使用 requests.get(url) 抓取网页
    • 1.从cmd中打开idle
    • 2.调用requests类 —— import requests
  • 总结

一、使用 requests.get(url) 抓取网页

1.从cmd中打开idle

2.调用requests类 —— import requests

requests.get(url) 是用来抓取网页信息的

知识点一:
1.调用requests
2.使用 get()方法抓取百度的主页信息
3.使用 r.text用来输出抓取的信息

代码如下:

# 调用requests
import requests# 使用 get()方法抓取百度的主页信息
r = requests.get(https://www.baidu.com) # 使用 r.text用来输出抓取的信息
r.text

这里有需要注意的地方:在输入url的时候,如果不输入http://则会报错。

知识点二:
1.输出内容的编码格式
2.默认编码 r.encoding
3.更精准的编码 r.apparent_encoding

可以发现网页的内容有没有编写成中文的地方,所以我们可以自己分析一下真正的编码是什么
1.估计查询:r.encoding
2.更精准查询(但是也不是完全正确的):r.apparent_encoding

代码如下:

# 默认编码(是从头文件中分析得来的):
r.encoding# 更精准查询(但是也不是完全正确的,是从内容分析中得来的):
r.apparent_encoding

所以我们可以更改编码方式:
我们用分析更准确的编码方式赋予r.encoding,这样得到的信息就是我们想要的了 —— 从乱码到中文

代码如下:

# 把r.apparent_encoding的编码格式赋予r.encoding
r.encoding = r.apparent_encoding# 这次再输出抓取的内容吧
r.text

结果如下:

不难看到,中文出现了!因为我们把编码格式从 ISO-8859-1 改成了 utf-8

知识点三:
1.状态码

“今天你连接成功了么?”

# 返回结果是 200 ,success
# 返回结果为 404 或其他 ,fault
r.status_code

总结

没什么总结的。。放松一下读读诗吧

赠卫八处士 杜甫
人生不相见,动如参与商。今夕复何夕,共此灯烛光。
少壮能几时,鬓发各已苍。访旧半为鬼,惊呼热中肠。
焉知二十载,重上君子堂。昔别君未婚,儿女忽成行。
怡然敬父执,问我来何方。问答乃未已,驱儿罗酒浆。
夜雨剪春韭,新炊间黄粱。主称会面难,一举累十觞。
十觞亦不醉,感子故意长。明日隔山岳,世事两茫茫。

网络爬虫学习1 - 使用 requests.get(url) 抓取网页相关推荐

  1. Python3网络爬虫实战-27、Requests与正则表达式抓取猫眼电影排行

    本节我们利用 Requests 和正则表达式来抓取猫眼电影 TOP100 的相关内容,Requests 相较于 Urllib 使用更加方便,而目前我们还没有系统学习 HTML 解析库,所以可能对 HT ...

  2. 【Python】Python3网络爬虫实战-27、Requests与正则表达式抓取猫眼电影排行

    本节我们利用 Requests 和正则表达式来抓取猫眼电影 TOP100 的相关内容,Requests 相较于 Urllib 使用更加方便,而目前我们还没有系统学习 HTML 解析库,所以可能对 HT ...

  3. Python3网络爬虫实战-38、动态渲染页面抓取:Splash的使用

    Splash 是一个 JavaScript 渲染服务,是一个带有 HTTP API 的轻量级浏览器,同时它对接了 Python 中的 Twisted和 QT 库,利用它我们同样可以实现动态渲染页面的抓 ...

  4. Python3网络爬虫之Scrapy框架实现招聘数据抓取

    项目需求: 某招聘网上面有公司发布的的各种工作岗位,进入首页 https://careers.tencent.com/ 后可见 到一个搜索框,如下图所示: 在搜索框输入岗位名称,跳转到如下图所示页面, ...

  5. 【爬虫学习】Python登录微博并抓取微博热点信息

    1.获取Cookie模拟登陆微博 注意:使用.find_element_by_id()公式时,注意selenium库版本,我自己使用的时Selenium 3.141版本 2.爬取微博热搜榜信息 完整代 ...

  6. java通过url抓取网页数据-----正则表达式

    原文地址https://www.cnblogs.com/xiaoMzjm/p/3894805.html [本文介绍] 爬取别人网页上的内容,听上似乎很有趣的样子,只要几步,就可以获取到力所不能及的东西 ...

  7. 用mac的python写网络爬虫_在mac下使用python抓取数据

    2015已经过去,这是2016的第一篇博文! 祝大家新年快乐! 但是我还有好多期末考试! 还没开始复习,唉,一把辛酸泪! 最近看了一遍彦祖的文章叫做 所以自己也想小试牛刀.于是便开始动手写,但初次接触 ...

  8. 公司网络推广为你解答蜘蛛为什么有抓取网页却没收录?

    可能优化人员们在公司网络推广日常观察网站数据的时候会发现一类这样的问题,那就是蜘蛛虽然爬取过我们的网站,但是页面仍然没有收录,也仅仅是路过?那么为什么会出现这样的情况呢?下面公司网络推广就带大家一起来 ...

  9. [转]网络爬虫(一):抓取网页的含义和URL基本构成

    一.网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛. 网络蜘蛛是通过网页的链接地址来寻找网页的. 从网站某一 ...

最新文章

  1. gin中间件中使用Goroutines
  2. 14K Star,「程序员做饭指南」冲上热榜
  3. shiny html5代码,javascript – Shiny:如何正确包含Shiny HTML
  4. Css3系列-新属性新布局
  5. createmutex创建的锁需要手动关闭句柄吗_你知道吗?汽车的儿童锁居然还能发挥这么大的作用!...
  6. Java各种数据类型的转换
  7. 软件测试需求分析还可以这样做
  8. JAVA调试出现不断在ClassLoader类中执行时的问题?
  9. 正则表达式及常用大全
  10. Android开发之——依赖冲突Program type already present
  11. JavaScript之验证码--常用js特效
  12. MakeApie 将于 2月15号开始暂停服务
  13. 亲戚关系php,亲属关系称谓、亲属称谓表、亲属称呼表、亲属关系称呼
  14. android https HttpsURLConnection 忽略证书
  15. OA系统添加审批模板
  16. 深度学习之图像分类(九)--ResNeXt 网络结构
  17. docker 容器启动成功 外部访问不到原因
  18. android 基础知识-LOG和版本解释
  19. div大小拖动调节及鼠标样式修改
  20. Google Earth Engine ——使用 GEE在QGIS中创建动画地图

热门文章

  1. 公开募集催生Namco Bandai(南梦宫万代)的预售实验
  2. 电商双11美妆数据分析
  3. 太空射击第14课: 玩家生命
  4. SHA 和 RSA 的区别
  5. WebBrowser 怎么样可以不保存SESSION?急!!!!!!!!!!!!
  6. Android自定义九宫格手势解锁组件
  7. 戒指的带法,终于收齐了
  8. 情感日记:想念从未断绝
  9. java调用ant_从java调用ant,然后在ant终止后返回到java
  10. 夏普比率excel_在Excel中计算比率