网络爬虫MOOC学习打卡 - 第一天

文章目录

网络爬虫MOOC学习打卡 - 第一天
一、使用 requests.get(url) 抓取网页
- 1.从cmd中打开idle
- 2.调用requests类 —— import requests
总结

一、使用 requests.get(url) 抓取网页

1.从cmd中打开idle

2.调用requests类 —— import requests

requests.get(url) 是用来抓取网页信息的

知识点一：
1.调用requests
2.使用 get()方法抓取百度的主页信息
3.使用 r.text用来输出抓取的信息

代码如下：

# 调用requests
import requests# 使用 get()方法抓取百度的主页信息
r = requests.get(https://www.baidu.com) # 使用 r.text用来输出抓取的信息
r.text

这里有需要注意的地方：在输入url的时候，如果不输入http://则会报错。

知识点二：
1.输出内容的编码格式
2.默认编码 r.encoding
3.更精准的编码 r.apparent_encoding

可以发现网页的内容有没有编写成中文的地方，所以我们可以自己分析一下真正的编码是什么
1.估计查询：r.encoding
2.更精准查询（但是也不是完全正确的）：r.apparent_encoding

代码如下：

# 默认编码（是从头文件中分析得来的）：
r.encoding# 更精准查询（但是也不是完全正确的，是从内容分析中得来的）：
r.apparent_encoding

所以我们可以更改编码方式：
我们用分析更准确的编码方式赋予r.encoding，这样得到的信息就是我们想要的了 —— 从乱码到中文

代码如下：

# 把r.apparent_encoding的编码格式赋予r.encoding
r.encoding = r.apparent_encoding# 这次再输出抓取的内容吧
r.text

结果如下：

不难看到，中文出现了！因为我们把编码格式从 ISO-8859-1 改成了 utf-8

知识点三：
1.状态码

“今天你连接成功了么？”

# 返回结果是 200 ，success
# 返回结果为 404 或其他 ，fault
r.status_code

总结

没什么总结的。。放松一下读读诗吧

赠卫八处士杜甫
人生不相见，动如参与商。今夕复何夕，共此灯烛光。
少壮能几时，鬓发各已苍。访旧半为鬼，惊呼热中肠。
焉知二十载，重上君子堂。昔别君未婚，儿女忽成行。
怡然敬父执，问我来何方。问答乃未已，驱儿罗酒浆。
夜雨剪春韭，新炊间黄粱。主称会面难，一举累十觞。
十觞亦不醉，感子故意长。明日隔山岳，世事两茫茫。

网络爬虫学习1 - 使用 requests.get(url) 抓取网页相关推荐

Python3网络爬虫实战-27、Requests与正则表达式抓取猫眼电影排行
本节我们利用 Requests 和正则表达式来抓取猫眼电影 TOP100 的相关内容,Requests 相较于 Urllib 使用更加方便,而目前我们还没有系统学习 HTML 解析库,所以可能对 HT ...
【Python】Python3网络爬虫实战-27、Requests与正则表达式抓取猫眼电影排行
本节我们利用 Requests 和正则表达式来抓取猫眼电影 TOP100 的相关内容,Requests 相较于 Urllib 使用更加方便,而目前我们还没有系统学习 HTML 解析库,所以可能对 HT ...
Python3网络爬虫实战-38、动态渲染页面抓取:Splash的使用
Splash 是一个 JavaScript 渲染服务,是一个带有 HTTP API 的轻量级浏览器,同时它对接了 Python 中的 Twisted和 QT 库,利用它我们同样可以实现动态渲染页面的抓 ...
Python3网络爬虫之Scrapy框架实现招聘数据抓取
项目需求: 某招聘网上面有公司发布的的各种工作岗位,进入首页 https://careers.tencent.com/ 后可见到一个搜索框,如下图所示: 在搜索框输入岗位名称,跳转到如下图所示页面, ...
【爬虫学习】Python登录微博并抓取微博热点信息
1.获取Cookie模拟登陆微博注意:使用.find_element_by_id()公式时,注意selenium库版本,我自己使用的时Selenium 3.141版本 2.爬取微博热搜榜信息完整代 ...
java通过url抓取网页数据-----正则表达式
原文地址https://www.cnblogs.com/xiaoMzjm/p/3894805.html [本文介绍] 爬取别人网页上的内容,听上似乎很有趣的样子,只要几步,就可以获取到力所不能及的东西 ...
用mac的python写网络爬虫_在mac下使用python抓取数据
2015已经过去,这是2016的第一篇博文! 祝大家新年快乐! 但是我还有好多期末考试! 还没开始复习,唉,一把辛酸泪! 最近看了一遍彦祖的文章叫做所以自己也想小试牛刀.于是便开始动手写,但初次接触 ...
公司网络推广为你解答蜘蛛为什么有抓取网页却没收录？
可能优化人员们在公司网络推广日常观察网站数据的时候会发现一类这样的问题,那就是蜘蛛虽然爬取过我们的网站,但是页面仍然没有收录,也仅仅是路过?那么为什么会出现这样的情况呢?下面公司网络推广就带大家一起来 ...
[转]网络爬虫（一）：抓取网页的含义和URL基本构成
一.网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛. 网络蜘蛛是通过网页的链接地址来寻找网页的. 从网站某一 ...

网络爬虫学习1 - 使用 requests.get(url) 抓取网页

网络爬虫MOOC学习打卡 - 第一天

文章目录

一、使用 requests.get(url) 抓取网页

1.从cmd中打开idle

2.调用requests类 —— import requests

总结

网络爬虫学习1 - 使用 requests.get(url) 抓取网页相关推荐

最新文章

热门文章