#get()是获取网页最常见的方式
import requests####################################第一步#######################################在调用requests.get()函数之后,返回的网页内容会保存为一个Response对象
#get()函数的参数URL链接必须采用HTTP或HTTPS方式访问
response = requests.get("http://www.baidu.com")print(type(response))    #通过type()来查看返回response对象的类别
#结果:<class 'requests.models.Response'>#返回的状态码,200:连接成功,404:连接失败
status_code = response.status_code
print(status_code)#返回的内容
text = response.text
print(text)#HTTP响应内容的编码方式
encoding = response.encoding
print(encoding)#修改编码方式为utf-8
encoding1 = response.encoding = 'utf-8'
print(encoding1)#更改完成之后,返回内容中的中文字符就可以正常显示了
text1 = response.text
print(text1)####################################第二步#######################################写一个读取网页内容的函数def getHtmlText(url):try:r = requests.get(url, timeout = 30)r.raise_for_status() #返回的状态码不是200的时候,引发异常;只要在收到响应的时候调用这个方法,就可以避开状态码200以外的各种意外情况r.encoding = 'utf-8'return r.textexcept:return ""
#测试
url = "http://www.baidu.com"
print("函数测试输出:\n",getHtmlText(url))

requests库通过get()获取网页内容相关推荐

  1. 0.爬虫介绍及requests库的使用

    1. 互联网知识介绍 互联网: 是由网络设备(网线, 路由器, 交换机, 防火墙...)和一台台计算机链接而成. 互联网建立的目的: 数据的共享/传递. 俗称的'上网': 由用户端计算机发送请求给目标 ...

  2. 爬虫之基本原理及简单使用、请求库之requests库及小案例

    文章目录 1.基本原理及简单使用 1.1.定义 1.2.爬虫的基本流程 1.3.请求与响应 1.4.Request 1.5.Response 1.6.总结 2.请求库之requests库 2.1.基本 ...

  3. Python 网络爬虫与信息获取(一)—— requests 库的网络爬虫

    1. 安装与测试 进入 cmd(以管理员权限),使用 pip 工具,pip install requests 进行安装: 基本用法: >> import requests >> ...

  4. python+selenium获取cookie session_Python Selenium模拟登录成功后,使用此cookie、利用requests库进行get时,提示“非法登陆”。...

    一. 步骤概述 a. 模拟登录学校选课系统(使用Selenium库登陆http://xk.suibe.edu.cn/xsxk/login.xk) b. 取得cookie后传入requests的sess ...

  5. Python用requests库+BeautifulSoup库+re库获取微博热搜(有详解)

    Python用requests库+BeautifulSoup库+re库获取微博热搜 import requests from bs4 import BeautifulSoup import re de ...

  6. python中使用requests库获取昵图网图片,且正则中re.S的用法

    python中使用requests库获取图片,且正则表达式中re.S的用法以及r.text和r.content的区别和搜索关键词 这里我获取的是昵图网的图片 代码附上 这里我获取的是2020的图片 i ...

  7. python获取网页json返回空_Python用requests库爬取返回为空的解决办法

    首先介紹一下我們用360搜索派取城市排名前20. 我们爬取的网址:https://baike.so.com/doc/24368318-25185095.html 我们要爬取的内容: html字段: r ...

  8. python使用requests库获取网页的内容

    网站地址:https://www.k374.com/index.php 网站内容如下: 第一步导入requests库,使用它访问网页获取到源代码 内容如下: import requests r = r ...

  9. requests库请求获取不到数据怎么办?不妨试试看这种妙法

    下次点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 荷笠带斜阳,青山独归远. 大家 ...

最新文章

  1. hdu6165 缩点,dfs
  2. Iphone 安装 ppsspp
  3. php jquery实现弹窗,jquery 弹出层实现代码_jquery
  4. python3常用模块_Python3 常用模块
  5. hdu4027Can you answer these queries?
  6. LeetCode : Number of Segments in a String
  7. android webview java_Android WebView Java和JS通信
  8. Netty核心组件 ChannelPipeline和ChannelHandler与ChannelHandler的入站出站规则
  9. JAVA数据库连接池的工作机制
  10. 200724 EXCEL
  11. 【设计模式】适配器模式:如何巧妙地过滤游戏中的敏感词
  12. java 12306 源码_java Web SpringMVC项目实现12306余票查询功能
  13. win7 cmd 无法复制粘贴
  14. Linux内核有加网速功能吗,Linux下使用有线网络和WiFi能不能叠加网速?网友评论不一...
  15. uos命令_UOS与Deepin OS区别详解
  16. Netflix继续开源,更多猴子进入视野
  17. 关键词查找并标注出来
  18. Photoshop PS图层混合模式详解
  19. js vue 设置excel单元格样式_vue+elementui 项目纯前端Export2Excel导出excel,并利用xlsx-style设置单元格样式...
  20. 躲避雪糕刺客?通过爬虫爬取雪糕价格

热门文章

  1. submit的用法实例
  2. [UVA156]反片语 Ananagrams 题解(映射:map 详解)
  3. 【模型压缩】谷歌高被引知识蒸馏论文笔记
  4. RSocket FAQ精选
  5. 带你认识无线组网中的胖瘦AP以及组网场景,了解企业AP部署
  6. 星环科技分布式文件系统TDFS介绍(上)
  7. 二维火 Android 云收银模块化架构实践
  8. 加密市场的投资布局,Zebec实属价值洼地
  9. 哈理工OJ 1490 咒语(BFS广度优先搜索)
  10. 2022 hgame pwn wp