第一步

明确自己需要爬取的网页网址URL

https://bbs.zol.com.cn/

第二步

引入requests库,使用request库发起请求

import requests
url = "https://bbs.zol.com.cn/"
r = requests.get(url)
r

此时若显示的状态码不是200,有可能是网站得知用户在使用爬虫程序访问, 禁止你继续访问。故手动添加Headers,在Headers中, User-Agent 项会记录用户的使用系统和浏览器版本,伪装成一个普通的用户
User-Agent查找方式:(查找自己的电脑)

修改后代码:

import requests
url = 'http://bbs.zol.com.cn/'
headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'}
r = requests.get(url, headers = headers)
r

第三步

# 查看网页的源代码
r.text

若我们采集到的网页源码中的中文部分没有正常解析,有可能是网页编码格式不正确

# 这里显示出的编码是我们解析网页使用的编码
r.encoding
# 使用appent_encoding  用软件推测网页编码
r.apparent_encoding
# 给encoding属性重新赋值, 用推测的编码去解析网页内容
r.encoding = r.apparent_encoding

然后重新查看网页源码

完整代码

import requests
# 访问的网址
url = 'http://bbs.zol.com.cn/'
# 字典格式的变量
headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'}
# 固定语法(和请求的网页相关的内容,都封装在了r中)
r = requests.get(url, headers = headers)
# 给encoding属性重新赋值, 用推测的编码去解析网页内容
r.encoding = r.apparent_encoding
#查看网页源代码
r.text
# 访问的消息头
r.headers
# 获取状态码
r.status_code

爬虫小练习01—获取网站源码相关推荐

  1. 站长便民小工具引流网站源码_站长引流工具箱

    介绍: 站长便民小工具引流网站源码,站长引流工具箱,内附各种实用小工具,接口是别人的. 可以使用 网盘下载地址: http://kekewl.cc/atT7j70pUXI 图片:

  2. javaweb JAVA JSP 流浪狗管理系统(宠物狗管理系统)jsp小宠物在线管理网站源码

    JSP 流浪狗管理系统(宠物狗管理系统)jsp小宠物在线管理网站源码 大家好,很高兴和大家分享Java项目和经验.不管同学们是出于什么需求.都希望各位计算机专业的同学有一个提高. 本系统采用eclip ...

  3. xss实现获取网站源码

    当网站cookie设置了httponly,xss获取不到到网站的cookie.但是我们是可以获取到网站后台的url. 这时候我们可以xss得到网站后台源码,从而找到网站后台的一些敏感操作:添加用户,删 ...

  4. 在线小工具箱引流网站源码

    源码介绍: 在线工具箱源码+多款有趣的在线工具+一键安装  测试环境:nginx+php5.6+mysql5.5 网盘下载地址: http://www.bytepan.com/dvnvgK86lUs ...

  5. 【python】python获取网站源码失败,出现一堆script脚本内容

    问题原因 网站开启了防爬虫,爬取的设置,通过头部的cookie和User-Agent判断 解决流程 在头部设置以下内容 def ask_url(url,method):proxies = {" ...

  6. 好看的随机小姐姐404页面网站源码

    介绍: 调用自动获取小姐姐图片,shua新一次更换一次,挺美观的! 网盘下载地址: http://kekewangLuo.net/BjuynFXkdoq 图片:

  7. 仿站小工具(获取网站源资源)

    仿站小工具 仿站小工具是通过网址下载静态网页的工具.从输入的网址下载html代码,提取出JS.Css.Image.Picture.Flash等静态文件网址,再从下载完好的Css代码中提取出Image静 ...

  8. Android使用webview获取百度百家号网站源码

    Android使用webview获取网站源码 最近在使用webview去获取网页的源码,但是对于百度百家号的文章,网页的源代码获取出来只要标题,内容不见了,想问问有没有大佬知道这个问题.去用pytho ...

  9. CTFhub网站源码

    CTFhub网站源码 前言 一.获取网站源码 1.1 使用python获取源码 1.2 使用dirsearch获取源码 二.得到flag 备份文件字典 前言 在网站开发的时候,一般都会把网站源码放到服 ...

最新文章

  1. C++ queue 详细介绍
  2. Acronis True Image无法卸载或者卸载导致无法开机解决办法
  3. SAP Spartacus的ProductAdapter和OccProductAdapter
  4. SAP Spartacus Popover Component 显示与否的逻辑判定
  5. 2021前端面试题总结
  6. 低版本webview无法请求jquery ajax
  7. android studio 错误: 找不到符号 符号: 方法 xxx() 位置: 类 xxx
  8. C10K 非阻塞 Web 服务器
  9. 等重构完这系统,我就辞职!
  10. 20190917:(leetcode习题)将有序数组转换为二叉搜索树
  11. java什么会引用传递_在java中为什么很多人说有值传递和引用传递?引用传递的本质...
  12. cygwin的离线安装包
  13. qq音乐服务器的位置,QQ音乐的歌曲真实地址解析
  14. 再梳理一下seqtoseq,encoder-decoder,attention,transformer的概念
  15. 用C/汇编代码实现imx6ull点灯
  16. Java并发编程-Exchange
  17. 数据分析---pandas(一)
  18. [转载] 晓说——第19期:千年科举那些事——官场
  19. Latex之参考文献字体大小
  20. 5G消息赋能,菊风助力银行业加速融入数字化场景生态

热门文章

  1. 【毕业设计】基于stm32的智能饮水控制系统 - 单片机 嵌入式 物联网
  2. 【附源码】计算机毕业设计SSM美食推荐系统
  3. 百度地图指定省市进行描边处理,省市外进行半透明遮盖
  4. 深度 | 激光雷达独角兽Quanergy的危急时刻
  5. html5与课程思政,省级“课程思政”示范课程:web综述-教案.pdf
  6. react前端下载后端返回文件流(文件流下载excel、csv)
  7. (三)Server和Service
  8. 32位计算机分配的最大内存大小,win732位内存支持多大内存 win732位内存最大支持大小【图文】...
  9. 20191021 设计图都不会画,还想做”架构师“?
  10. Unity查看接入的Ironsource和adapter 版本号