第一步

明确自己需要爬取的网页网址URL

https://bbs.zol.com.cn/

第二步

引入requests库，使用request库发起请求

import requests
url = "https://bbs.zol.com.cn/"
r = requests.get(url)
r

此时若显示的状态码不是200，有可能是网站得知用户在使用爬虫程序访问, 禁止你继续访问。故手动添加Headers，在Headers中, User-Agent 项会记录用户的使用系统和浏览器版本，伪装成一个普通的用户
User-Agent查找方式：（查找自己的电脑）

修改后代码：

import requests
url = 'http://bbs.zol.com.cn/'
headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'}
r = requests.get(url, headers = headers)
r

第三步

# 查看网页的源代码
r.text

若我们采集到的网页源码中的中文部分没有正常解析，有可能是网页编码格式不正确

# 这里显示出的编码是我们解析网页使用的编码
r.encoding
# 使用appent_encoding  用软件推测网页编码
r.apparent_encoding
# 给encoding属性重新赋值, 用推测的编码去解析网页内容
r.encoding = r.apparent_encoding

然后重新查看网页源码

完整代码

import requests
# 访问的网址
url = 'http://bbs.zol.com.cn/'
# 字典格式的变量
headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'}
# 固定语法（和请求的网页相关的内容,都封装在了r中）
r = requests.get(url, headers = headers)
# 给encoding属性重新赋值, 用推测的编码去解析网页内容
r.encoding = r.apparent_encoding
#查看网页源代码
r.text
# 访问的消息头
r.headers
# 获取状态码
r.status_code

爬虫小练习01—获取网站源码相关推荐

站长便民小工具引流网站源码_站长引流工具箱
介绍: 站长便民小工具引流网站源码,站长引流工具箱,内附各种实用小工具,接口是别人的. 可以使用网盘下载地址: http://kekewl.cc/atT7j70pUXI 图片:
javaweb JAVA JSP 流浪狗管理系统（宠物狗管理系统）jsp小宠物在线管理网站源码
JSP 流浪狗管理系统(宠物狗管理系统)jsp小宠物在线管理网站源码大家好,很高兴和大家分享Java项目和经验.不管同学们是出于什么需求.都希望各位计算机专业的同学有一个提高. 本系统采用eclip ...
xss实现获取网站源码
当网站cookie设置了httponly,xss获取不到到网站的cookie.但是我们是可以获取到网站后台的url. 这时候我们可以xss得到网站后台源码,从而找到网站后台的一些敏感操作:添加用户,删 ...
在线小工具箱引流网站源码
源码介绍: 在线工具箱源码+多款有趣的在线工具+一键安装测试环境:nginx+php5.6+mysql5.5 网盘下载地址: http://www.bytepan.com/dvnvgK86lUs ...
【python】python获取网站源码失败，出现一堆script脚本内容
问题原因网站开启了防爬虫,爬取的设置,通过头部的cookie和User-Agent判断解决流程在头部设置以下内容 def ask_url(url,method):proxies = {" ...
好看的随机小姐姐404页面网站源码
介绍: 调用自动获取小姐姐图片,shua新一次更换一次,挺美观的! 网盘下载地址: http://kekewangLuo.net/BjuynFXkdoq 图片:
仿站小工具（获取网站源资源）
仿站小工具仿站小工具是通过网址下载静态网页的工具.从输入的网址下载html代码,提取出JS.Css.Image.Picture.Flash等静态文件网址,再从下载完好的Css代码中提取出Image静 ...
Android使用webview获取百度百家号网站源码
Android使用webview获取网站源码最近在使用webview去获取网页的源码,但是对于百度百家号的文章,网页的源代码获取出来只要标题,内容不见了,想问问有没有大佬知道这个问题.去用pytho ...
CTFhub网站源码
CTFhub网站源码前言一.获取网站源码 1.1 使用python获取源码 1.2 使用dirsearch获取源码二.得到flag 备份文件字典前言在网站开发的时候,一般都会把网站源码放到服 ...

爬虫小练习01—获取网站源码

第一步

第二步

第三步

完整代码

爬虫小练习01—获取网站源码相关推荐

最新文章

热门文章