爬虫小练习01—获取网站源码
第一步
明确自己需要爬取的网页网址URL
https://bbs.zol.com.cn/
第二步
引入requests库,使用request库发起请求
import requests
url = "https://bbs.zol.com.cn/"
r = requests.get(url)
r
此时若显示的状态码不是200,有可能是网站得知用户在使用爬虫程序访问, 禁止你继续访问。故手动添加Headers,在Headers中, User-Agent 项会记录用户的使用系统和浏览器版本,伪装成一个普通的用户
User-Agent查找方式:(查找自己的电脑)
修改后代码:
import requests
url = 'http://bbs.zol.com.cn/'
headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'}
r = requests.get(url, headers = headers)
r
第三步
# 查看网页的源代码
r.text
若我们采集到的网页源码中的中文部分没有正常解析,有可能是网页编码格式不正确
# 这里显示出的编码是我们解析网页使用的编码
r.encoding
# 使用appent_encoding 用软件推测网页编码
r.apparent_encoding
# 给encoding属性重新赋值, 用推测的编码去解析网页内容
r.encoding = r.apparent_encoding
然后重新查看网页源码
完整代码
import requests
# 访问的网址
url = 'http://bbs.zol.com.cn/'
# 字典格式的变量
headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'}
# 固定语法(和请求的网页相关的内容,都封装在了r中)
r = requests.get(url, headers = headers)
# 给encoding属性重新赋值, 用推测的编码去解析网页内容
r.encoding = r.apparent_encoding
#查看网页源代码
r.text
# 访问的消息头
r.headers
# 获取状态码
r.status_code
爬虫小练习01—获取网站源码相关推荐
- 站长便民小工具引流网站源码_站长引流工具箱
介绍: 站长便民小工具引流网站源码,站长引流工具箱,内附各种实用小工具,接口是别人的. 可以使用 网盘下载地址: http://kekewl.cc/atT7j70pUXI 图片:
- javaweb JAVA JSP 流浪狗管理系统(宠物狗管理系统)jsp小宠物在线管理网站源码
JSP 流浪狗管理系统(宠物狗管理系统)jsp小宠物在线管理网站源码 大家好,很高兴和大家分享Java项目和经验.不管同学们是出于什么需求.都希望各位计算机专业的同学有一个提高. 本系统采用eclip ...
- xss实现获取网站源码
当网站cookie设置了httponly,xss获取不到到网站的cookie.但是我们是可以获取到网站后台的url. 这时候我们可以xss得到网站后台源码,从而找到网站后台的一些敏感操作:添加用户,删 ...
- 在线小工具箱引流网站源码
源码介绍: 在线工具箱源码+多款有趣的在线工具+一键安装 测试环境:nginx+php5.6+mysql5.5 网盘下载地址: http://www.bytepan.com/dvnvgK86lUs ...
- 【python】python获取网站源码失败,出现一堆script脚本内容
问题原因 网站开启了防爬虫,爬取的设置,通过头部的cookie和User-Agent判断 解决流程 在头部设置以下内容 def ask_url(url,method):proxies = {" ...
- 好看的随机小姐姐404页面网站源码
介绍: 调用自动获取小姐姐图片,shua新一次更换一次,挺美观的! 网盘下载地址: http://kekewangLuo.net/BjuynFXkdoq 图片:
- 仿站小工具(获取网站源资源)
仿站小工具 仿站小工具是通过网址下载静态网页的工具.从输入的网址下载html代码,提取出JS.Css.Image.Picture.Flash等静态文件网址,再从下载完好的Css代码中提取出Image静 ...
- Android使用webview获取百度百家号网站源码
Android使用webview获取网站源码 最近在使用webview去获取网页的源码,但是对于百度百家号的文章,网页的源代码获取出来只要标题,内容不见了,想问问有没有大佬知道这个问题.去用pytho ...
- CTFhub网站源码
CTFhub网站源码 前言 一.获取网站源码 1.1 使用python获取源码 1.2 使用dirsearch获取源码 二.得到flag 备份文件字典 前言 在网站开发的时候,一般都会把网站源码放到服 ...
最新文章
- C++ queue 详细介绍
- Acronis True Image无法卸载或者卸载导致无法开机解决办法
- SAP Spartacus的ProductAdapter和OccProductAdapter
- SAP Spartacus Popover Component 显示与否的逻辑判定
- 2021前端面试题总结
- 低版本webview无法请求jquery ajax
- android studio 错误: 找不到符号 符号: 方法 xxx() 位置: 类 xxx
- C10K 非阻塞 Web 服务器
- 等重构完这系统,我就辞职!
- 20190917:(leetcode习题)将有序数组转换为二叉搜索树
- java什么会引用传递_在java中为什么很多人说有值传递和引用传递?引用传递的本质...
- cygwin的离线安装包
- qq音乐服务器的位置,QQ音乐的歌曲真实地址解析
- 再梳理一下seqtoseq,encoder-decoder,attention,transformer的概念
- 用C/汇编代码实现imx6ull点灯
- Java并发编程-Exchange
- 数据分析---pandas(一)
- [转载] 晓说——第19期:千年科举那些事——官场
- Latex之参考文献字体大小
- 5G消息赋能,菊风助力银行业加速融入数字化场景生态
热门文章
- 【毕业设计】基于stm32的智能饮水控制系统 - 单片机 嵌入式 物联网
- 【附源码】计算机毕业设计SSM美食推荐系统
- 百度地图指定省市进行描边处理,省市外进行半透明遮盖
- 深度 | 激光雷达独角兽Quanergy的危急时刻
- html5与课程思政,省级“课程思政”示范课程:web综述-教案.pdf
- react前端下载后端返回文件流(文件流下载excel、csv)
- (三)Server和Service
- 32位计算机分配的最大内存大小,win732位内存支持多大内存 win732位内存最大支持大小【图文】...
- 20191021 设计图都不会画,还想做”架构师“?
- Unity查看接入的Ironsource和adapter 版本号