【python】python获取网站源码失败,出现一堆script脚本内容
问题原因
网站开启了防爬虫,爬取的设置,通过头部的cookie和User-Agent判断
解决流程
在头部设置以下内容
def ask_url(url,method):proxies = {"http": None,"https": None,}header = {"Cache-Control":"no-cache","Cookie":"xxx",//通过浏览器控制台获取'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.17 Safari/537.36 Edg/99.0.1150.11'//通过浏览器控制台获取}requests.packages.urllib3.disable_warnings()if(method == 'get'):page_text = requests.get(url,headers=header,verify=False,proxies=proxies).contentelse:page_text = requests.post(url,headers=header,verify=False,proxies=proxies).content# 编码格式转换,防止中文乱码page_text.decode("utf-8","ignore")#实例化beautifulSoup对象,需要将页面源码数据加载到该对象中soup = BeautifulSoup(page_text,'html.parser')# print(soup)return soup
✨踩坑不易,还希望各位大佬支持一下\textcolor{gray}{踩坑不易,还希望各位大佬支持一下}踩坑不易,还希望各位大佬支持一下
【python】python获取网站源码失败,出现一堆script脚本内容相关推荐
- 爬虫小练习01—获取网站源码
第一步 明确自己需要爬取的网页网址URL https://bbs.zol.com.cn/ 第二步 引入requests库,使用request库发起请求 import requests url = &q ...
- xss实现获取网站源码
当网站cookie设置了httponly,xss获取不到到网站的cookie.但是我们是可以获取到网站后台的url. 这时候我们可以xss得到网站后台源码,从而找到网站后台的一些敏感操作:添加用户,删 ...
- Android使用webview获取百度百家号网站源码
Android使用webview获取网站源码 最近在使用webview去获取网页的源码,但是对于百度百家号的文章,网页的源代码获取出来只要标题,内容不见了,想问问有没有大佬知道这个问题.去用pytho ...
- CTFhub网站源码
CTFhub网站源码 前言 一.获取网站源码 1.1 使用python获取源码 1.2 使用dirsearch获取源码 二.得到flag 备份文件字典 前言 在网站开发的时候,一般都会把网站源码放到服 ...
- python源码_Python爬虫入门之获取网页源码
爬虫,就是用程序代替人去访问网站,然后把网站上需要的东西拿下来:类似人输入网址,看到页面,然后复制粘贴,只是把这个过程自动化. 那么第一步就是去访问网站,要看到网站的页面,对程序来说也就是源码.笔者在 ...
- 计算机毕业设计Python+django的零食销售商城网站(源码+系统+mysql数据库+Lw文档)
项目介绍 随着人们生活条件的改善,人们对生活的追求也越来越高.在闲暇之时品尝上美味的零食,是当前很多人的一个休闲方式.当前临时市场鱼目混杂,种类繁多很多消费者不知道如何去选购更加美味可口的零食.尤其 ...
- python开发直播网站_开发直播网站源码的三种计算机语言
直播网站源码开发所用的语言,根据未来运营平台不同,其选择也不同.一般来说,如果是PC后台,那么会采用PHP语言编写,如果是在安卓上开发,则选择Java语言,如果是在iOS上开发,则采用object-c ...
- Python 爬虫 之 爬虫的一些基本知识和基本操作(爬取视频、图片、获取网页源码等)整理
Python 爬虫 之 爬虫的一些基本知识和基本操作(爬取视频.图片.获取网页源码等)整理 目录
- 整理了30款Python小游戏附源码,五一有的玩了
快到五一了,整理了 30 款 Python 小游戏源码分享给大家,具体内容可以点击下方视频号查看: 点击上方视频后,源码获取方式:①关注上方视频号.②点赞当前视频.③在当前视频评论区扣1 友情提示:获 ...
最新文章
- Poj-1088-滑雪
- 江苏省计算机学会科学技术奖,孙国梓
- java fork join原理_Java并发Fork-Join框架原理解析
- foreach形式的for语句
- LeetCode_树类
- 记sentinel里防止多并发下读取脏数据的操作
- java对hashmap迭代_Java:通过HashMap迭代,这样更有效率?
- 【转】C#中使用TransactionScope类(分布式事务) 和 锁
- 一步步编写操作系统 49 加载内核2
- SpringBoot xml层SQL update之foreach循环的坑
- Java函数式编程详解
- /usr/bin/ld: cannot find Scrt1.o: No such file or directory
- 几款非常好用并免费的项目进度管理软件
- PB通过VDN实现Http上传、下载
- 5e服务器优化参数,终极优化篇(7700KOC4.8G+1070默认+16GDDR43000)5E练枪图1080P700FPS...
- SpringMVC框架原理图
- Flutter 2020/2/18 来到app登录界面
- C语言结构体(Struct)——摘自C语言学习网
- 聚美优品广告词和经典分析
- HDU5285.wyh2000 and pupil
热门文章