分享一则对于网抓中面对post请求访问的页面或者在分页过程中需要post请求才可以访问的内容!

面的post请求的网址是不可以零参访问网址的,所以我们在网抓的过程中需要给请求传表单数据,下面看一下网页中post请求的网址:

post请求状态码和get请求的状态码一致,但是在参数中我们可以看到表单数据有很多的参数:

其中的__VIEWSTATE是必须要传的参数,而这个参数是在源码中能获取到的,这个__VIEWSTATE是asp.net中特有的,所以只有在访问asp.net的网站的时候这个参数是必须传的,其他的网站,只要有参数变化的表单数据就需要传到post请求中!

我们在转页的过程中会看到类似于这样的

表单,那后面的数字就是我们转页后的页码!所以我们的这个参数也要传,获取转页的页码的总数,同样可以在源码中获取,如果只显示了1234页,那就需要计算你需要的内容有多少个,每一页的内容个数,做一个取余算法就可以算出来了!

现在定义一个post_data:

1 post_data={"__EVENTTARGET":"Pager1","__EVENTARGUMENT":page_num,"ddlManufacturer":"0","Pager1_input":str(page_num-1)}

这是我自定义的post参数,page_num代表着分页的页码。

__VIEWSTATE是在源码中,这里分享的是xpath方法:

1 a = doc.xpath('//input[@id="__VIEWSTATE"]')2 if len(a) >0:3 post_data['__VIEWSTATE'] = a[0].get('value')

使用BeautifulSoup就是:

1 soup = BeautifulSoup(h,"html.parser")2 a = soup.find('input',id='__VIEWSTATE')3 ifa:4 post_data['__VIEWSTATE'] = a['value']

获取到重要的表单数据后,我们就只需要传参访问网页源码了!

1 r2 = requests.post(url,data=post_data,headers=headers,timeout=20)2 ht2 = r2.content #这里就是访问的网页源码!

xpath的解析代码:  doc2 = HTML.document_fromstring(网页源码)

网页的简单post请求就是这样来传递参数,访问的!我自己还有很多的学习资料分享在607021567qq群里面了!还有微信飞机大战的源代码分享!

python爬虫网页分页_python 面对post分页爬虫相关推荐

  1. python解析网页数据_python爬虫——爬取网页数据和解析数据

    1.网络爬虫的基本概念 网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序. 只要浏览器能够做的事情,原则上,爬虫都能够做到. ...

  2. python爬虫网页表格_python网页表格

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 以网页表格为例:https:www.kuaidaili.comfree该网站数据 ...

  3. python获取网页图片_Python获取网页上图片下载地址的方法

    本文实例讲述了Python获取网页上图片下载地址的方法.分享给大家供大家参考.具体如下: 这里获取网页上图片的下载地址是正在写的数据采集中的一段,代码如下: #!/user/bin/python3 i ...

  4. python爬虫网页超链接_Python爬虫获取网页上的链接

    Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.利用Beautiful Soup可以对网页进行解析,提取所有的超链接. Beautiful Soup提供一些简单的.p ...

  5. python爬虫网页文字游戏_python爬虫下载某网站156个网页小游戏素材

    本帖最后由 三木猿 于 2020-9-18 23:19 编辑 有哪些游戏自己看吧↓ 一波网页小游戏(摸鱼专用) https://www.52pojie.cn/thread-1269936-1-1.ht ...

  6. python 批量下载网页图片_Python 实现简单的爬虫功能 -----批量下载网页中的图片...

    我使用的是macPro , mac 自带了python2.7 , 我自己下载了pytho3.6根据操作进行安装后,终端默认的还是 python 2.7, 需要修改为 Python3.6 进入 ~/.b ...

  7. python网页数据处理_python 处理html页面爬虫数据

    请求的url 数据 http://www.hkex.com.hk/chi/st... 对了我只抓取一张表,希望能够提取关键表的数据. 希望抓取的数据是该成交报表,但是HTML 的标签都是 造成了数据提 ...

  8. python 搜索网页数据_python爬虫爬取网页所有数据

    技术文档 主体内容:可以认为是页面最想表达的内容总和.对于内容详情页来说,主体内容指从标题开始至正文内容结束,翻页区域也被视为主体内容,文章后的评论.分享.推荐等不视为主体内容. 首屏:用户点击搜索结 ...

  9. python 访问网页 重定向_Python数据网络采集5--处理Javascript和重定向

    Python数据网络采集5--处理Javascript和重定向 到目前为止,我们和网站服务器通信的唯一方式,就是发出HTTP请求获取页面.有些网页,我们不需要单独请求,就可以和网络服务器交互(收发信息 ...

最新文章

  1. 零起点学算法07——复杂一点的表达式计算
  2. 快速搭建一个restful风格的springboot项目
  3. python 爬虫 scrapy 和 requsts 哪个快_Scrapy爬虫框架结构以及和Requests库的比较
  4. 机房安防系统常见故障原因及处理方法
  5. CSS3常用动画总结
  6. java数据集成是什么_数据集成 - BlueDavy之技术Blog - BlogJava
  7. 打开黑色_垃圾桶里的黑色塑料袋,打开一看,倒吸一口气!
  8. docker 容器中不支持中文的解决方法
  9. VLSM(可变长子网掩码)图表
  10. FileZilla是一种快速 FTP 上传
  11. 为Python安装Redis库
  12. x线计算机体层成像设备教案,医学影像设备学第4章-数字X线设备ppt课件
  13. 2017大一计算机教程,2017年计算机等考一级章节考点:WPS2000新手入门教程
  14. 免费在线的redmine项目演示,提供免费三级域名
  15. bat操作ftp上传下载命令
  16. linux python2升级到python3(源码编译安装)
  17. EXCEL数据之美:带你走进数据可视化
  18. 四色定理(DFS深搜)
  19. java dispo lock_java
  20. 顺序查找(利用监视哨)的实现

热门文章

  1. 【Vue入门实践3】不调后端接口==>el-table单纯前端实现查询和重置功能==>【el-table组件使用】表格静态前端筛选、查询重置功能
  2. MDK软件,利用ARM仿真器调试与下载 华大单片机
  3. 摄像头标定--camera_calibration
  4. java 在线投票_基于javaweb的在线投票系统
  5. WRITE_ONCE()
  6. MediaPlayer 音乐播放器进度条
  7. 查看linux内核的三种方法介绍
  8. 基于DeeplabV3+的语义分割实现
  9. 网页|如何制作一个HTML网页
  10. 【附源码】计算机毕业设计SSM青岛恒星科技学院机房管理系统