python爬虫,记录一下爬取过程,列表数据,翻页,post方式,保存字典
记录一下自己的爬虫的过程把,最近在做个项目。
要爬取的网站比较简单。
其中的问题是:
post方式,网站的数据有一些需要使用post方式才能获得。
比如,
这部分要看到《发起的项目》,需要鼠标点击,刚开始以为是ajax,其实不算,是js的方式获取的。
因此,仔细研究发现,其实网址是这样的。
https://s*****view.php?id=GKUdgjKayCQvY
具体部分省略,看这个网址,其实没什么,但是通过浏览器检查,可以发现,鼠标点击《发起的项目》,会有一个js动作。
如果只有一页,
像这样
那么不会发现js动作。但是如果很多也,需要点击,就会发现,需要js了。
这个动作,是包含post的。
具体的参数如下
因此,其实请求的网址,可以用这样组成。
https://sd.zhiyuanyun.com/app/api/view.php?m=get_opps&type=2&id=89608371&p=3
所以,这里面就是id,p是页面。其他都是默认参数。
然后在利用post方式,构造出来这个请求就可以了。
def get_proj_number(id):print("((((((((( >>>>>>>> 现在开始 获取 组织 一共开展了 多少个项目 ")params = (('m', 'get_opps'), ('type', '2'), ('id', id), ('p', "1"), )response = requests.get('https://sd.zhiyuanyun.com/app/api/view.php', headers=headers, params=params)selector = Selector(response)
这样,把p参数弄成一个for循环就可以了。
保存列表数据
最后请求下来的数据网页是一个列表
那么怎么保存这个列表。
列表包含 th 和td
那么 我直接把td 做成列表,然后zip一下。
我就弄了一个简单点的。做一个zip(list)
python爬虫,记录一下爬取过程,列表数据,翻页,post方式,保存字典相关推荐
- python爬虫课设-爬取3000条数据并做数据可视化
很久以前接的单子,分享一下(挺水的,将就着看吧) 文章目录 作业要求 数据爬取 爬取结果 数据处理 数据可视化 大作业文档 作业要求 <Python与数据分析>期末大作业要求(2020-2 ...
- Python爬虫实战案例:取喜马拉雅音频数据详解
前言 喜马拉雅是专业的音频分享平台,汇集了有声小说,有声读物,有声书,FM电台,儿童睡前故事,相声小品,鬼故事等数亿条音频,我最喜欢听民间故事和德云社相声集,你呢? 今天带大家爬取喜马拉雅音频数据,一 ...
- 初试python爬虫(简单爬取站长之家第一页图片)
爬取站长之家第一页图片 爬虫 ----需要借助第三方库 requests beautifulsoup4 html5lib 1.模拟浏览器发送请求 并且接收服务器的响应数据 requests 2.解析并 ...
- python爬取豆瓣影评_【python爬虫实战】爬取豆瓣影评数据
概述: 爬取豆瓣影评数据步骤: 1.获取网页请求 2.解析获取的网页 3.提速数据 4.保存文件 源代码: # 1.导入需要的库 import urllib.request from bs4 impo ...
- python爬虫四:爬取贴吧数据
# -*- coding: utf-8 -*- import requests import time from bs4 import BeautifulSoupimport io import sy ...
- 数据分析利器Python——爬虫(含爬取过程、Scrapy框架介绍)
文章目录 一.基础知识 1.定义 2.基本架构 二.URL管理模块 三.网页下载模块 Python中的requests模块 四.网页解析模块 1.结构化网页解析 2.BeautifulSoup使用步骤 ...
- 【Python爬虫实战】爬取网易新闻某详情页信息 1.0
文章目录 一.网页分析 二.代码实现 三.总结 一.网页分析 本次爬取目标网站为 https://www.163.com/dy/article/G0F6HT9A051186GP.html 爬取对象为新 ...
- Python爬虫实战之爬取QQ音乐数据
目录 准备工作 安装方法 步骤 新建py文件 复制网页链接 获取源代码 获取数据 源代码 这里用QQ音乐作为一个例子.不同的链接,按照此方法都可做到. 本次程序编写原则上按照模块化进行划分,一个步骤一 ...
- python 爬虫 Form Data爬取穷游网的数据
数据 以穷游网郑州市的旅游景点为例 请求方式 分页的时候,是向同一个url发请求,不同的是Form Data里的page参数 参考代码 #!/usr/bin/env python # -*- codi ...
最新文章
- stm32串口通信(初学者对于串口通信的理解)
- 第22课 抽奖 《小学生C++趣味编程》
- Ten years of pedestrian Detection-论文整理
- 混合类型数据格式化输入
- 这3件事发生后,我彻底给 Python“跪了”!
- 2016.01.18 UILabel
- 一文看懂PPPoE协议——PPPoE协议简介
- MMC-HVDC仿真模型,pscad柔性直流输电仿真mmc仿真模型,双端mmc模型,MMC为21电平NLM和均压控制
- python-qbittorrent+爬虫第二弹:爬取国内某bt站内容、分析页面,批量导入qbittorrent并下载归档
- 排列组合的写法_数字排列组合公式写法介绍
- 视频直播技术详解之延迟优化
- 第8章 中医证型关联规则挖掘代码调整
- 简述windows计算机启动过程,计算机启动过程
- 空指针异常(NullPointerException)
- 《Python 深度学习》刷书笔记 Chapter 3 预测房价:回归问题
- 新计算机的windows要不要不断更新,win10一直出现无法完成更新正在撤销更改请不要关闭你的计算机,怎么办?...
- Python库pillow(PIL)的使用
- List Set Map 集合不可修改
- Python numpy.corrcoef函数方法的使用
- gSOAP生成ONVIF框架代码
热门文章
- php 格式化html,HTML代码如何格式化
- servlet获取jsp页面的值为null_Jsp挖掘(4)-打造自己的jsp防御代码
- asic面试题目 英伟达_英伟达一面总结
- mysql 安全扫描_MySQL 安全和监控 - Can't Wait Any Longer - OSCHINA - 中文开源技术交流社区...
- Android开机logo修改方法
- 反激式开关电源中PC817与TL431的配合电路探讨
- 【移动通信】4G LTE帧结构
- 基于CASIA-GaitDatasetB步态图像轮廓数据库的步态周期检测与步态角度特征MATLAB源码
- 基于FPGA的超声波数据图像显示
- 八、TFTP服务器搭建及应用