记录一下自己的爬虫的过程把,最近在做个项目。

要爬取的网站比较简单。

其中的问题是:

post方式,网站的数据有一些需要使用post方式才能获得。

比如,

这部分要看到《发起的项目》,需要鼠标点击,刚开始以为是ajax,其实不算,是js的方式获取的。

因此,仔细研究发现,其实网址是这样的。

https://s*****view.php?id=GKUdgjKayCQvY

具体部分省略,看这个网址,其实没什么,但是通过浏览器检查,可以发现,鼠标点击《发起的项目》,会有一个js动作。

如果只有一页,

像这样

那么不会发现js动作。但是如果很多也,需要点击,就会发现,需要js了。

这个动作,是包含post的。

具体的参数如下

因此,其实请求的网址,可以用这样组成。

https://sd.zhiyuanyun.com/app/api/view.php?m=get_opps&type=2&id=89608371&p=3

所以,这里面就是id,p是页面。其他都是默认参数。

然后在利用post方式,构造出来这个请求就可以了。

def get_proj_number(id):print("((((((((( >>>>>>>> 现在开始 获取 组织 一共开展了 多少个项目 ")params = (('m', 'get_opps'), ('type', '2'), ('id', id), ('p', "1"), )response = requests.get('https://sd.zhiyuanyun.com/app/api/view.php', headers=headers, params=params)selector = Selector(response)

这样,把p参数弄成一个for循环就可以了。

保存列表数据

最后请求下来的数据网页是一个列表

那么怎么保存这个列表。

列表包含 th  和td

那么 我直接把td 做成列表,然后zip一下。

我就弄了一个简单点的。做一个zip(list)

python爬虫,记录一下爬取过程,列表数据,翻页,post方式,保存字典相关推荐

  1. python爬虫课设-爬取3000条数据并做数据可视化

    很久以前接的单子,分享一下(挺水的,将就着看吧) 文章目录 作业要求 数据爬取 爬取结果 数据处理 数据可视化 大作业文档 作业要求 <Python与数据分析>期末大作业要求(2020-2 ...

  2. Python爬虫实战案例:取喜马拉雅音频数据详解

    前言 喜马拉雅是专业的音频分享平台,汇集了有声小说,有声读物,有声书,FM电台,儿童睡前故事,相声小品,鬼故事等数亿条音频,我最喜欢听民间故事和德云社相声集,你呢? 今天带大家爬取喜马拉雅音频数据,一 ...

  3. 初试python爬虫(简单爬取站长之家第一页图片)

    爬取站长之家第一页图片 爬虫 ----需要借助第三方库 requests beautifulsoup4 html5lib 1.模拟浏览器发送请求 并且接收服务器的响应数据 requests 2.解析并 ...

  4. python爬取豆瓣影评_【python爬虫实战】爬取豆瓣影评数据

    概述: 爬取豆瓣影评数据步骤: 1.获取网页请求 2.解析获取的网页 3.提速数据 4.保存文件 源代码: # 1.导入需要的库 import urllib.request from bs4 impo ...

  5. python爬虫四:爬取贴吧数据

    # -*- coding: utf-8 -*- import requests import time from bs4 import BeautifulSoupimport io import sy ...

  6. 数据分析利器Python——爬虫(含爬取过程、Scrapy框架介绍)

    文章目录 一.基础知识 1.定义 2.基本架构 二.URL管理模块 三.网页下载模块 Python中的requests模块 四.网页解析模块 1.结构化网页解析 2.BeautifulSoup使用步骤 ...

  7. 【Python爬虫实战】爬取网易新闻某详情页信息 1.0

    文章目录 一.网页分析 二.代码实现 三.总结 一.网页分析 本次爬取目标网站为 https://www.163.com/dy/article/G0F6HT9A051186GP.html 爬取对象为新 ...

  8. Python爬虫实战之爬取QQ音乐数据

    目录 准备工作 安装方法 步骤 新建py文件 复制网页链接 获取源代码 获取数据 源代码 这里用QQ音乐作为一个例子.不同的链接,按照此方法都可做到. 本次程序编写原则上按照模块化进行划分,一个步骤一 ...

  9. python 爬虫 Form Data爬取穷游网的数据

    数据 以穷游网郑州市的旅游景点为例 请求方式 分页的时候,是向同一个url发请求,不同的是Form Data里的page参数 参考代码 #!/usr/bin/env python # -*- codi ...

最新文章

  1. stm32串口通信(初学者对于串口通信的理解)
  2. 第22课 抽奖 《小学生C++趣味编程》
  3. Ten years of pedestrian Detection-论文整理
  4. 混合类型数据格式化输入
  5. 这3件事发生后,我彻底给 Python“跪了”!
  6. 2016.01.18 UILabel
  7. 一文看懂PPPoE协议——PPPoE协议简介
  8. MMC-HVDC仿真模型,pscad柔性直流输电仿真mmc仿真模型,双端mmc模型,MMC为21电平NLM和均压控制
  9. python-qbittorrent+爬虫第二弹:爬取国内某bt站内容、分析页面,批量导入qbittorrent并下载归档
  10. 排列组合的写法_数字排列组合公式写法介绍
  11. 视频直播技术详解之延迟优化
  12. 第8章 中医证型关联规则挖掘代码调整
  13. 简述windows计算机启动过程,计算机启动过程
  14. 空指针异常(NullPointerException)
  15. 《Python 深度学习》刷书笔记 Chapter 3 预测房价:回归问题
  16. 新计算机的windows要不要不断更新,win10一直出现无法完成更新正在撤销更改请不要关闭你的计算机,怎么办?...
  17. Python库pillow(PIL)的使用
  18. List Set Map 集合不可修改
  19. Python numpy.corrcoef函数方法的使用
  20. gSOAP生成ONVIF框架代码

热门文章

  1. php 格式化html,HTML代码如何格式化
  2. servlet获取jsp页面的值为null_Jsp挖掘(4)-打造自己的jsp防御代码
  3. asic面试题目 英伟达_英伟达一面总结
  4. mysql 安全扫描_MySQL 安全和监控 - Can't Wait Any Longer - OSCHINA - 中文开源技术交流社区...
  5. Android开机logo修改方法
  6. 反激式开关电源中PC817与TL431的配合电路探讨
  7. 【移动通信】4G LTE帧结构
  8. 基于CASIA-GaitDatasetB步态图像轮廓数据库的步态周期检测与步态角度特征MATLAB源码
  9. 基于FPGA的超声波数据图像显示
  10. 八、TFTP服务器搭建及应用