不能让你暴富,但至少可以奔小康了!

想了解更多精彩内容,快来关注南大盛联

阅读本文,假定你使用的是Windows操作系统下面的python3.X版本。

并且已经掌握了一些基本的python操作。否则,请从本系列的第一篇开始阅读。

我们力求看到这篇文章的朋友,都不会因为太复杂而看不懂。

存档这个技术活,或者说持久化,都需要解决哪些问题呢?我看就三个问题:

1:存到哪里?

2:如何存?

3:存什么?

1:存到哪里?

这个目前第一步的话,就是存到本地电脑的硬盘上,就是我们说的C盘或者D盘,或者其他的硬盘上,都是可以的。

暂且先不去了解Linux,或者存到数据库,这是下一阶段的事情,后面都会一一展开讨论。

比如存档的时候,就是存到D盘下面资料夹A201022,这个资料夹名字没有啥新意,就是代表2020年10月22日建立的。

2:如何存?

如果使用python自带模块urllib下的requests方法

代码这样写:

with open('d:\\A201022\\ndsl.html','w') as f:

print(data.read(),file = f)

如果使用第三方模块requests方法

with open('d:\\A201022\\ndsl.html','w') as f:

print(data.url,file = f)

!!!注意:requests模块中没有read()方法。

可能有的同学看到这个什么方法,头就大了,其实这是面向对象的编程里面的名词。

这里容易踩的坑就是:

A:路径的写法:比如我们的路径是D:\A201022\ndsl.html,我们假定是windows系统下

我们可以使用2种方法来进行路径描述,一种写法是双斜杠!

在代码中直接就是:D:\\A201022\\ndsl.html

另一种写法是反斜杠!

或者D:/A201022/ndsl.html

中间隔开的地方必须双斜杠。

我们先记住这样就可以。因为单独的斜杠\是转义符的意思。

B:路径必须写在单引号中

C:必须提前建立好资料夹,还有html文件,其实这个文件非常好建立,建立一个记事本文件,然后把后缀名改为html就可以了。如果不显示后缀名,请开启文件夹显示后缀名。

3:存什么?

就是利用python中自带的urllib模块中的request方法,或者是第三方模块requests.

严重注意:request和requests虽然只有一个字母之差,但是根本不同。不要去试图比较他们。

我们假定

urllib模块中的request方法

import urllib.request

url = 'http://www.baidu.com'

data = urllib.request.urlopen(url)

第三方模块中的requests方法

import requests

url = 'http://www.baidu.com'

data = requests.get(url)

这样的话,就是把我们访问的地址写进去了。

result=requests.post(url,data,headers)

注意这里是模版,前面这个result可以依照自己的要求进行更改的。

requests.post不能更改,url替换成网址,需要用单引号引起来,headers是个字典变量,这样的{‘User-Agent’:‘’}

后面单引号中填写自己浏览器中的用户代理。

任何浏览器中输入about:version获得!

result.text  #可以获取响应的内容如抓回来的网页

result. encoding='utf-8'

#有时回来的是乱码,改变编码以使其正常显示根据实际情况改变编码utf-8、gb2312等

result. content  #可以获取二进制内容,如抓取登陆时的验证码等非字符资源

result.cookies  #可以查看当前保存的cookie情况

result. status_code  #可以查看HTTP状态码(如200 OK、404 Not Found等)

result.url  #可以查看当前请求的网址

python爬数据以字典变量保存_python爬虫第7篇——爬取的数据如何存档相关推荐

  1. 手机应用url抓取_Python爬虫入门,快速抓取大规模数据(第六部分)

    在前面的章节中,我们以尽量少的代码演示了爬虫的基本原理.如果只是需要抓取一些简单的数据,那么我们修改一下前面的代码就可以完成任务了.但是当我们需要完成一些复杂的大型抓取任务时,我们就需要考虑更多东西, ...

  2. python批量读取图片并批量保存_Python爬虫:批量抓取花瓣网高清美图并保存

    原标题:Python爬虫:批量抓取花瓣网高清美图并保存 昨天看到了不错的图片分享网--花瓣,里面的图片质量还不错,所以利用selenium+xpath我把它的妹子的栏目下爬取了下来,以图片栏目名称给文 ...

  3. python爬音乐评论生成词云图_python爬虫+词云图,爬取网易云音乐评论

    又到了清明时节,用python爬取了网易云音乐<清明雨上>的评论,统计词频和绘制词云图,记录过程中遇到一些问题 爬取网易云音乐的评论 一开始是按照常规思路,分析网页ajax的传参情况.看到 ...

  4. iOS开发——网络使用技术OC篇网络爬虫-使用正则表达式抓取网络数据

    网络爬虫-使用正则表达式抓取网络数据 关于网络数据抓取不仅仅在iOS开发中有,其他开发中也有,也叫网络爬虫,大致分为两种方式实现 1:正则表达 2:利用其他语言的工具包:java/Python 先来看 ...

  5. python爬取网页数据软件_python爬虫入门10分钟爬取一个网站

    一.基础入门 1.1什么是爬虫 爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序. 从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HT ...

  6. python爬取公交车站数据_Python爬虫实例_城市公交网络站点数据的爬取方法

    爬取的站点:http://beijing.8684.cn/ (1)环境配置,直接上代码: # -*- coding: utf-8 -*- import requests ##导入requests fr ...

  7. python爬取b站评论_Python爬虫框架:scrapy抓取B站博人传评论数据

    1. B站博人传评论数据爬取简介 今天想了半天不知道抓啥,去B站看跳舞的小姐姐,忽然看到了评论,那就抓取一下B站的评论数据,视频动画那么多,也不知道抓取哪个,选了一个博人传跟火影相关的,抓取看看.网址 ...

  8. python爬虫和数据可视化论文_Python爬虫之小说信息爬取与数据可视化分析

    一.小说数据的获取 获取的数据为起点中文网的小说推荐周榜的所有小说信息. 源代码对所有想要获取的数据都有注释. http://dxb.myzx.cn/grandmal/ # -*- coding: u ...

  9. python爬取喜马拉雅_Python爬虫实战案例之爬取喜马拉雅音频数据详解

    这篇文章我们来讲一下在网站建设中,Python爬虫实战案例之爬取喜马拉雅音频数据详解.本文对大家进行网站开发设计工作或者学习都有一定帮助,下面让我们进入正文. 前言 喜马拉雅是专业的音频分享平台,汇集 ...

最新文章

  1. R语言广义线性模型Logistic回归模型亚组分析及森林图绘制
  2. tensorflow.unstack() 与 tensorflow.stack()
  3. Dubbo 在maven项目中的应用
  4. SQL分割字符串,SQL按照指定字符分割字符串,SQL处理字符串...
  5. seata-server没有从nacos配置中心读取配置_微服务新秀之Nacos,看了就会,我说的
  6. 机器学习7—AdaBoost学习笔记
  7. 计算机应用与网络讲义,计算机基础讲义
  8. 获取文本中你须要的字段的 几个命令 grep awk cut tr sed
  9. matlab2c使用c++实现matlab函数系列教程-binostat函数
  10. SQL入门经典(第5版)
  11. Pulling without specifying how to reconcile divergent branches is hint: discouraged. You can squelch
  12. [ROS学习笔记]ROS中使用激光雷达(RPLIDAR)
  13. 微信小程序实现二维码签到考勤
  14. 传奇开服技术服务端各文件代表着什么意思
  15. 【Python】B样条曲线绘制
  16. 《python编程从入门到实践》第16章:收盘价均值的报错分析与解决
  17. Kick Start Round A 2022
  18. Oracle 的SQL*LOADER中optionally enclosed的作用
  19. Android 短信验证码倒计时60s实现步骤
  20. 【小白学习记录】渗透测试之信息收集

热门文章

  1. 碳酸氢锂硫酸锂溶液除钙镁
  2. 魅蓝note3 android4.4,魅蓝note3有几个版本?魅蓝note3标准版和全网通版区别对比介绍...
  3. 我通过一个测试类型的帖子给景城网带来了上万IP,从空间头像看穿你的性格特点,准的我都傻了! (来看看你自己~)。
  4. mif文件C语言生成
  5. css前端开发学习,前端百度云csdn
  6. 动态ip地址有什么优缺点!
  7. 科普向:数字货币期货的玩法规则了解一下
  8. 旅行社微信小程序,助力旅游企业引流获客,提高转化率
  9. (基于matlab自写代码)语音信号增强
  10. 百元优质TWS耳机推选,请关注努比亚新音C1耳机,定义蓝牙耳机新基准