百度数据抓取及保存文件:

import requests# 获取网站信息
response = requests.get("http://www.baidu.com"); #生成一个response对象
response.encoding = response.apparent_encoding; #设置编码格式
#response.encoding = "utf-8"; #设置接收编码格式
print("状态码:" + str(response.status_code)); #打印状态码
#print(response.text); #输出爬取的信息
#保存文件
file = open("D:\\baidu.html","w",encoding="utf")  #打开一个文件,w是文件不存在则新建一个文件,这里不用wb是因为不用保存成二进制
file.write(response.text);
file.close();

知乎数据抓取及保存文件:

import requests#response = requests.get( "http://www.zhihu.com")  #第一次访问知乎,不设置头部信息
#print( "第一次,不设头部信息,状态码:"+response.status_code )# 没写headers,不能正常爬取,状态码不是 200
#下面是可以正常爬取的区别,更改了User-Agent字段
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36"
}#设置头部信息,伪装浏览器
response = requests.get("http://www.zhihu.com" , headers=headers);  #get方法访问,传入headers参数,
print("状态码:" + str(response.status_code)); # 200!访问成功的状态码
#print(response.text);
#保存文件
file = open("D:\\zhuhu.html","w",encoding="utf")  #打开一个文件,w是文件不存在则新建一个文件,这里不用wb是因为不用保存成二进制
file.write(response.text);
file.close();

保存图片:

#保存百度图片到本地import requests #先导入爬虫的库,不然调用不了爬虫的函数response = requests.get("https://www.baidu.com/img/baidu_jgylogo3.gif")  #get方法的到图片响应file = open("D:\\baidu_logo.gif","wb") #打开一个文件,wb表示以二进制格式打开一个文件只用于写入file.write(response.content) #写入文件file.close()#关闭操作,运行完毕后去你的目录看一眼有没有保存成功

Python学习-简单爬虫及文件保存相关推荐

  1. python秒懂百科视频,Python开发简单爬虫

    Python开发简单爬虫 源码网址:  http://download.csdn.NET/detail/hanchaobiao/9860671 一.爬虫的简介及爬虫技术价值 1.什么是爬虫: 一段自动 ...

  2. c语言实现爬虫功能,用C/C 扩展Python语言_python 调用c语言 python实现简单爬虫功能_python实现简单爬虫...

    用C/C 扩展Python语言 Python是一门功能强大的脚本语言,它的强大不仅表现在功能上,还表现在其扩展性上.她提供大量的API以方便程序员利用C/C++对Python进行扩展.因为执行速度慢几 ...

  3. Python学习网络爬虫--转

    原文地址:https://github.com/lining0806/PythonSpiderNotes Python学习网络爬虫主要分3个大的版块:抓取,分析,存储 另外,比较常用的爬虫框架Scra ...

  4. Python学习之路5☞文件处理

    Python学习之路5☞文件处理 一.文件处理流程 打开文件,得到文件句柄并赋值给一个变量 通过句柄对文件进行操作 关闭文件 1 正趣果上果 2 Interesting fruit fruit 3 4 ...

  5. Python学习笔记D9(文件)

    Python学习笔记D9(文件) 文件 1.打开文件 open(file, mode='r') 接收两个参数:文件名(file)和模式(mode),用于打开一个文件,并返回文件对象,如果该文件无法被打 ...

  6. imooc疯狂的蚂蚁《Python开发简单爬虫》源代码

    以下为imooc疯狂的蚂蚁<Python开发简单爬虫>源代码,调试有些问题. html_downloader.py import html_downloader import html_o ...

  7. 从零开始学习python编程-从零开始的Python学习 -- 简单的练习题

    从零开始的Python学习 – 简单的练习题 目录: 从零开始的Python学习 -- 简单的练习题 前言: 顺序结构 A+B problem 苹果采购 分支结构 数的性质 闰年判断 Apple 循环 ...

  8. 003.[python学习] 简单抓取豆瓣网电影信息程序

    003.[python学习] 简单抓取豆瓣网电影信息程序 声明:本程序仅用于学习爬网页数据,不可用于其它用途. 本程序仍有很多不足之处,请读者不吝赐教. 依赖:本程序依赖BeautifulSoup4和 ...

  9. Python开发简单爬虫 - 慕课网

    课程链接:Python开发简单爬虫 环境搭建: Eclipse+PyDev配置搭建Python开发环境 Python入门基础教程 用Eclipse编写Python程序 课程目录 第1章 课程介绍 1- ...

最新文章

  1. 使用Leangoo做销售管理体系
  2. 校园职业社交Handshake获1005万美金A轮融资
  3. 如何使用eclipse创建Javaweb项目
  4. linux 7查内核,查看CentOS7内核版本及发行版本
  5. java对mysql查询_如何利用java对mysql数据库进行增删改查
  6. php表单密码由加密变明文,PHP 安全性漫谈 Linux+Apache+Mysql+PHP
  7. 区块链如何击败 AI、云计算成为最受欢迎技能?
  8. 安全教育平台账号后四位_安全教育平台登录账号是什么?
  9. 单片机蜂鸣器奏乐代码例子
  10. oracle查询创建用户,Oracle创建设置查询权限用户
  11. 如何免费去酒吧看球赛并喝扎啤
  12. SAP 财务本地化-账结法
  13. 【券后价16.80元】【海蓝蓝】夹心海苔脆芝麻海苔即食罐装海苔宝宝辅食儿童零食40克...
  14. 设置linux定时任务,linux定时任务的设置
  15. 传奇客户端文件介绍注解教程,GM必备知识
  16. chrome浏览器当鼠标碰到超链接的时候会窗口会抖动
  17. 孙鑫vc++ 第六课 笔记 菜单的工作原理及编写应用
  18. tomcat实现https双向认证配置
  19. 矩阵相似,矩阵合同,矩阵等价概念总结
  20. 事关智能汽车行业未来“底线责任”,新标准终于“靴子落地”

热门文章

  1. postgresql主从搭建
  2. 在excel中如何筛选重复数据_Excel数据筛选,你真的会吗?
  3. 流量为王的时代,软件测试的性能测试要怎么开展?
  4. android 图像处理sdk,用于AndroidSDK的快速位图模糊
  5. jquery判断字符串的长度,中英文都可
  6. 纺织品抗静电测试方法
  7. slam十四讲-ubuntu20安装opencv3.4.16
  8. Chapter2.2 管理Ansible配置文件
  9. 2019高考英语高频词汇
  10. java 保留一位小数_java如何保留一位小数