python爬取网页源代码并存储到本地实例
这里要用到urllib库
所以首先要安装库
1、windows+r
2、cmd
3、pip install urllib
4、运行下面代码
5、存储完成后,就可以在没有联网的情况下,也能在本地打开该网页
import urllib.requestdef getHtml(url):h = urllib.request.urlopen(url).read()return hdef saveHtml(file_name,file_content):
# 注意windows文件命名的禁用符,比如 / with open (file_name,"wb") as f:
# 写文件用bytes而不是str,所以要转码 f.write( file_content ) h=getHtml('https://blog.csdn.net/sinat_38052999/article/details/78571416')
saveHtml('C:/Users/ASUS/Desktop/text1.html',h)print ("结束")
其它方法:
import requests #调用requests库
res = requests.get('https://kns.cnki.net/KCMS/detail/50.1044.N.20200619.1019.002.html')
#获取网页源代码,得到的res是Response对象
html = res.text #字符串
html = html.encode() #把str转化成byte
with open('C:/Users/ASUS/Desktop/wenjian.html','wb') as f:f.write(html)f.close()
print('完成')
python爬取网页源代码并存储到本地实例相关推荐
- Python 爬取网页信息并保存到本地爬虫爬取网页第一步【简单易懂,注释超级全,代码可以直接运行】
Python 爬取网页信息并保存到本地[简单易懂,代码可以直接运行] 功能:给出一个关键词,根据关键词爬取程序,这是爬虫爬取网页的第一步 步骤: 1.确定url 2.确定请求头 3.发送请求 4.写入 ...
- C++实现爬取网页源代码并下载至本地文件(可直接运行)
文章目录 1.引言 2.演示效果 3.源码 4.补充 1.引言 哈喽,各位小伙伴们,今天我给大家分享的是如何用C++实现爬取网页源代码. 本人用的开发环境为visual studio 2013,涉及到 ...
- java爬取网页并保存_第九讲:Python爬取网页图片并保存到本地
上一讲我们说了如何把网页的数据通过分析后存储到数据库,我们这次讲如何将网页上的图片提取并下载到本地. 思路如下: 我们本次要爬取的是昵图网首页的图片. 1.首先分析我们要爬取的网页的代码结构,每个网页 ...
- 第九讲:Python爬取网页图片并保存到本地
上一讲我们说了如何把网页的数据通过分析后存储到数据库,我们这次讲如何将网页上的图片提取并下载到本地. 思路如下: 我们本次要爬取的是昵图网首页的图片. 1.首先分析我们要爬取的网页的代码结构,每个网页 ...
- python爬取一张图片并保存_第九讲:Python爬取网页图片并保存到本地
上一讲我们说了如何把网页的数据通过分析后存储到数据库,我们这次讲如何将网页上的图片提取并下载到本地. 思路如下: 我们本次要爬取的是昵图网首页的图片. 1.首先分析我们要爬取的网页的代码结构,每个网页 ...
- 第十讲:Python爬取网页图片并保存到本地,包含次层页面
上一讲我们讲到了从昵图网的首页下载图片到本地,但是我们发现首页上面的大部分链接其实都可以进入到二级页面. 在二级页面里面,我们也可以同样进行图片的下载,通过层层循环我们可以把网址的一部分图片下载到本地 ...
- python爬取动态页面并保存_第十讲:Python爬取网页图片并保存到本地,包含次层页面...
上一讲我们讲到了从昵图网的首页下载图片到本地,但是我们发现首页上面的大部分链接其实都可以进入到二级页面. 在二级页面里面,我们也可以同样进行图片的下载,通过层层循环我们可以把网址的一部分图片下载到本地 ...
- Python爬虫爬取网页数据并存储(一)
Python爬虫爬取网页数据并存储(一) 环境搭建 爬虫基本原理 urllib库使用 requests库使用 正则表达式 一个示例 环境搭建 1.需要事先安装anaconda(或Python3.7)和 ...
- python爬取网站源代码+图片
python爬取网站源代码+图片 需求分析 基础知识 正则表达式 python网络请求 文件读写 实现 基本思路 具体实现 结果 总结 需求分析 大部分有志青年都想建立属于自己的个人网站,从零开始设计 ...
最新文章
- jquery和原生js-ajax
- 存储块的删除与状态查询
- 如何在Node.js(Javascript)中等待,我需要暂停一段时间?
- Thread源码阅读
- iOS:转载:IOS谓词--NSPredicate
- MySQL系列之E-1------MySQL主从复制原理
- 企业即时通讯设计理念及实现代码
- 全球链界科技发展大会_科技界女性占五席
- 比穷更可怕的事情是什么?
- oracle 11g for windows卸载
- 15种TBProAudio音乐插件合集包 2021最新
- cocos2d环境及创建一个自己的项目
- 51单片机基础入门教程(精华版)文末有惊喜
- Java中文繁简体转换工具
- 信奥赛1990:【19CSPS提高组】划分
- c#自定义类的指定字段排序
- softmax溢出问题
- 网上作业提交系统的数据库表
- android opengl ppt,Opengl example.ppt
- C语言中%*s,%*c (还有%*.*s)
热门文章
- SOLIDWORKS: Advanced Tools SOLIDWORKS:高级工具 Lynda课程中文字幕
- 感谢 驱动精灵2011
- 运营入门——超级运营术
- 工作中如何避免陷入穷忙的状态
- DA14580软件开发平台参考(二)
- android studio文件内部存储,Android Studio使用内部存储上的文件创建diconary
- 读《python计算机视觉与深度学习实战》(郭卡,戴亮编著)笔记·part1
- numpy多元线性回归_Python 实战多元线性回归模型,附带原理+代码
- boxplot图添加连线(R实现)
- 计算机的过去现在未来PPT,计算机的过去、现在和未来.ppt