下载任意网站内容到本地
一.功能1.
实现百度的关键词的搜索以及保存,查询多个一样的词的时候,产生随机数字进行保存
import random
import urllib.request
import urllib.parse"""
实现百度的关键词的搜索以及保存,查询多个一样的词的时候,产生随机数字进行保存
"""
basebaidu="https://www.baidu.com/s?wd=" #百度搜索页面keyword=input("请输出你在百度中搜索的关键词:") #要搜索的关键词语key_code=urllib.request.quote(keyword) #对请求进行编码,把‘中文’关键词编码,编码url_all=basebaidu+key_code #搜索的全路径# print(url_all)#头部信息
headers={
'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Mobile Safari/537.36',}#我的请求,封装
myrequest=urllib.request.Request(url=url_all,headers=headers)#模拟浏览器登录
myrespose=urllib.request.urlopen(myrequest).read()#关键字+100~99随机数字 +“.html"文件===》保存文件格式
savename=keyword+str(random.randint(100,999))+".html"fw=open(savename,"wb") #将文件写入到当前目录中fw.write(myrespose)fw.close()
功能2:下载任意网站内容到本地
import urllib.request
from urllib.request import urlopenmyu2=input("请输入下载的网页的地址:")#对应浏览器中的 cookie内容,如果还有,把内容都是以字典的形式存放到heads中即可
heads={
'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Mobile Safari/537.36',}# 请求头数据存放到请求的地方,urllib.request.Request,封装信息,然后再用urllib.urlopen()打开即可
myrequest=urllib.request.Request(url=myu2,headers=heads)#模拟浏览器登录。这里urlopen可以打开request对象或者字符串,但这里myrequest---对象,封装了链接以及headers内容
mylogin=urlopen(myrequest)savename=myu2[-10:]+".html" #保存的文件名,以网址的后10个字符为保存文件的名字
# savename=myu2[-10:] #保存的文件名,以网址的后10个字符为保存文件的名字
print(savename)fwfile=open(savename,"wb") #保存到本地contentwb=mylogin.read() #读取网页内容
fwfile.write(contentwb) #写入文件内容
fwfile.close()# 模拟头部信息
# 我们抓取网页一般需要对 headers(网页头信息)进行模拟,这时候需要使用到 urllib.request.Request 类:
# class urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)
下载任意网站内容到本地相关推荐
- 一行Python代码就可以下载任意网站视频,零基础小白也能轻松学会
前言 对于Python爬虫很多人都不陌生,可以用它来批量下载文字.图片.视频等,其中涉及的知识点也是比较多的,但是Python中有一个方法,一行代码就能爬取任意网站上面的视频,只要你安装了Python ...
- python代码下载视频_小白也能学会用一行Python代码下载任意网站视频
我们都知道用Python可以批量抓取网络上的图片.文字.视频等,今天小优给大家教一个简单的方法让小白用一行代码就能抓取任意网站上面的视频,但是前提是你要安装好Python环境哦! You-Get Yo ...
- linux 使用svn下载svn仓库内容到本地
查了一些资料,发现都是配置svn服务器的,作为一个不懂的小白很晕,虽然很简单.. 但是还是记录下吧, 首先安装svn yum install subversion 安装后svn help可以查看帮助, ...
- python实现下载任意网站所有图片
操作演示 视频中爬取网站地址: https://www.ivsky.com/tupian/ 完整代码 # !/user/bin/env python # -*- coding: utf-8 -*- # ...
- 知乎ajax采集,胖鼠采集WordPress插件教程-WP自动采集和发布简书,微信公众号,知乎等任意网站...
WordPress本来是一个博客,但是由于功能强大.用户众多,发展到现在Wordpress已经成为了一个CMS平台了,甚至有一些企业建站都用了Wordpress,真的是无处不在.Wordpress用于 ...
- 怎么在python下载网站内容-用Python下载一个网页保存为本地的HTML文件实例
我们可以用Python来将一个网页保存为本地的HTML文件,这需要用到urllib库. 比如我们要下载山东大学新闻网的一个页面,该网页如下: 实现代码如下: import urllib.request ...
- 如何用python创建一个下载网站-用Python下载一个网页保存为本地的HTML文件实例...
我们可以用Python来将一个网页保存为本地的HTML文件,这需要用到urllib库. 比如我们要下载山东大学新闻网的一个页面,该网页如下: 实现代码如下: import urllib.request ...
- php内容管理系统 admini,BageCMS 开源网站内容管理系统 php版下载_BageCMS 开源网站内容管理系统 php版官方下载-太平洋下载中心...
BageCMS 开源网站内容管理系统 php版是Php源码频道下深受用户喜爱的软件,太平洋下载中心提供BageCMS 开源网站内容管理系统 php版官方下载.BageCms是一款基于php5+mysq ...
- Python采集某网站内容, m3u8内容下载
前言 嗨喽,大家好呐!这里是魔王~ 环境使用: Python 3.8 <建议最好是和一样版本> Pycharm 模块使用: import requests >>> pip ...
最新文章
- PINVOKE.NET: Do interop the wiki way!
- 【内网渗透工具】炫彩蛇安装教程
- 2018年澳门就业情况理想 最新失业率维持1.7%
- Java学习——使用Static修饰符
- 7张图讲透Java垃圾回收算法!学妹直呼666!!!
- java多个数据库_java – 我们可以有多个dataSources到单个数据库
- MySQL关联查询时,我们为什么建议小表驱动大表?
- Module not found: Error: Can‘t resolve ‘sass-loader‘ in...
- 软件测试薪资标准新鲜出炉,你达标了吗?
- python爬虫爬当当网_python爬取当当网图书排行榜
- Serdes 原理及调试学习
- Java IO流的分类
- 保险行业数据分析——用户画像 精准营销
- 优先队列三大利器——二项堆、斐波那契堆、Pairing 堆
- Loadrunner执行https报错Action.c(7): Error -27778: SSL protocol error when attempting to connect with hos
- opencv 泊松融合
- Qt 配置使用IPP库
- 求图形的周长和面积java_抽象类求图形周长和面积
- 2021年北航计算机学院夏令营面试经历
- C语言实现四舍五入 c语言实现四舍五入