python源文件保存在哪里_python数据爬下来保存在哪里
python数据爬下来保存在本地,一般是文件或数据库中,但是文件形式相比要更加简单,如果只是自己写爬虫玩,可以用文件形式来保存数据。#coding=utf-8
import urllib.request
import re
import os
'''
Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据
urlopen 方法用来打开一个url
read方法 用于读取Url上的数据
'''
def getHtml(url):
page = urllib.request.urlopen(url);
html = page.read();
return html;
def getImg(html):
imglist = re.findall('img src="(http.*?)"',html
return imglist
html = getHtml("https://www.zhihu.com/question/34378366").decode("utf-8");
imagesUrl = getImg(html);
if os.path.exists("D:/imags") == False:
os.mkdir("D:/imags");
count = 0;
for url in imagesUrl:
print(url)
if(url.find('.') != -1):
name = url[url.find('.',len(url) - 5):];
bytes = urllib.request.urlopen(url);
f = open("D:/imags/"+str(count)+name, 'wb');
f.write(bytes.read());
f.flush();
f.close();
count+=1
经测试,基本功能还是可以实现的。花的较多的时间就是正则匹配哪里,因为自己对正则表达式也不是非常熟悉。所以还是花了点时间。更多相关学习推荐,敬请访问python教程栏目~
python源文件保存在哪里_python数据爬下来保存在哪里相关推荐
- Python爬虫《自动化学报》数据爬取与数据分析
Python爬虫<自动化学报>数据爬取与数据分析 文章目录 Python爬虫<自动化学报>数据爬取与数据分析 前言 一.代码 二.结果展示 三.爬虫实现 1.准备 2.获取网页 ...
- 【机器学习】python使用matplotlib进行二维数据绘图并保存为png图片
端到端机器学习导航: [机器学习]python借助pandas加载并显示csv数据文件,并绘制直方图 [机器学习]python使用matplotlib进行二维数据绘图并保存为png图片 [机器学习]p ...
- python数据可视化字段_python数据爬取及数据可视化分析
电影网站数据分析及可视化研究 本博客是一篇集数据爬取,存储为excel表格,将数据可视化为一体的博文,数据爬取采用request等方法,数据可视化会使用图表进行展示,有改进的地方还请大家多多指教. 数 ...
- python爬虫,g-mark网站图片数据爬取及补坑
应用python对g-mark网站图片数据爬取,同时但对于数据抓取失败的图片进行补坑(重新爬取操作),由于是日本网站,没有梯子访问的话,特别容易访问超时,比较合适的补坑操作是直接将数据采集到数据库,而 ...
- Python爬虫-CSDN博客排行榜数据爬取
文章目录 前言 网络爬虫 搜索引擎 爬虫应用 谨防违法 爬虫实战 网页分析 编写代码 运行效果 反爬技术 前言 开始接触 CTF 网络安全比赛发现不会写 Python 脚本的话简直寸步难行--故丢弃 ...
- 用python爬取指定数据流量是几点_使用python进行微信宜出行人流量数据爬取
写在前面 由于宜出行的登录策略更新,导致无法使用qq登录直接爬取人流量的问题,近期进行了代码升级,已经解决了该问题,并且能顺利爬取数据,示例如下.目前暂不提供源代码,如有需要宜出行数据,可联系:917 ...
- (python爬虫)新浪新闻数据爬取与清洗+新浪新闻数据管理系统+MySQL
新浪新闻数据爬取与清洗+新浪新闻数据管理系统 设计要求 新浪新闻数据爬取与清洗 基本要求:完成新浪新闻排行中文章的数据爬取,包括标题.媒体.时间.内容. 进阶要求:对最近一周出现次数最多的关键字排名并 ...
- python爬虫教材推荐 豆瓣_Python爬虫爬取豆瓣书籍数据
炎热的夏天,酷暑难挡,难免会心烦意燥,睡前随手拿起枕边看过很多遍的「平凡的世界」.看书,会让躁动的心瞬间安静下来. 生活不能等待别人来安排,要自己去争取和奋斗:而不论其结果是喜是悲,但可以慰藉的是,你 ...
- python数据分析图表展示_NBA数据分析_python数据爬取_可视化图形_python数据可视化案例-帆软...
之前手痒做了一次NBA可视化分析,发个微头条,好多人追着我问教程,这两天终于闲下来了,花时间整理这篇NBA可视化分析教程,手把手教大家做一次炫酷的数据可视化分析! 先部分展示本次教程的作品: 数据获取 ...
最新文章
- EasyDL桌面版发布!3天体验学习
- 【OpenCV 4开发详解】图像像素统计
- 史上最全SpaceX火箭数据开源,核心、组员舱、起落架、发射信息全都有!
- python是一种语言还是一个软件-Python还是一种
- do_page_fault: epc == 00000000, ra == 00000000
- 大数据WEB阶段Maven安装配置与使用
- Multidex实现简要分析
- 加速国内 Github 访问,下载,的9种方案!
- golang微服务框架对比_最强开源微服务框架,全网独家整理
- (github精选)优秀的openSCAD项目image2surface
- 六轴传感器icm20602的自检和校准学习
- vue文件在服务器上乱码,解决vue-pdf查看pdf文件及打印乱码的问题
- 一个最简单的自定义锁屏应用实现
- Centos7磁盘阵列部署与修复
- Microsoft Edge 收藏夹如何显示在界面上方?
- Win11 OneDrive登录遇到问题0x8004de40
- 股票MA算法(JavaScript实现)
- 【互动媒体创意编程4】processing中用粒子系统实现的烟花
- 不能上网修复Winsock损坏的办法
- SqlZoo.net习题答案:How to do joins.【Album】
热门文章
- 腾讯最大股东收购了 Stack Overflow,以后“抄代码”都要付费了么?
- 某程序员总结大厂程序员性格:阿里出来的是人精!百度出来的脾气好!美图出来的一根筋!头条出来的心高气傲!京东出来的满嘴是兄弟!...
- 人人都能看懂的 6 种限流实现方案!(纯干货)
- 说得太好了!阿里巴巴为什么不用 ZooKeeper 做服务发现?
- 快手Java一面,二面社招合并面经分享
- Web开发的机器学习框架
- 靠纯技术是否能渡过中年危机
- 装修公司事务繁杂,如何进行项目协作管理?
- OKR实施过程中的一些误区
- OpenCV之imwrite()等基本操作