pandas parquet文件读取pyarrow、feather文件保存与读取;requests 或wget下载图片文件
**pandas读取文件填写绝对路径,相对路径可能出错读不了
安装 fastparquet库,需要安装python-snappy
,一直安装错误,所以使用了pyarrow
pip install pyarrow
参考:https://arrow.apache.org/docs/python/
import glob
import pandas as pd
import pyarrow.parquet as pq
aaaaa = glob.glob(r'C:\Users\lo理\oss数据\*')kkk = []
for i in aaaaa:print(i.replace("C:",""))pf = pq.read_table(i.replace("C:",""))df1 = pf.to_pandas()kkk.append(df1)m = kkk[0]
for j in range(1,12):m = pd.concat([m, kkk[j]])
另外安装pyarrow库后,pandas也可以读取
df = pd.read_parquet(p, engine="pyarrow")k12 = pd.read_parquet(r"part-***nappy.parquet")
注意***
pandas 读取parquet的引擎:
pd.read_parquet(p,engine="pyarrow")
pd.read_parquet(p,engine="fastparquet")建议使用pyarrow,以为用fastparquet有经历过列表内容无法读取显示None
==pandas ImportError: Missing optional dependency ‘pyarrow’ ==
缺乏pyarrow相关依赖,用conda install pyarrow 解决的
feather文件保存与读取
相比csv保存格式,读取时间大大减少
参考:https://blog.csdn.net/qq_23981335/article/details/117994811
差不多十倍速度提升(大文件):
requests 下载文件
参考:https://blog.csdn.net/abcd1f2/article/details/53322934
多线程参考:http://www.bokeren.cc/post-190.html
import requestsr = requests.get("https://i0.hdslb.com/bfs/album/1eab364136f7dc024eac1d663bb843c43c996798.jpg", stream=True)
f = open(r"D:\用户点击日志\img2.jpg", "wb")
for chunk in r.iter_content(chunk_size=512):if chunk:f.write(chunk)
wget下载
shlex.split 会忽略单双引号;?P的意思就是命名一个名字为value的组,匹配规则符合后面的.+
import os
import re
import shlex
import subprocessdef wget_fetch(download_url, file_path):"""调用wget下载数据"""file_name = re.search(r"/parquet/(?P<filename>.+)\?", download_url).group("filename")save_path = os.path.join(file_path, file_name)print(save_path)cmd = f'wget --tries=3 --timeout=60 --output-document="{save_path}" "{download_url}"'cmd_list2 = shlex.split(cmd)# from python lib manual# Run the command described by args. Wait for command to complete, then return a CompletedProcess instance.cp = subprocess.run(cmd_list2)if cp.returncode != 0:print(f'Download fail; url:{download_url}')return None# 实际上只会下载一个文件print(f"Download success; file: {save_path}")return save_path
pandas parquet文件读取pyarrow、feather文件保存与读取;requests 或wget下载图片文件相关推荐
- 通过Web Services上传和下载图片文件
通过Web Services上传和下载图片文件 随着Internet技术的发展和跨平台需求的日益增加,Web Services的应用越来越广,我们不但需要通过Web Services传递字符串信息,而 ...
- C#对象序列化、反序列化、保存、读取、对象直接保存、读取
基于WindowForm应用程序C#语言通过实际案例实现将对象保存到文件及从已保存的文件中读取对象(直接保存与读取.通过序列化与反序列化方式进行对象保存与读取) 添加Student类: using S ...
- Linux命令06 - - wget 下载网络文件
wget命令支持如HTTP.HTTPS.FTP等常见协议,可以在命令行中直接下载网络文件. web get缩写 wget 官网:http://www.gnu.org/software/wget/ wg ...
- Python 下载图片(文件)的方法
import requests import os #创建目录文件夹 os.makedirs('./image/', exist_ok=True) # 构造请求头 headers={'User-Age ...
- swift 将图片保存到本地_如何保存微博的所有图片链接并下载图片到本地
点击上方 月小水长 并 设为星标,第一时间接收干货推送 这是 月小水长 的第 47 篇原创干货 对于一个爬虫,其爬取的目标不仅限于文字,图片.语音.视频均有可能,我开源的微博爬虫之话题爬虫,设定之初就 ...
- 小程序:下载图片文件(wx.downloadFile)并保存到手机相册(wx.saveImageToPhotosAlbum)
封装下载函数: downloadAllPic (imgData) {wx.showLoading({title: '图片下载中'})let uploadNum = 0let picNum = 0img ...
- [Android Studio]Android 数据存储-文件存储学习笔记-结合保存QQ账户与密码存储到指定文件中的演练
- python wget_python-如何获取wget下载的文件的文件名
我正在使用os.system('wget'链接)从网站检索文件.下载后,我想根据源链接进一步处理这些文件. 大多数链接都是这种形式 htttp://example.com/-/filename.zip ...
- 利用requests库批量下载PDF文件
文章目录 1. 前言 2. 批量下载大法好 2.1 挖掘思路 2.2 核心知识点 2.3 汇总代码 1. 前言 学弟最近在复习(预习)微积分,但是苦于没有较好的资料学习,所以向我发出求助.我向他推 ...
最新文章
- SQL语句 SELECT LIKE用法详解
- 巨一自动化工业机器人_2021第11届深圳国际工业自动化及机器人展览会
- jsf集成spring_Spring和JSF集成:导航
- 使用计算机教学的意义,信息技术在教学中的作用
- 裁员消息满天飞,我们整理了一份真实名单
- mysql无法连接10061错误1067_解决MySQL启动的error 2003和1067 10061错误问题
- 关于博客园开放API的授权问题解决
- 大数据技术如何实现核心价值
- TeamViewer开机自启动实现在远程使用时重启远程计算机
- 利用SPSS对数据转置和数据整理
- windows下引导盘安装雪豹
- 云鲸扫拖一体机器人说明书_比老公更好用的扫拖一体机——自动洗拖布的云鲸扫拖机器人使用体验...
- CVPR ECCV ICCV论文汇总
- Java SE菜鸟之泛型
- 软技能-代码之外的生存指南读后感 学习篇
- mysql查询选课数_[MySQL]查询学生选课的情况(二)
- ZooKeeper: Wait-free coordination for Internet-scale systems
- 高速数据采集卡 1.25G ADC+12.6G DAC FMC子卡
- 万卷书 - 如何讲好故事 [Wired for Story]
- 远程视频会议系统/视频调度指挥平台/音视频通话系统EasyRTC在应急指挥领域中的应用
热门文章
- 文件和磁盘存储器管理
- Redis(设置失效时间,RedisDesktopManger远程管理工具)
- 很多人都说flash as3 经常都是使用MC或者sprite(请问这里的sprite是什么意思?)...
- 开博记念及附上第一个android工程:Txt文本阅读器
- 淘晶驰串口屏_ 串口屏卡顿的原因
- PL/SQL 嵌套declare begin end
- Error:..\FreeRTOS\queue.c,1088
- php网站整合ck播放器,wordpress整合ckplayer最新版 wp文章短代码调用ck播放器
- UiPath认证流程
- Android 打印Log语句