Huggingface datasets库读取yelp_review_full数据集时下载失败的解决方法
Huggingface datasets库读取yelp_review_full数据集时下载失败的解决方法
- 问题:datasets.load_dataset()下载失败
- 解决方法
- 方法一:修改数据集下载脚本,挂代理下载
- 方法二:手动从其他源下载
问题:datasets.load_dataset()下载失败
from datasets import load_dataset
dataset = load_dataset('yelp_review_full')
运行上述代码,程序会将yelp_review_full数据集下载到C:\Users\“你的用户名”\.cache\huggingface下(Windows系统),如果下载成功,最终完整的目录格式为
C:\Users\“你的用户名”\.cache\huggingface\yelp_review_full\yelp_review_full\1.0.0\e8e18e1(最后目录名是一大串,可能不同),在此目录下面有三个文件dataset_info.json、yelp_review_full-test.arrow、yelp_review_full-train.arrow。
但是由于yelp_review_full数据集是从https://s3.amazonaws.com/fast-ai-nlp/yelp_review_full_csv.tgz下载的,国内下载非常慢,目前在网上没有找到解决这个问题的方法,例如https://blog.csdn.net/weixin_42655901/article/details/124246300中的方法并没有解决问题。
解决方法
方法一:修改数据集下载脚本,挂代理下载
git clone https://huggingface.co/datasets/yelp_review_full
下载yelp_review_full在huggingface的下载脚本,打开其中yelp_review_full.py,将
_URLs = {"yelp_review_full": "https://s3.amazonaws.com/fast-ai-nlp/yelp_review_full_csv.tgz",
}
中的https改成http,然后挂梯子下载。
注意:如果直接挂梯子会下载失败,原因参考这篇https://blog.csdn.net/gzxb1995/article/details/119084974
方法二:手动从其他源下载
第一步,从https://huggingface.co/datasets/yelp_review_full/tree/refs%2Fconvert%2Fparquet/yelp_review_full下载两个parquet文件;
第二步,使用git clone https://huggingface.co/datasets/yelp_review_full
取出其中的dataset_infos.json,将其改名为dataset_info.json;
第三步,将dataset_info.json和之前的两个parquet文件一起放在某一目录中,例如./datasets/yelp_review_full(注意这里如果用相对路径不能为yelp_review_full,否则后面还是会下载,不会读取本地文件)。
读取方式为
dataset = load_dataset('./datasets/yelp_review_full')
即可成功读取。
注意:如果手动从https://s3.amazonaws.com/fast-ai-nlp/yelp_review_full_csv.tgz下载,解压后得到两个csv,分别是train.csv和test.csv,但我将这两个csv按照前面parquet文件的方式改名,并和dataset_info.json放在一个目录下时,读取会出现错误can only join an iterable datasets
,目前我不知道为什么用csv文件无法读取,如果有解决方法可以教我一下。
Huggingface datasets库读取yelp_review_full数据集时下载失败的解决方法相关推荐
- Android SDK下载失败的解决方法
Android SDK下载失败的解决方法 图1 在下载过程中,Android SDK Manager Log中出现下面出错信息: Preparing toinstall archives Downlo ...
- Mac的最新版本JDK下载失败的解决方法
Mac的最新版本JDK下载失败的解决方法 设置MAC下的JAVA工具,先配置最新JDK8,当然首选进入官网下载 大小是两百多兆,自己在国内下载结果只有5K,没有完成全部下载,然后测试很多次也是这样,后 ...
- K60用IRA通过j-link下载失败,解决方法
K60用IRA通过j-link下载失败,解决方法 参考文章: (1)K60用IRA通过j-link下载失败,解决方法 (2)https://www.cnblogs.com/timace/p/43542 ...
- 关于解决win10系统下pip tensorflow一直下载失败的解决方法
关于win10系统进行pip TensorFlow时,出现的网络不稳定,下载失败的解决办法 当使用清华镜像园来进行下载时,也可能会出现掉网现象,导致pip下载失败,只能重头进行下载.(本人也是一直在与 ...
- Anaconda3下载失败的解决方法
先简述一下我下载Anaconda的背景吧.我之前下载过Anaconda3,不过因为一些原因,又将它卸载了.卸载之后,我又分别下载了Python3和PyCharm. 现在因为学习上的一些需要,又需要下载 ...
- HbuilderX插件下载失败的解决方法
最近在翻vue.js的时候看到了它的文档提到了一个叫做HbuilderX的IDE,看见Dcloud上吹的这么神乎,让人怀疑:有那么神乎吗? 用了之后只能说一句话: 还在用vscode写前端?试试Hbu ...
- Exchange问题处理:Exchange server OAB 脱机地址簿下载失败常见解决方法
下面是我遇到OAB脱机地址簿下载失败,但无报错情况解决过程,从第一个方法到第四种方法都尝试了,期间还尝试了新建脱机地址簿和重置OAB虚拟目录,均未解决,最后通过方法四解决的,仅供参考. 问题描述:Ou ...
- Chrome浏览器下载失败的解决方法
Chrome浏览器下载失败的解决方案 Chrome浏览器下载被阻拦的解决方法 chrome浏览器下载失败情况一(已阻止此不安全ChromeInstaller.exe文件) 针对情况一的解决方法 下载前 ...
- Java读取properties配置文件时,中文乱码解决方法
转载自 关于java.util.Properties读取中文乱码的正确解决方案(不要再用native2ascii.exe了) 碰到了用java.util.Properties读取中文内容(UTF-8格 ...
最新文章
- 【c++算法】变动性算法
- MVC5 - ASP.NET Identity登录原理 - Claims-based认证和OWIN
- 进阶学习js中的执行上下文
- MFC工具栏增加EditBox和Button
- 十大建筑中的数学之美
- Java标识符和关键字(static,final,abstract,interface)
- Python微调文本顺序对抗朴素贝叶斯算法垃圾邮件分类机制
- 第 2 章 MybatisPlus 通用 CRUD
- python制作网页挂机_Python实现自动挂机脚本(GUI 打包)
- python生成词云图、特殊图形_Python模块---Wordcloud生成词云图
- 南山谷主:面包屑导航是什么意思?对SEO有何作用?
- 为什么重写equals方法,还必须要重写hashcode方法
- 《SiamMask:Fast Online Object Tracking and Segmentation:A Unifying Approach》论文笔记
- 下载安装MarkDown保姆级
- IOS微信浏览器返回事件popstate监听
- 远程无线视频监控知识
- Android FaceBook登录问题记录
- 【SAP消息号AAPO520】
- 【计算机毕业设计】网上游戏代练商城系统
- Bugku——可爱的故事