Huggingface datasets库读取yelp_review_full数据集时下载失败的解决方法

  • 问题:datasets.load_dataset()下载失败
  • 解决方法
    • 方法一:修改数据集下载脚本,挂代理下载
    • 方法二:手动从其他源下载

问题:datasets.load_dataset()下载失败

from datasets import load_dataset
dataset = load_dataset('yelp_review_full')

运行上述代码,程序会将yelp_review_full数据集下载到C:\Users\“你的用户名”\.cache\huggingface下(Windows系统),如果下载成功,最终完整的目录格式为
C:\Users\“你的用户名”\.cache\huggingface\yelp_review_full\yelp_review_full\1.0.0\e8e18e1(最后目录名是一大串,可能不同),在此目录下面有三个文件dataset_info.json、yelp_review_full-test.arrow、yelp_review_full-train.arrow。

但是由于yelp_review_full数据集是从https://s3.amazonaws.com/fast-ai-nlp/yelp_review_full_csv.tgz下载的,国内下载非常慢,目前在网上没有找到解决这个问题的方法,例如https://blog.csdn.net/weixin_42655901/article/details/124246300中的方法并没有解决问题。

解决方法

方法一:修改数据集下载脚本,挂代理下载

git clone https://huggingface.co/datasets/yelp_review_full

下载yelp_review_full在huggingface的下载脚本,打开其中yelp_review_full.py,将

_URLs = {"yelp_review_full": "https://s3.amazonaws.com/fast-ai-nlp/yelp_review_full_csv.tgz",
}

中的https改成http,然后挂梯子下载。

注意:如果直接挂梯子会下载失败,原因参考这篇https://blog.csdn.net/gzxb1995/article/details/119084974

方法二:手动从其他源下载

第一步,从https://huggingface.co/datasets/yelp_review_full/tree/refs%2Fconvert%2Fparquet/yelp_review_full下载两个parquet文件;
第二步,使用git clone https://huggingface.co/datasets/yelp_review_full取出其中的dataset_infos.json,将其改名为dataset_info.json;
第三步,将dataset_info.json和之前的两个parquet文件一起放在某一目录中,例如./datasets/yelp_review_full(注意这里如果用相对路径不能为yelp_review_full,否则后面还是会下载,不会读取本地文件)。

读取方式为

dataset = load_dataset('./datasets/yelp_review_full')

即可成功读取。

注意:如果手动从https://s3.amazonaws.com/fast-ai-nlp/yelp_review_full_csv.tgz下载,解压后得到两个csv,分别是train.csv和test.csv,但我将这两个csv按照前面parquet文件的方式改名,并和dataset_info.json放在一个目录下时,读取会出现错误can only join an iterable datasets,目前我不知道为什么用csv文件无法读取,如果有解决方法可以教我一下。

Huggingface datasets库读取yelp_review_full数据集时下载失败的解决方法相关推荐

  1. Android SDK下载失败的解决方法

    Android SDK下载失败的解决方法 图1 在下载过程中,Android SDK Manager Log中出现下面出错信息: Preparing toinstall archives Downlo ...

  2. Mac的最新版本JDK下载失败的解决方法

    Mac的最新版本JDK下载失败的解决方法 设置MAC下的JAVA工具,先配置最新JDK8,当然首选进入官网下载 大小是两百多兆,自己在国内下载结果只有5K,没有完成全部下载,然后测试很多次也是这样,后 ...

  3. K60用IRA通过j-link下载失败,解决方法

    K60用IRA通过j-link下载失败,解决方法 参考文章: (1)K60用IRA通过j-link下载失败,解决方法 (2)https://www.cnblogs.com/timace/p/43542 ...

  4. 关于解决win10系统下pip tensorflow一直下载失败的解决方法

    关于win10系统进行pip TensorFlow时,出现的网络不稳定,下载失败的解决办法 当使用清华镜像园来进行下载时,也可能会出现掉网现象,导致pip下载失败,只能重头进行下载.(本人也是一直在与 ...

  5. Anaconda3下载失败的解决方法

    先简述一下我下载Anaconda的背景吧.我之前下载过Anaconda3,不过因为一些原因,又将它卸载了.卸载之后,我又分别下载了Python3和PyCharm. 现在因为学习上的一些需要,又需要下载 ...

  6. HbuilderX插件下载失败的解决方法

    最近在翻vue.js的时候看到了它的文档提到了一个叫做HbuilderX的IDE,看见Dcloud上吹的这么神乎,让人怀疑:有那么神乎吗? 用了之后只能说一句话: 还在用vscode写前端?试试Hbu ...

  7. Exchange问题处理:Exchange server OAB 脱机地址簿下载失败常见解决方法

    下面是我遇到OAB脱机地址簿下载失败,但无报错情况解决过程,从第一个方法到第四种方法都尝试了,期间还尝试了新建脱机地址簿和重置OAB虚拟目录,均未解决,最后通过方法四解决的,仅供参考. 问题描述:Ou ...

  8. Chrome浏览器下载失败的解决方法

    Chrome浏览器下载失败的解决方案 Chrome浏览器下载被阻拦的解决方法 chrome浏览器下载失败情况一(已阻止此不安全ChromeInstaller.exe文件) 针对情况一的解决方法 下载前 ...

  9. Java读取properties配置文件时,中文乱码解决方法

    转载自 关于java.util.Properties读取中文乱码的正确解决方案(不要再用native2ascii.exe了) 碰到了用java.util.Properties读取中文内容(UTF-8格 ...

最新文章

  1. 【c++算法】变动性算法
  2. MVC5 - ASP.NET Identity登录原理 - Claims-based认证和OWIN
  3. 进阶学习js中的执行上下文
  4. MFC工具栏增加EditBox和Button
  5. 十大建筑中的数学之美
  6. Java标识符和关键字(static,final,abstract,interface)
  7. Python微调文本顺序对抗朴素贝叶斯算法垃圾邮件分类机制
  8. 第 2 章 MybatisPlus 通用 CRUD
  9. python制作网页挂机_Python实现自动挂机脚本(GUI 打包)
  10. python生成词云图、特殊图形_Python模块---Wordcloud生成词云图
  11. 南山谷主:面包屑导航是什么意思?对SEO有何作用?
  12. 为什么重写equals方法,还必须要重写hashcode方法
  13. 《SiamMask:Fast Online Object Tracking and Segmentation:A Unifying Approach》论文笔记
  14. 下载安装MarkDown保姆级
  15. IOS微信浏览器返回事件popstate监听
  16. 远程无线视频监控知识
  17. Android FaceBook登录问题记录
  18. 【SAP消息号AAPO520】
  19. 【计算机毕业设计】网上游戏代练商城系统
  20. Bugku——可爱的故事

热门文章

  1. 大数据之hive:hive新功能之GROUPING SETS,Cube, Rollup
  2. 单机斗地主源码 android 安卓
  3. JavaSE面向对象编程
  4. Java基础简单题目练习
  5. allegro pcb —更改测量单位、测量元件尺寸
  6. 投影坐标系单位oracle,在Oracle Spatial中增加Web Mercator投影坐标系
  7. (太好看了)《中国历代政治得失》钱穆
  8. 【VSCode】安装教程
  9. Redis内存淘汰机制
  10. Onedrive android 乱码,最后一个盘符总是出现很多乱码文件夹