以huggingface- transformer中实现的的text-classification为例。

在使用bash运行时,删掉task_name 或是其他可以自动下载数据集的传入参数。

按需增加以下传入参数

(训练/测试/验证集要是.csv或者.json文件)

--train_file 训练集地址 \
--validation_file 验证集地址 \
--test_file 测试集地址 \
--do_train \
--do_eval \
--do_predict \

以下是我的bash:

python3 run_glue.py \--model_name_or_path bert-base-uncased \--train_file ./data/train.csv \--validation_file ./data/dev.csv \--test_file ./data/test.csv \--do_train \--do_eval \--do_predict \--max_seq_length 128 \--per_device_train_batch_size 8 \--learning_rate 2e-5 \--num_train_epochs 3 \--output_dir /tmp/run_glue/

之后在加载数据的时候就会加载自己的数据了

加载本地数据代码段(transformers代码)


# Loading a dataset from your local files.
# CSV/JSON training and evaluation files are needed.
data_files = {"train": data_args.train_file, "validation": data_args.validation_file}# Get the test dataset: you can provide your own CSV/JSON test file (see below)
# when you use `do_predict` without specifying a GLUE benchmark task.
if training_args.do_predict:if data_args.test_file is not None:train_extension = data_args.train_file.split(".")[-1]test_extension = data_args.test_file.split(".")[-1]assert (test_extension == train_extension), "`test_file` should have the same extension (csv or json) as `train_file`."data_files["test"] = data_args.test_fileelse:raise ValueError("Need either a GLUE task or a test file for `do_predict`.")for key in data_files.keys():logger.info(f"load a local file for {key}: {data_files[key]}")if data_args.train_file.endswith(".csv"):# Loading a dataset from local csv filesraw_datasets = load_dataset("csv", data_files=data_files, cache_dir=model_args.cache_dir)
else:# Loading a dataset from local json filesraw_datasets = load_dataset("json", data_files=data_files, cache_dir=model_args.cache_dir)

Finetune时利用自己的训练数据或者测试数据相关推荐

  1. 多元回归训练数据和测试数据_回归基础-数据结构提醒,如果和切换之后的寿命...

    多元回归训练数据和测试数据 I just had a great one on one coding learning session with a good friend of mine over ...

  2. tensorflow2.0中valid_data的作用是在训练的过程对对比训练数据与测试数据的准确率 损失率,便于判断模型的训练效果:是过拟合还是欠拟合(过拟合)

    tensorflow2.0中valid_data的作用是在训练的过程对对比训练数据与测试数据的准确率,便于判断模型的训练效果:是过拟合还是欠拟合 过拟合:训练数据的准确率较高而测试数据的准确率较低 欠 ...

  3. 使用Pytorch DataLoader快捷封装训练数据、测试数据的X与Y

    DataSet的用法可以参考:pytorch 构造读取数据的工具类 Dataset 与 DataLoader (pytorch Data学习一) DataLoader的封装方法可以参考:Pytorch ...

  4. 关于使用tensorflow object detection API训练自己的模型-补充部分(代码,数据标注工具,训练数据,测试数据)

    之前分享过关于tensorflow object detection API训练自己的模型的几篇博客,后面有人陆续碰到一些问题,问到了我解决方法.所以在这里补充点大家可能用到的东西.声明一下,本人专业 ...

  5. 达摩院开源预训练数据微调框架UOT NeurIPS论文深入解读

    一.论文 论文链接: Improved Fine-Tuning by Better Leveraging Pre-Training Data 代码链接:https://github.com/ziqua ...

  6. 迁移学习算法之TrAdaBoost ——本质上是在用不同分布的训练数据,训练出一个分类器...

    迁移学习算法之TrAdaBoost from: https://blog.csdn.net/Augster/article/details/53039489 TradaBoost算法由来已久,具体算法 ...

  7. 神经网络怎么训练数据,神经网络训练结果分析

    深度神经网络是如何训练的? Coursera的Ng机器学习,UFLDL都看过.没记错的话Ng的机器学习里是直接给出公式了,虽然你可能知道如何求解,但是即使不知道完成作业也不是问题,只要照着公式写就行. ...

  8. 神经网络训练数据的一点理解

    神经网络是通过梯度方反向传播来更新参数,所需的数据集一般分为训练数据和测试数据,其中训练的数据会根据有监督和无监督学习进行分类. 有监督学习 对于有监督学习,一般是给网络一个输入,然后再定一个网络应该 ...

  9. Python机器学习:多项式回归与模型泛化004为什么需要训练数据集和测试数据集

    泛化能力:由此及彼能力 遇见新的拟合能力差 数据 #数据 import numpy as np import matplotlib.pyplot as plt x = np.random.unifor ...

最新文章

  1. poj1861 最小生成树 prim amp; kruskal
  2. 相机SDK采集的图像从堆栈读取并转为HALCON的格式继续目标识别
  3. openGL光照要点总结
  4. android活动管理器,Android 中管理所有的 Acyivity 活动
  5. Gradle个人笔记(未完)
  6. JavaScript 里变量名前面加了大括号代表什么含义
  7. 【转】事务和锁机制是什么关系? 开启事务就自动加锁了吗?
  8. 一个突变基因保护了欧洲人祖先
  9. MySQL 安装手册(5.7.20)
  10. 如何在秋招中拿到offer?
  11. Python开发环境的搭建(win7)
  12. 虚拟机VMware 15安装教程
  13. Sampler 半小时快速搭建PostgreSQL简易监控
  14. maya2011安装方法图文详细教程及Unity下载
  15. c语言中小数乘整数,小数乘整数中的算法算理教学
  16. run.gps+trainer+uv+for+android,android 2.1(三星spica i5700)上的蓝牙问题配对工作但连接不起作用...
  17. 戴尔t620服务器装系统2008驱动,dell服务器H310\H710阵列卡驱动
  18. 亚博智能PS2手柄学习笔记
  19. 1px、1em、1rem、1vh / 1vw 的含义
  20. 显示器OLED面板“三国争雄”,三星、LG和京东方谁更牛?

热门文章

  1. 华为防火墙配置FTP服务器负载均衡
  2. 进入做手机ROM的,怎么不做联发科通用的rom
  3. 国际主权债重组:博奕视角的分析*
  4. Java四舍五入的几种方式
  5. SnowflakeIdWorker类中SystemUtils.getHostName()在Mac环境下为空,导致空指针异常
  6. Abaqus CAE在多物理模拟中的5个使用案例
  7. 八年级计算机考试试题奥运会,2019年初中八年级的的下学期期初中中考试信息技术试卷试题.doc...
  8. 大学有新民之道,则大学生者负新民工作之实际责任者也。
  9. 鏖战双11,电商架构大起底
  10. 【报错】npx browserslist@latest --update-db