Finetune时利用自己的训练数据或者测试数据
以huggingface- transformer中实现的的text-classification为例。
在使用bash运行时,删掉task_name 或是其他可以自动下载数据集的传入参数。
按需增加以下传入参数
(训练/测试/验证集要是.csv或者.json文件)
--train_file 训练集地址 \
--validation_file 验证集地址 \
--test_file 测试集地址 \
--do_train \
--do_eval \
--do_predict \
以下是我的bash:
python3 run_glue.py \--model_name_or_path bert-base-uncased \--train_file ./data/train.csv \--validation_file ./data/dev.csv \--test_file ./data/test.csv \--do_train \--do_eval \--do_predict \--max_seq_length 128 \--per_device_train_batch_size 8 \--learning_rate 2e-5 \--num_train_epochs 3 \--output_dir /tmp/run_glue/
之后在加载数据的时候就会加载自己的数据了
加载本地数据代码段(transformers代码)
# Loading a dataset from your local files.
# CSV/JSON training and evaluation files are needed.
data_files = {"train": data_args.train_file, "validation": data_args.validation_file}# Get the test dataset: you can provide your own CSV/JSON test file (see below)
# when you use `do_predict` without specifying a GLUE benchmark task.
if training_args.do_predict:if data_args.test_file is not None:train_extension = data_args.train_file.split(".")[-1]test_extension = data_args.test_file.split(".")[-1]assert (test_extension == train_extension), "`test_file` should have the same extension (csv or json) as `train_file`."data_files["test"] = data_args.test_fileelse:raise ValueError("Need either a GLUE task or a test file for `do_predict`.")for key in data_files.keys():logger.info(f"load a local file for {key}: {data_files[key]}")if data_args.train_file.endswith(".csv"):# Loading a dataset from local csv filesraw_datasets = load_dataset("csv", data_files=data_files, cache_dir=model_args.cache_dir)
else:# Loading a dataset from local json filesraw_datasets = load_dataset("json", data_files=data_files, cache_dir=model_args.cache_dir)
Finetune时利用自己的训练数据或者测试数据相关推荐
- 多元回归训练数据和测试数据_回归基础-数据结构提醒,如果和切换之后的寿命...
多元回归训练数据和测试数据 I just had a great one on one coding learning session with a good friend of mine over ...
- tensorflow2.0中valid_data的作用是在训练的过程对对比训练数据与测试数据的准确率 损失率,便于判断模型的训练效果:是过拟合还是欠拟合(过拟合)
tensorflow2.0中valid_data的作用是在训练的过程对对比训练数据与测试数据的准确率,便于判断模型的训练效果:是过拟合还是欠拟合 过拟合:训练数据的准确率较高而测试数据的准确率较低 欠 ...
- 使用Pytorch DataLoader快捷封装训练数据、测试数据的X与Y
DataSet的用法可以参考:pytorch 构造读取数据的工具类 Dataset 与 DataLoader (pytorch Data学习一) DataLoader的封装方法可以参考:Pytorch ...
- 关于使用tensorflow object detection API训练自己的模型-补充部分(代码,数据标注工具,训练数据,测试数据)
之前分享过关于tensorflow object detection API训练自己的模型的几篇博客,后面有人陆续碰到一些问题,问到了我解决方法.所以在这里补充点大家可能用到的东西.声明一下,本人专业 ...
- 达摩院开源预训练数据微调框架UOT NeurIPS论文深入解读
一.论文 论文链接: Improved Fine-Tuning by Better Leveraging Pre-Training Data 代码链接:https://github.com/ziqua ...
- 迁移学习算法之TrAdaBoost ——本质上是在用不同分布的训练数据,训练出一个分类器...
迁移学习算法之TrAdaBoost from: https://blog.csdn.net/Augster/article/details/53039489 TradaBoost算法由来已久,具体算法 ...
- 神经网络怎么训练数据,神经网络训练结果分析
深度神经网络是如何训练的? Coursera的Ng机器学习,UFLDL都看过.没记错的话Ng的机器学习里是直接给出公式了,虽然你可能知道如何求解,但是即使不知道完成作业也不是问题,只要照着公式写就行. ...
- 神经网络训练数据的一点理解
神经网络是通过梯度方反向传播来更新参数,所需的数据集一般分为训练数据和测试数据,其中训练的数据会根据有监督和无监督学习进行分类. 有监督学习 对于有监督学习,一般是给网络一个输入,然后再定一个网络应该 ...
- Python机器学习:多项式回归与模型泛化004为什么需要训练数据集和测试数据集
泛化能力:由此及彼能力 遇见新的拟合能力差 数据 #数据 import numpy as np import matplotlib.pyplot as plt x = np.random.unifor ...
最新文章
- poj1861 最小生成树 prim amp; kruskal
- 相机SDK采集的图像从堆栈读取并转为HALCON的格式继续目标识别
- openGL光照要点总结
- android活动管理器,Android 中管理所有的 Acyivity 活动
- Gradle个人笔记(未完)
- JavaScript 里变量名前面加了大括号代表什么含义
- 【转】事务和锁机制是什么关系? 开启事务就自动加锁了吗?
- 一个突变基因保护了欧洲人祖先
- MySQL 安装手册(5.7.20)
- 如何在秋招中拿到offer?
- Python开发环境的搭建(win7)
- 虚拟机VMware 15安装教程
- Sampler 半小时快速搭建PostgreSQL简易监控
- maya2011安装方法图文详细教程及Unity下载
- c语言中小数乘整数,小数乘整数中的算法算理教学
- run.gps+trainer+uv+for+android,android 2.1(三星spica i5700)上的蓝牙问题配对工作但连接不起作用...
- 戴尔t620服务器装系统2008驱动,dell服务器H310\H710阵列卡驱动
- 亚博智能PS2手柄学习笔记
- 1px、1em、1rem、1vh / 1vw 的含义
- 显示器OLED面板“三国争雄”,三星、LG和京东方谁更牛?
热门文章
- 华为防火墙配置FTP服务器负载均衡
- 进入做手机ROM的,怎么不做联发科通用的rom
- 国际主权债重组:博奕视角的分析*
- Java四舍五入的几种方式
- SnowflakeIdWorker类中SystemUtils.getHostName()在Mac环境下为空,导致空指针异常
- Abaqus CAE在多物理模拟中的5个使用案例
- 八年级计算机考试试题奥运会,2019年初中八年级的的下学期期初中中考试信息技术试卷试题.doc...
- 大学有新民之道,则大学生者负新民工作之实际责任者也。
- 鏖战双11,电商架构大起底
- 【报错】npx browserslist@latest --update-db