hugginface相关数据集整理
swaption2009/20k-en-zh-translation-pinyin-hsk
翻译
Source: https://mnemosyne-proj.org/cards/20000-chinese-sentences-translations-and-pinyin
Contributed by: Brian Vaughan http://brianvaughan.net/
RUCAIBox/Translation
翻译
WMT14 English-French (wmt14-fr-en)
WMT16 Romanian-English (wmt16-ro-en)
WMT16 German-English (wmt16-de-en)
WMT19 Czech-English (wmt19-cs-en)
WMT13 Spanish-English (wmt13-es-en)
WMT19 Chinese-English (wmt19-zh-en)
WMT19 Russian-English (wmt19-ru-en).
dbarbedillo/SMS_Spam_Multilingual_Collection_Dataset
The text has been further translated into Spanish, Chinese, Arabic, Bengali, Russian, Portuguese, Indonesian, Urdu, Japanese, Punjabi, Javanese, Turkish, Korean, Marathi, Ukrainian, Swedish, and Norwegian using M2M100_418M a multilingual encoder-decoder (seq-to-seq) model trained for Many-to-Many multilingual translation created by Facebook AI.
The original English text was taken from- https://www.kaggle.com/uciml/sms-spam-collection-dataset Hindi, German and French taken from - https://www.kaggle.com/datasets/rajnathpatel/multilingual-spam-data
projecte-aina/ca_zh_wikipedia
中文-加拿大语之间的翻译
wanng/wukong100m
简介 Brief Introduction
取自Noah-Wukong多语言多模态数据集中的中文部分,一共100M个图文对。
A subset from Noah-Wukong (a multimodal dataset), around 100M image-text pairs (only Chinese).
MMChat
基于图片的聊天对
is a large-scale dialogue dataset that contains image-grounded dialogues in Chinese. Each dialogue in MMChat is associated with one or more images (maximum 9 images per dialogue). We design various strategies to ensure the quality of the dialogues in MMChat.
Jiangjie/ekar_chinese
Explainable Knowledge-intensive Analogical Reasoning benchmark (E-KAR).
Hello-SimpleAI/HC3-Chinese
人工和-ChatGPT对比数据集
kuroneko5943/weibo16
微博情感
wangrui6/Zhihu-KOL
知乎问题答案,一个问题,多个答案,根据赞同数量可以排序
silver/personal_dialog
中文个人对话,多轮回
medical_dialog
医学上的病人和医生的对话
mteb/amazon_massive_intent
亚马逊意图识别
qanastek/MASSIVE
意图识别,ner,
GEM/RiSAWOZ
对话多轮
sunzeyeah/chinese_chatgpt_corpus
train_data_external_v1.jsonl
prompt: prompt, string
answers: list of answers
answer: answer, string
score: score of answer, int
prefix: prefix to the answer, string
BelleGroup/generated_train_0.5M_CN
BELLE: Bloom-Enhanced Large Language model Engine
prompt_cn.txt: 生成所使用的提示语
0.5M生成的数据 : 为了方便模型训练,huggingface开源数据将原始生成文件中的"instruction"、"input"字段合并成"input"字段,"output"字段修改为"target"字段。
hugginface相关数据集整理相关推荐
- 自动驾驶——车道线检测相关数据集整理
自动驾驶视觉方向的分支车道线检测需要的相关数据集 暂时没有好好整理,先作个记录: 1.KITTI KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,主要于算法评测. KITTI数据 ...
- 实体对齐(Entity Alignment)相关论文与数据集整理
实体对齐(Entity Alignment).知识图谱融合论文方法总结整理 传统的实体对齐方法主要通过属性相似度匹配的方式实现,利用有监督学习的机器学习模型,如:决策树.支持向量机.集成学习等.依赖实 ...
- 基于视觉的烟雾/火焰检测数据集整理(检测、识别、分割)
基于传感器的火灾预警系统,比较适用于较小空间. 随着视觉技术的发展,基于视觉的火灾预警系统,更适用于对森林等大范围场景进行 远距离监控1. 当前的烟雾火焰检测系统中,采用机器学习的视觉技术暂未广泛替代 ...
- GitHub项目:自然语言处理领域的相关干货整理
GitHub项目:自然语言处理领域的相关干货整理 自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域.本文作者为NLP初学者整理了一份庞大的自然语言处 ...
- 【图像隐写数据集】图像隐写数据集整理
参考链接:关于图像隐写术的数据集下载 信息隐藏研究相关网址 美国State University of New York at Binghamton著名的Jessica Fridrich团队(Steg ...
- 计算机视觉相关综述整理
计算机视觉相关综述整理 计算机视觉与图像识别综述:这是一篇偏科普的通俗型综述,了解相关历史和发展进程,对一些技术有初步的认识. 卷积神经网络综述:作者回顾了从1998年开始,近18年来深度神经网络的架 ...
- 转载【数据集】计算机视觉,深度学习,数据挖掘数据集整理
金融 美国劳工部统计局官方发布数据 上证A股日线数据,1999.12.09 至 2016.06.08,前复权,1095支股票 深证A股日线数据,1999.12.09 至 2016.06.08,前复权, ...
- 【对话生成】常见对话生成数据集整理,含下载链接(更新至2022.06.04)
[对话生成]常见对话生成数据集整理,含下载链接(持续更新) 前言 用于对话理解的对话数据集 IEMOCAP SEMAINE Mastodon MELD EMOTyDA MEmoR M3^33ED CP ...
- 旋转机械故障诊断公开数据集整理
旋转机械故障诊断公开数据集整理 众所周知,当下做机械故障诊断研究最基础的就是数据,再先进的方法也离不开数据的检验.笔者通过文献资料收集到如下几个比较常用的数据集并进行整理.鉴于目前尚未见比较全面的数据 ...
最新文章
- 学习CSS 不错网址
- css 识别变量中的换行符_Python编程 第二章——变量和简单数据类型
- 双十一购物节,Nacos 1.4.0 + Go SDK 1.0.1发布
- 【NOIP2015模拟10.27】魔道研究
- 移动硬盘不可用_如何对您的网站执行移动可用性审核
- Taro+react开发(73):Taro.createSelectorQuery
- java集合清空_java 集合删除数据
- mysql过滤效率和java过滤效率_如何合理选择初中高效过滤器的效率?
- ASP.NET MVC数据标记验证
- 产品研发项目管理软件哪个好?
- JVM 字节码 栈图(Stack Map Table) 学习笔记
- 记忆训练: 记数字 (110数字图像编码)
- 基于VUE+H5PLUS 实现app交互蓝牙打印机得功能
- Unity 相机的移动旋转以及拉近拉远的原理
- 使用 RTL-SDR 加密狗和 OTG 适配器在 Android 上收听广播对话
- 江苏理工学院计算机网络期末,江苏理工学院数据中心机房管理制度
- 《微机原理第五版》期末知识总结(第五章---第七章)
- RTSP协议视频监控智能分析平台EasyNVR如何将音频转化为aac格式并上传?
- discuz!x 应用中心更新为新地址解决方案之一
- 如何让moment根据对应时间显示几秒前、几分钟前、几天前?
热门文章
- 2021年中国工业机器人供需分析:产量36.6万台[图]
- 各大公司电子类招聘题目精选 [转]
- Python编程:cookiejar的使用
- windows下的对拍
- spring的15个经典面试题
- 低耦合高内聚 原则的应用
- 固特异宣布收购固铂轮胎;德州仪器任命姜寒担任公司副总裁兼中国区总裁 | 美通企业日报...
- java毕业生设计抑郁症患者博客交流平台计算机源码+系统+mysql+调试部署+lw
- 2D-UNet脑胶质瘤分割BraTs + Pytorch实现
- 一家小珠宝店老板的豪赌