swaption2009/20k-en-zh-translation-pinyin-hsk
翻译
Source: https://mnemosyne-proj.org/cards/20000-chinese-sentences-translations-and-pinyin
Contributed by: Brian Vaughan http://brianvaughan.net/

RUCAIBox/Translation
翻译
WMT14 English-French (wmt14-fr-en)
WMT16 Romanian-English (wmt16-ro-en)
WMT16 German-English (wmt16-de-en)
WMT19 Czech-English (wmt19-cs-en)
WMT13 Spanish-English (wmt13-es-en)
WMT19 Chinese-English (wmt19-zh-en)
WMT19 Russian-English (wmt19-ru-en).

dbarbedillo/SMS_Spam_Multilingual_Collection_Dataset
The text has been further translated into Spanish, Chinese, Arabic, Bengali, Russian, Portuguese, Indonesian, Urdu, Japanese, Punjabi, Javanese, Turkish, Korean, Marathi, Ukrainian, Swedish, and Norwegian using M2M100_418M a multilingual encoder-decoder (seq-to-seq) model trained for Many-to-Many multilingual translation created by Facebook AI.
The original English text was taken from- https://www.kaggle.com/uciml/sms-spam-collection-dataset Hindi, German and French taken from - https://www.kaggle.com/datasets/rajnathpatel/multilingual-spam-data

projecte-aina/ca_zh_wikipedia
中文-加拿大语之间的翻译

wanng/wukong100m
简介 Brief Introduction
取自Noah-Wukong多语言多模态数据集中的中文部分,一共100M个图文对。
A subset from Noah-Wukong (a multimodal dataset), around 100M image-text pairs (only Chinese).

MMChat
基于图片的聊天对
is a large-scale dialogue dataset that contains image-grounded dialogues in Chinese. Each dialogue in MMChat is associated with one or more images (maximum 9 images per dialogue). We design various strategies to ensure the quality of the dialogues in MMChat.

Jiangjie/ekar_chinese
Explainable Knowledge-intensive Analogical Reasoning benchmark (E-KAR).

Hello-SimpleAI/HC3-Chinese
人工和-ChatGPT对比数据集

kuroneko5943/weibo16
微博情感

wangrui6/Zhihu-KOL
知乎问题答案,一个问题,多个答案,根据赞同数量可以排序

silver/personal_dialog
中文个人对话,多轮回

medical_dialog
医学上的病人和医生的对话

mteb/amazon_massive_intent
亚马逊意图识别

qanastek/MASSIVE
意图识别,ner,

GEM/RiSAWOZ
对话多轮

sunzeyeah/chinese_chatgpt_corpus
train_data_external_v1.jsonl
prompt: prompt, string
answers: list of answers
answer: answer, string
score: score of answer, int
prefix: prefix to the answer, string

BelleGroup/generated_train_0.5M_CN
BELLE: Bloom-Enhanced Large Language model Engine
prompt_cn.txt: 生成所使用的提示语
0.5M生成的数据 : 为了方便模型训练,huggingface开源数据将原始生成文件中的"instruction"、"input"字段合并成"input"字段,"output"字段修改为"target"字段。

hugginface相关数据集整理相关推荐

  1. 自动驾驶——车道线检测相关数据集整理

    自动驾驶视觉方向的分支车道线检测需要的相关数据集 暂时没有好好整理,先作个记录: 1.KITTI KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,主要于算法评测. KITTI数据 ...

  2. 实体对齐(Entity Alignment)相关论文与数据集整理

    实体对齐(Entity Alignment).知识图谱融合论文方法总结整理 传统的实体对齐方法主要通过属性相似度匹配的方式实现,利用有监督学习的机器学习模型,如:决策树.支持向量机.集成学习等.依赖实 ...

  3. 基于视觉的烟雾/火焰检测数据集整理(检测、识别、分割)

    基于传感器的火灾预警系统,比较适用于较小空间. 随着视觉技术的发展,基于视觉的火灾预警系统,更适用于对森林等大范围场景进行 远距离监控1. 当前的烟雾火焰检测系统中,采用机器学习的视觉技术暂未广泛替代 ...

  4. GitHub项目:自然语言处理领域的相关干货整理

    GitHub项目:自然语言处理领域的相关干货整理 自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域.本文作者为NLP初学者整理了一份庞大的自然语言处 ...

  5. 【图像隐写数据集】图像隐写数据集整理

    参考链接:关于图像隐写术的数据集下载 信息隐藏研究相关网址 美国State University of New York at Binghamton著名的Jessica Fridrich团队(Steg ...

  6. 计算机视觉相关综述整理

    计算机视觉相关综述整理 计算机视觉与图像识别综述:这是一篇偏科普的通俗型综述,了解相关历史和发展进程,对一些技术有初步的认识. 卷积神经网络综述:作者回顾了从1998年开始,近18年来深度神经网络的架 ...

  7. 转载【数据集】计算机视觉,深度学习,数据挖掘数据集整理

    金融 美国劳工部统计局官方发布数据 上证A股日线数据,1999.12.09 至 2016.06.08,前复权,1095支股票 深证A股日线数据,1999.12.09 至 2016.06.08,前复权, ...

  8. 【对话生成】常见对话生成数据集整理,含下载链接(更新至2022.06.04)

    [对话生成]常见对话生成数据集整理,含下载链接(持续更新) 前言 用于对话理解的对话数据集 IEMOCAP SEMAINE Mastodon MELD EMOTyDA MEmoR M3^33ED CP ...

  9. 旋转机械故障诊断公开数据集整理

    旋转机械故障诊断公开数据集整理 众所周知,当下做机械故障诊断研究最基础的就是数据,再先进的方法也离不开数据的检验.笔者通过文献资料收集到如下几个比较常用的数据集并进行整理.鉴于目前尚未见比较全面的数据 ...

最新文章

  1. 学习CSS 不错网址
  2. css 识别变量中的换行符_Python编程 第二章——变量和简单数据类型
  3. 双十一购物节,Nacos 1.4.0 + Go SDK 1.0.1发布
  4. 【NOIP2015模拟10.27】魔道研究
  5. 移动硬盘不可用_如何对您的网站执行移动可用性审核
  6. Taro+react开发(73):Taro.createSelectorQuery
  7. java集合清空_java 集合删除数据
  8. mysql过滤效率和java过滤效率_如何合理选择初中高效过滤器的效率?
  9. ASP.NET MVC数据标记验证
  10. 产品研发项目管理软件哪个好?
  11. JVM 字节码 栈图(Stack Map Table) 学习笔记
  12. 记忆训练: 记数字 (110数字图像编码)
  13. 基于VUE+H5PLUS 实现app交互蓝牙打印机得功能
  14. Unity 相机的移动旋转以及拉近拉远的原理
  15. 使用 RTL-SDR 加密狗和 OTG 适配器在 Android 上收听广播对话
  16. 江苏理工学院计算机网络期末,江苏理工学院数据中心机房管理制度
  17. 《微机原理第五版》期末知识总结(第五章---第七章)
  18. RTSP协议视频监控智能分析平台EasyNVR如何将音频转化为aac格式并上传?
  19. discuz!x 应用中心更新为新地址解决方案之一
  20. 如何让moment根据对应时间显示几秒前、几分钟前、几天前?

热门文章

  1. 2021年中国工业机器人供需分析:产量36.6万台[图]
  2. 各大公司电子类招聘题目精选 [转]
  3. Python编程:cookiejar的使用
  4. windows下的对拍
  5. spring的15个经典面试题
  6. 低耦合高内聚 原则的应用
  7. 固特异宣布收购固铂轮胎;德州仪器任命姜寒担任公司副总裁兼中国区总裁 | 美通企业日报...
  8. java毕业生设计抑郁症患者博客交流平台计算机源码+系统+mysql+调试部署+lw
  9. 2D-UNet脑胶质瘤分割BraTs + Pytorch实现
  10. 一家小珠宝店老板的豪赌