参考 Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus。

  1. 从 365 百万 domain 中抓取,共计大约 1560 亿 token。
  2. 用来训练 T5 和 Switch Transformer。
  3. Raffel et al. (2020) 提供了重新创建 C4 的脚本,但是运行这些脚本大概需要数千刀。
  4. C4 是以 Common Crawl 2019 年 4 月的 snapshot 为基础创建的,使用了很多 filter 来过滤文本。
  5. 这些 filter 的作用包括:
    1. 删除没有 terminal punctuation mark 的行。
    2. 删除少于 3 个词的行。
    3. 删除少于 5 个句子的文档。
    4. 删除包含包含 Lorem ipsum 这种 placeholder 文本的文档。
    5. 删除包含“List of Dirty, Naughty, Obscene, or Otherwise Bad Words”中任何单词的文档。
    6. 删除非英文文档,非英文的标准是使用 langdetect 得到的英文概率小于 0.99,所以 C4 主要是英文文档。
  6. 应用了 filter 的数据集版本叫 C4.EN,没应用的叫 C4.EN.NOCLEAN,没有使用 blcoklist 的 C4.EN 叫 C4.EN.NOBLOCKLIST。三个版本的简单统计如下图,其中 token 数是用 spacy 的 English tokenizer 分词后统计的:
  7. 来源网址中,按 TLD(top-level domains)统计,前三名是 .com、.org、.co.uk,其中 .gov 和 .mil 占比也不少,后者尽管不在 top25 中,但是也有 33 百万 token。
  8. 按网站统计,前三名是 patents.google.comen.wikipedia.comen.m.wikipedia.com
  9. 按发表时间统计,92% 都发表在数据集收集前的一个十年中(2011-2019),分布是长尾分布 long-tailed,大部分都在数据收集前的 10-20 年间。这是从 C4.EN 中采样得来的,采样大小为 1 百万。发表时间是按照该网址被 Internet Archive 首次索引收录的时间算的,所以真实发表时间实际更早一点。
  10. 按地理位置统计,作者使用了一个 IP-country 数据库,从原始数据集中随机采样了一个大小为 17 万 5 千的样本集。前五名是美国(51.3%)、无法分辨、德国、英国和加拿大。中国排在第 18,香港排在第 16。值得注意的是,按人口算第 2、3、4 大说英语的国家——印度、巴基斯坦、尼日利亚、菲律宾,在数据集中占比只有美国的 3.4%、0.06%、0.03%、0.1%,尽管他们有数千万人说英语。
  11. C4 包含大量机器生成的文本,machine-generated text,主要包括专利的机器翻译和 ocr 文本。前面说过,按网站统计 patents.google.com 排第一,这是专利网站,Google 会使用机器翻译模型翻译非英文专利,也会使用 ocr 将扫描文本识别出来。识别哪些文本是机器生成的也是一个活跃的研究领域。
  12. C4 中存在 benchmark data contamination 现象,即下游任务的训练集或测试集出现在 C4 中,造成了数据污染。具体来说,分为两种情况:input-and-label contamination 和 input contamination。
  13. 一些 seq2seq 任务的 label 其实就是 input 中的文本,例如抽取式摘要,如果这种任务的 input 出现在了预训练数据集中,那么其 label 也相当于出现在了预训练数据集中,那么我们有理由认为模型实际上只是在背书而没有做真正的推理。作者分析了 3 个生成式任务的7个数据集,发现均有不同程度(1.87-24.88%)的污染,target 文本为单句的匹配率(完全匹配)要明显高于多句。
  14. Input contamination 同样会对下游任务造成影响。作者发现有 2-50% 的 GLUE input 出现在 C4 中。对于分类任务来说,虽然不包含 label 的训练集出现在 C4 中并不影响最终性能,但是对 zero-shot 和 few-shot 来说,这仍然是一个值得慎重对待的问题。
  15. C4 带有明显的种族偏见,“Jewish”更容易与积极情绪挂钩,而“Arab”更容易与消极情绪挂钩。
  16. 对被排掉的文档进行随机抽样,得到 10 万份文档,然后进行 k-means 聚类,k=50,使用 TF-IDF 进行 embedding,然后使用 PCA 进行降维可视化。但最终发现只有 16 个类,且三分之一的是性相关文档。
  17. 相比于种族,提及性取向的文档更有可能被排除,例如 lesbian 和 gay。这个结论是通过计算点互信息 PMI 得到的。
  18. 非裔美国英语 AAE 和西班牙裔美国英语 Hisp 更有可能被排除。
  19. 许多被排除的文档并不包含 offensive 和 sexual 内容。
  20. 97.8% 的 C4.EN 是白人英语 WAE,AAE 和 Hisp 分别只有 0.07% 和 0.09%。
  21. 在创建数据集的过程中,评估 bias 很重要。
  22. 在清洗 web-crawled 数据时,作者反对使用黑名单的方法来排除文档。
  23. 作者分析的是 C4.EN,所以本文结论可能并不适合其他语言。
  24. GPT-3 的作者在训练完成之后,才发现存在 benchmark contamination。由于重新训练非常昂贵,他们没有重新训练,转而分析不同任务受到该现象的影响,发现确实会影响相关 benchmark 的性能。

C4 数据集基本信息速览相关推荐

  1. 【AI视野·今日CV 计算机视觉论文速览 第165期】Mon, 21 Oct 2019

    AI视野·今日CS.CV 计算机视觉论文速览 Mon, 21 Oct 2019 Totally 34 papers ?上期速览✈更多精彩请移步主页 Interesting: ?****基于立体视觉的三 ...

  2. 【今日CV 计算机视觉论文速览 第130期】Thu, 13 Jun 2019

    今日CS.CV 计算机视觉论文速览 Thu, 13 Jun 2019 Totally 39 papers ?上期速览✈更多精彩请移步主页 Interesting: ?LED2Netz照明条件估计的去雾 ...

  3. 【AI视野·今日CV 计算机视觉论文速览 第159期】Tue, 24 Sep 2019

    AI视野·今日CS.CV 计算机视觉论文速览 Tue, 24 Sep 2019 Totally 67 papers ?上期速览✈更多精彩请移步主页 Interesting: ?基于层次点和边缘交互的网 ...

  4. 【今日CV 计算机视觉论文速览 第135期】Mon, 24 Jun 2019

    今日CS.CV 计算机视觉论文速览 Mon, 24 Jun 2019 Totally 16 papers ?上期速览✈更多精彩请移步主页 Interesting: ?RGB-D摄像头的稀疏深度图补全, ...

  5. 【今日CV 计算机视觉论文速览 第149期】Tue, 30 Jul 2019

    今日CS.CV 计算机视觉论文速览 Tue, 30 Jul 2019 Totally 77 papers ?上期速览✈更多精彩请移步主页 Interesting: ?MaskGAN人脸属性操作的新方法 ...

  6. .NET平台开源项目速览(2)Compare .NET Objects对象比较组件

    原文:.NET平台开源项目速览(2)Compare .NET Objects对象比较组件 .NET平台开源项目速览今天介绍一款小巧强大的对象比较组件.可以更详细的获取2个对象的差别,并记录具体差别,比 ...

  7. DataWorks功能实践速览 05——循环与遍历

    简介:DataWorks功能实践系列,帮助您解析业务实现过程中的痛点,提高业务功能使用效率!通过往期的介绍,您已经了解到在DataWorks上进行任务运行的最关键的几个知识点,其中上期参数透传中为您介 ...

  8. 【AI视野·今日CV 计算机视觉论文速览 第164期】Fri, 18 Oct 2019

    AI视野·今日CS.CV 计算机视觉论文速览 Fri, 18 Oct 2019 Totally 30 papers ?上期速览✈更多精彩请移步主页 Interesting: ?****医学图像语义分割 ...

  9. 【AI视野·今日CV 计算机视觉论文速览 第162期】Fri, 27 Sep 2019

    AI视野·今日CS.CV 计算机视觉论文速览 Fri, 27 Sep 2019 Totally 55 papers ?上期速览✈更多精彩请移步主页 Interesting: TODO(rjj): de ...

最新文章

  1. yum工具安装Nginx
  2. response html 页面,使用response将html拼接页面写到当前浏览器端完成自动提交功能...
  3. python新增练习(二)
  4. 计算机的优势和劣势_100亿倍,中国量子计算机完胜美国,向中方科学家致敬
  5. python中configparser_python中confIgparser模块学习
  6. k型热电偶分度表_一张表搞定热电偶与热电阻的问题
  7. php cpu缓存 执行 代码,缓存PHP页面的代码,可以减轻CPU和MYSQL负担
  8. 投入10个亿,每人奖300万,腾讯给科学界发奖了!
  9. 【Python】绘制哆啦A梦
  10. c++通过TCP/IP协议提交POST信息登录到PHPChina中文开发者社区
  11. JAVA 进制转换工具
  12. 小波变换(matlab)-常见脚本函数
  13. 关于圆的角度和弧度的计算公式
  14. Java工程师的成长之路
  15. 学习的 定义是什么?生物
  16. 一个游戏程序员的学习资料【转】
  17. net_device详解
  18. 使用EasyExcel导出图片及异常处理
  19. MyBatis高频面试题
  20. 无法打开包括文件: “opencv2/opencv_modules.hpp”

热门文章

  1. 基于struts2、spring、spring data jpa实现poi导入 + pinyin4j将汉字转换为拼音
  2. 公式穿搭法则,让你穿搭更简单
  3. WLAN1:AC6005组网配置实验
  4. 全球及中国氟氯西林原料药行业十四五规划与发展远景展望报告2022-2028年
  5. 看完跳槽少说涨 5 K,前端面试从准备到谈薪完全指南(近万字精华)
  6. 微型计算机的注意事项,微型计算机
  7. Android 音乐播放器,Service后台管理播放
  8. csu:1919: 不醉不归
  9. 数据库查询出来的中文数据显示为‘?’等乱码时的解决办法
  10. linux安装MySQL(附安装包)很详细