晓查 发自 凹非寺
量子位 出品 | 公众号 QbitAI

NLP是个好东西,但是汉语文化实在是博大精深,连长辈都看不懂网络词语,想让机器理解它们就更难了。

如果我们还用“正经”训练数据集,那就明显不够用了。

为了解决这个问题,有人从有人收集了3700万条图书评论和5万条bbs回帖,作为大型非正式汉语数据集(LSICC)。

内容来源分别是“豆瓣读书”和Chiphell论坛。

下面请从数据集中感受一下网络论坛文化的洗礼:

作者从Chiphell中选取了几个主题的回帖,其中有大量的网络用语,甚至还有中英文混用。

“辣鸡”当然不是辣味的鸡,“木有”也不是说木头。如果用正经训练集得到的模型去识别它们,结果恐怕会惨不忍睹。

据统计,这个数据集中非正式用语的比例远远高于一般其他数据集,在7.5亿词语中,非正式用语出现了62万次。比例远高于人民日报这样的官方媒体。

结果表明,现实世界自然语言模型处理和现有语料库的语言之间差距明显。

如果使用从正式汉语语料库中提取的向量表示作为单词嵌入,可能导致不良的表现。

所以,如果你需要训练模型去识别网络语言,那一定要尝试一下这个数据集。

这些抓取内容也并非直接可用,好在作者进行了一些预处理,删除了其中较短的句子,另外也对文中的英文单词做了识别。

资源地址:

豆瓣读书评论:
https://github.com/JaniceZhao/Douban-Dushu-Dataset.git

Chiphell回帖:
https://github.com/JaniceZhao/Chinese-Forum-Corpus.git

作者将豆瓣读书评论的内容整理成csv表格,Chiphell回帖则整理成json文件格式。

你说“神马”?非正式汉语数据集资源上线,帮你训练网络语言处理相关推荐

  1. 8种寻找机器学习数据集的方法 | 附数据集资源

    乾明 发自 凹非寺 量子位 出品 | 公众号 QbitAI 在训练机器学习模型时,找到合适的数据集一直是个棘手的问题. 近日,亚马逊AWS高级技术顾问Will Badr介绍了8种寻找机器学习数据集的方 ...

  2. 机器学习数据集的方法 及 数据集资源

    亚马逊AWS高级技术顾问Will Badr介绍了8种寻找机器学习数据集的方法 1.Kaggle数据集 Kaggle的数据集中,包含了用于各种任务,不同规模的真实数据集,而且有许多不同的格式.此外,你还 ...

  3. 神马php资源,神马批量添加站点PHP脚本

    今天来分享一个神马批量添加域名到站长平台的PHP脚本,这几天把批量添加的软件也发出来吧~ //要创建的两个文件 $TxtFileName = "index.html"; //以读写 ...

  4. 神马搜索如何提升搜索的时效性?

    简介:什么是搜索的时效性?有哪些特征?如何优化?本文分享神马搜索在搜索排序时效性问题上的实践和探索,从基础特征优化开始,通过标注数据进行排序和召回模型优化,以及时效性排序的召回体系和收录体系.较长,同 ...

  5. AI时代的神马搜索!神马智能对话技术深度解读

    智能对话是搜索引擎的未来形态,神马搜索在发展全网搜索.国内信息流.国际信息流等大数据业务的同时,智能对话的探索和沉淀也逐渐浮出水面.过去一年基于搜索推荐多年的积累,我们完成了平台架构.生产体系.算法体 ...

  6. 你真的懂TensorFlow吗?Tensor是神马?为什么还会Flow?

    本文的ipynb 格式见CSDN下载. 0维张量/标量 标量是一个数字 1维张量/向量 1维张量称为"向量". 2维张量 2维张量称为矩阵 3维张量 公用数据存储在张量 时间序列数 ...

  7. 神马搜索聚焦大数据营销 汇川广告平台 快、准、省

    6月28日,阿里巴巴旗下神马搜索举办了汇川广告平台代理商季度沟通会.本次会议,神马搜索营销团队与众多代理商一道,针对移动搜索大数据营销和汇川广告平台超级媒体矩阵进行了深入交流,通过解读行业现状及案例分 ...

  8. 课时22:函数:递归是神马

    目录: 一.递归是"神马"? 二.写一个求阶乘的函数 三.课时22课后习题及答案 ********************* 一.递归是"神马"? ****** ...

  9. 文章的DOI号是神马

    原文地址:文章的DOI号是神马作者:佳佳hi DOI是一种标识,即Digital Object Identifier(数字对象标识符)的缩写,为数字信息提供了全球唯一的身份标识,就如同出版物贴上了条形 ...

最新文章

  1. Android 如何有效的解决内存泄漏的问题
  2. jQuery 基础教程 (三)之jQuery的选择器
  3. 运营商市场经营方向及趋势
  4. Vue SSR(Vue2 + Koa2 + Webpack4)配置指南
  5. QT int QString char转换
  6. JAVA中为什么要用接口定义编程_【Java公开课|为什么要用Java接口,这些内容你一定要搞清楚】- 环球网校...
  7. VC++6.0 DDK 环境配置
  8. 关于安卓设备更改和烧录IMEI的图文教程
  9. glTF格式介绍——目录
  10. 三极管发射极偏置原理应用于LED驱动电路的分析
  11. Yii2用户信息存储与获取
  12. 国产CAD制图软件中怎么设置两点标注?
  13. Java迷你共享单车系统(面向对象作业)
  14. 微信小程序手机号码如何进行解密
  15. Android系统版本与代号
  16. 系统常见错误的解决方法
  17. 头歌平台(EduCoder)—— Matplotlib接口和常用图形
  18. IT十年人生过客2-毕业季
  19. Angular4 - 构建以及部署
  20. 两个不相交的闭集并不能保证两个集合可分

热门文章

  1. 正确的初始化,在 Java 编程中至关重要!
  2. 领导:“请在今晚进行网络系统升级”
  3. 蒋涛担任上方新一届董事长,打造 TokenSky 全球区块链服务生态集团
  4. Java 10 正式发布!时隔 6 月带来 109 项新特性
  5. Linux之父Linus Torvalds恶评Intel漏洞修复补丁:完全是个垃圾
  6. jni直接转byte_JNI jbyteArray转char*
  7. java随机数生成字母,手撕面试官
  8. php扩展多线程和多进程,PHP 多进程和多线程的优缺点
  9. 截取文件最后10行_软网推荐:向视频文件“开刀”
  10. c语言基本练习题 doc,C语言练习题-基本数据类型和运算.doc