众所周知,计算机领域论文是要以实验为基础的,而实验的原料就是数据。不管是在图像,文字或者语音领域,开源的数据都十分宝贵和重要。这里主要收集各领域的一些常用的公开数据集。

计算机视觉:

【ImageNet】

【Caltech Pedestrian Dataset】

简介:行人检测数据集

网址:https://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/

细节:

(1)摄像头位于车上

(2)图片模糊

(3)行人少而小,大多数图片不包含行人

(4)原始数据为视频,可以采样为图片

(5)官网给出了各种方法的性能,给出了evaluation的代码。

自然语言处理:

【维基百科简体中文语料】

简介:较大规模的中文语料

网址:http://download.wikipedia.com/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2

细节:

(1)这个压缩包包含标题和正文

(2)用http://medialab.di.unipi.it/wiki/Wikipedia_Extractor抽取数据

(3)抽取命令 bzcat zhwiki-latest-pages-articles.xml.bz2 | python WikiExtractor.py -b1000M -o extracted >output.txt

(4)内容为简繁体混杂,需要https://github.com/BYVoid/OpenCC,https://code.google.com/archive/p/opencc/wikis/Install.wiki解决,运行命令opencc -i wiki_00 -o wiki_chs -c zht2zhs.ini

(5)参考使用网站:http://licstar.net/archives/262

语音处理:

数字医学数据:

Data Collection相关推荐

  1. 《Microsoft COCO Captions Data Collection and Evaluation Server》论文笔记

    出处:CVPR2015 Motivation 本文描述了MSCoco标题数据集及评估服务器(Microsoft COCO Caption dataset and evaluation server), ...

  2. 【论文阅读】MIMICS: A Large-Scale Data Collection for Search Clarification

    文章目录 Motivation Intro Contribution MIMICS-Click MIMICS-ClickExplore MIMICS-Manual Data Analysis Ques ...

  3. app被拒 Guideline 5.1.1 - Legal - Privacy - Data Collection and Storage

    app被拒 Guideline 5.1.1 - Legal - Privacy - Data Collection and Storage Guideline 5.1.1 - Legal - Priv ...

  4. Data Collection with Apache Flume(一)

    首先介绍一下Flume是个神马东东.Flume可以实现从多种数据源获取数据,然后传递到不同的目标路径.通常是利用Flume传送logs到不同的地方,例如从web server收集logs文件然后传送到 ...

  5. OpenStack的Telemetry Data Collection服务概述

    Telemetry项目是OpenStack的一个独立项目,专门用于采集其他服务的数据,用于计量.Telemetry提供了若干个软件组件,形成若干个服务的集合.服务之间通过OpenStack的消息总线互 ...

  6. 深数据 - Deep Data

    暂无中文方面的信息,E文的也非常少,原文连接: A lot of great pieces have been written about the relatively recent surge in ...

  7. Outlier Detection for Improved Data Quality and Diversity in Dialog Systems-学习笔记

    Outlier Detection for Improved Data Quality and Diversity in Dialog Systems 论文按如下方式检测数据集中的异常值: 1.生成每 ...

  8. 大数据(big data)_如何使用Big Query&Data Studio处理和可视化Google Cloud上的财务数据...

    大数据(big data) 介绍 (Introduction) This article will show you one of the ways you can process stock pri ...

  9. 跨系统服务器data,跨服务器的数据整合方法及系统 Cross-server data integration method and system...

    摘要: 本发明是有关于一种跨服务器的数据整合方法及系统. The present invention relates to a method for data integration across s ...

最新文章

  1. 作用于HTML元素的Vue.js指令
  2. 结合二维码打造安全的手机远程运维管理平台
  3. 苹果蓝牙协议的源代码质量都这么差了吗?!研究员找到10个 0day
  4. word目录怎么跳转到相应页码_Word目录不会做?请看完整操作步骤
  5. java gbk文件转utf8_java 将GBK编码文件转为UTF-8编码
  6. 有关 delphi7读取 excel 报错EoleException with message '未找到提供程序,该程序可能未能正确安装' 解决方式
  7. 致远SPM之CAP数据分析解决方案
  8. python如何退出虚拟环境_python 虚拟环境
  9. 新知实验室TRTC 初体验
  10. 计算机更改刷新频率,电脑屏幕刷新频率无法更改怎么办
  11. 第9周--项目1-Complex类
  12. pm2 使用教程: 管理你的 nodejs 后台项目
  13. 你也遇到JSONException:create instance error, null...问题啦?
  14. 一个简单的滑块拖动验证码实例
  15. 谷歌浏览器控制台如何切换中英文
  16. git 出现错误 Could not resolve host: github.com 或者 gitlab.com 或者gerrit相关( 自有服务 )...
  17. 算法和数据结构(Java语言)
  18. 游戏开发人员眼中的Unity 3D网页游戏測评报告
  19. c语言cross函数什么意思,通达信cross函数用法,通达信 filter函数 返回什么值
  20. 一个机器学习算法工程师的基本素质~

热门文章

  1. python创建文本、判断该文件共有多少行_python如何判断文件有多少行
  2. css 容器内 div 底部,CSS:在div容器的底部放置一個div容器
  3. centos 怎样下载php,centos下怎样安装软件
  4. 计算机师范类算师范教育类吗,师范教育类专业和计算机类专业,两者相比,哪个更适合自考生报读...
  5. C/C++对编程的重要性!其他编程语言都是弟弟!
  6. 陷阱计算机音乐谱大全,陷阱 原版C调-王北车-和弦谱-《弹吧》官网tan8.com-和弦谱大全,学吉他,秀吉他...
  7. TVM:使用 Auto-scheduling 来优化算子
  8. 应理解计算机专业的学科特点,职业高中计算机专业测验试题编写的策略初探.doc...
  9. vb6 打印选项对话框_图纸打印次数太多,不知道哪次才是最新的?用打印戳记区分效果好...
  10. salt 启动mysql_saltsack自动化配置day03:服务部署mysql部署