不管是做数据标注还是数据清洗、分析等等,大家是不是遇到过如下问题?

  1. 提示文件没有软件能打开。

  2. 用常用软件打开后乱码。

等等问题,特别是刚接触数据行业的小伙伴,有很多没有计算机背景知识,完全摸不到头脑到底需要如何处理,那本文就给大家详细梳理一下关于数据新手小白必须要了解的关于数据文件格式的基础知识。

文件格式

首先我们先来了解一下文件格式的定义是什么?

指电脑为了存储信息而使用的对信息的特殊编码方式,是用于识别内部储存的资料。比如有的储存图片,有的储存程序,有的储存文字信息。每一类信息,都可以一种或多种文件格式保存在电脑存储中。每一种文件格式通常会有一种或多种扩展名可以用来识别,但也可能没有扩展名。扩展名可以帮助应用程序识别的文件格式。

根据定义大家就非常好理解了,说的直白一些就是电脑存储数据本来是一种编码的,但是大家为了便于存储和识别,根据不同的需求用了特殊的编码方式来进行存储,而我们常看到的扩展名,就相当于我们给这种特殊编码方式起了一个非常便于识别的小名。

我们日常常用的扩展名有哪些呢?

1..xlsx结尾的Excel文件,.docx结尾的Word文件,.pptx结尾的PPT文件。

2..png、.jpg、.gif结尾的图形文件。

3..mp3、.mp4、.wav、.wmv等等结尾的音乐和视频文件。

4..txt结尾的文本文件。

5..exe结尾的windows环境下的可执行文件。

以上都是我们日常使用电脑比较常用的扩展名的问题,而且基本上电脑都会自带软件可以进行读取操作了,所以大家日常上就会对这些扩展名比较无感,那么做数据标注会遇到哪些文件格式呢?我们一起来看看。

  • 通用文本文件格式

    文本文件基本上各个操作系统自带的文本编辑器都可以进行读取操作,如果体验比较好一点的话,在windows上可以用Notepad++或者UltraEdit。

    • 分隔格式(结构化数据)

      数据属性(列)和数据实例(行)由统一符号分割,用于分割的符合就被称为分割符,其特点就是用起来非常方便也很容易理解。目前常见的就有两种

      制表符分割值(TSV)

       

      逗号分割值(CSV)

    • JSON格式(半结构化数据)

      JSON是目前主流的数据格式之一,可跨平台的属性让广泛的应用于各个传输数据的场景,这也是因为jSON格式的扩展性好、易用、并且支持多值属性、可缺失属性、嵌套属性的原因,格式特点是属性——值的形式进行存储数据,每个值都有其对应的属性标识。

      可以解读:此JSON文件记录的是图片信息及图片标注的属性,并且红色框标出部分名称均可自定义名称。

    • XML格式(半结构化数据)

      XML是一种可扩展标记语言,主要用来描述数据,其中的标记都是可以根据使用的命名需求进行自定义。

    • HTML格式(非结构化数据)

      HTML格式最常见的就是我们目前使用的网页页面都是此类格式。可以打开浏览器访问任一网页点击键盘上的F12键都可以进入开发者模式查看其页面内容。

      可以看到红框标注部分就是HTML的内容,我们可以在这个页面中找到相关需要的信息,但是HTML中需要包含的内容比较多也比较复杂,同时可自定义的内容也非常多,所以就比其他格式要麻烦很多。

  • 文本标注

    进行文本标注时,如果是线下标注的话,比较常用存储数据的文件是txt、xlsx格式,这个两种格式相对比较常见就不多介绍,可以自己新建看看有什么特点。

  • 图像标注

    图像格式种类就相对更丰富了,比较常见的有:bmp,jpg,png,tif,gif,pcx,tga,exif,fpx,svg,psd,cdr,pcd,dxf,ufo,eps,ai,raw,WMF,webp等。其中用的最多的就是bmp、jpg、png了。

    • bmp(BitMap)是一种与硬件设备无关的图像文件格式,使用非常广泛。但它不支持文件压缩,也而不适用于Web页,所占用的空间很大。

    • JPEG是一种常见的图像格式,JPEG文件的扩展名为压缩技术十分先进,它用去除冗余的图像和色彩数据,获取极高的压缩率的同时能展现十分丰富生动的图像,话句话说,就是可以用最少的磁盘空间得到较好的图像质量。

    • png是一种无损压缩的位图片形格式,其设计目的是试图替代GIF和IFF格式,同时增加一些GIF文件格式所不具备的特性。其特点是压缩比高,生成文件体积小。

  • 音频标注

    无损格式:例如WAV、FLAC、APE、ALAC、CDA

    有损格式:例如MP3、AAC、Opus

    所以我们在标注的时候使用的原始数据WAV格式也会多一些。其标注的结果文件除了上面通用的标注文件格式外,目前使用比较多的线下音频处理工具Praat也有自己生成的结果格式textgrid文件。

  • 视频标注

    视频标注目前主流的方案是把视频抽取关键帧然后对抽取关键帧的图片进行标注,最后再合成视频。

  • 医疗标注

    影像数据(CT/DR)

.dcm文件遵循DICOM(Digital Imaging and Communications Medicine,医疗数位影像传输协定)标注的一种文件。而DICOM标准支持的设备包括心电图、核磁共振成像、心血管、超声心动图等多种医疗社保,因而DCM文件被广泛应用于医疗行业。

一张CT片子对应多个.dcm文件:

  病理切片数据

病理切片医院正常存储的都是玻璃片式进行存放归档,大部分医院都不进行电子化,主要原因对于医院来说电子化不是刚需,及时电子化了也没什么作用,其次电子化需要病理切片电子扫描仪,不仅贵扫描效率也非常低下,有些设备的扫描成功率也不是很高。所以基本上如果客户需要研究病理切片都需要进行自行扫描才行。但病理切片扫描出来的片子一般都非常大,40倍扫描出来就需要几G的存储空间,所以在我们拿到数据的时候一般都会非常大或者非常多图片。介绍两种目前主要的形式。

1..jpg格式的图片,如果是一张病理切片如果被切分成.jpg格式的图片通常会被切成少则几十张多则几百张的图片。

2.tif格式也是一种图像文件格式,只是这是一种灵活的位图格式。

其数据格式是一种3级体系结构,内部结构可以分为三部分:文件头信息区、标识信息区和图像数据区。

以上就是目前数据标注主要能涉及的文件格式以及主要的输出结果格式,也是数据标注或者后期数据处理必须要了解的基础知识。针对这部分内容还有很多,也会多写几篇和大家分享。

最近好多小伙伴后台留言问一些问题,还是发现目前从事数据标注和想转到数据相关行业的小伙伴还是很多的,但是大家对数据相关的基础知识相对还是比较薄弱的,所以接下来会针对数据基础知识、数据处理、python基础等几个方面写一些专题系列文章,如果有兴趣的小伙伴也可以一起参与学习。也欢迎大家留言交流。

新手小白必须了解的数据相关基础知识(一)相关推荐

  1. 【RAC】RAC相关基础知识

    [RAC]RAC相关基础知识 1.CRS简介    从Oracle 10G开始,oracle引进一套完整的集群管理解决方案--Cluster-Ready Services,它包括集群连通性.消息和锁. ...

  2. datagrid出现相同两组数据_stata 数据操作基础知识:以一篇论文数据操作为例

    stata 数据操作基础知识:以一篇论文数据操作为例 上节回顾及问题 统计学学习大图景 数据描述 分位数回归 存在的问题: 1.学了就要多使用,哪怕生搬硬套也要多用 2.时间序列的方法,大家可以操作, ...

  3. python必备基础代码-新手上路必学的Python函数基础知识,全在这里了(多段代码举例)...

    原标题:新手上路必学的Python函数基础知识,全在这里了(多段代码举例) 导读:函数是Python中最重要.最基础的代码组织和代码复用方式.根据经验,如果你需要多次重复相同或类似的代码,就非常值得写 ...

  4. 黑马程序员_JAVA相关基础知识

    ------- android培训.java培训.期待与您交流! -------- JAVA相关基础知识 1.面向对象的特征有哪些方面 1.抽象: 抽象就是忽略一个主题中与当前目标无关的那些方面,以便 ...

  5. 【阿里云天池大赛赛题解析】 刷书笔记 Lesson 1 数据探索基础知识

    文章目录 数据探索基础知识 1. 双变量分析 1.1 计算相关性 1.2 卡方检验 1.3 小提琴图 2. 缺失值 2.1 处理方法 3. 异常值 3.1 检测方法 3.1.1 箱线图检测法 3.1. ...

  6. 大数据入门培训之大数据开发基础知识学习

    在目前相信大多数IT开发人员对于人工智能+大数据并不陌生,使用的场景也越来越广,日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求.因此对大数据知识也有必要进行一些学习理解,带大家来学习了解一下 ...

  7. 零件三维缺陷检测相关基础知识

    零件三维缺陷检测相关基础知识 看了几篇文献,总结下来三维缺陷检测的过程,总的来说分为: 零件表面的三维数据获取 根据零件的三维数据信息进行三维重建 目标点云与标准点云的配准 配准后的点云做差得到缺陷信 ...

  8. 6-DoF问题相关基础知识笔记

    6-DoF问题相关基础知识笔记 一.什么是6-DoF,即6个自由度是什么? 二.PnP算法 三.BOP挑战与官方数据集简介 BOP数据集 BOP toolkit BOP挑战的介绍页面 四.相关论文 C ...

  9. 【C++后台开发面经】面试总结第三波:针对后台开发相关基础知识分类总结

    前言 面试总结第三波,关于后台开发面试相关基础知识,数据结构.算法.linux操作系统.计算机网络.C++.数据库进行分类总结. 后端面试总结 目录 后端面试总结 1.数据结构 链表和数组的区别 树的 ...

最新文章

  1. android相机截取矩形框,Android自定义照相机实现只拍摄矩形区域(重传)
  2. 数据预处理(part2)--多个预测变量数据变换
  3. 面向对象设计的重要原则:SOLID
  4. 清空VS2003/VS2005最近打开解决方案记录
  5. python word自动化_python操作word,自动化办公
  6. idea一键导包快捷键_十三肝了2晚的《IDEA操作手册-终极秘籍》终于来了...
  7. python学习 day22 (3月29日)----(生成器推导式)
  8. php 时间 拼接,PHP关于时间的时段的重合、 整合的方法
  9. C语言源代码编译全过程
  10. 机器学习视频课程(超清完整11周)分享给大家!
  11. 使用onvif协议操作设备
  12. 排队论模型(三):M / M / s/ s 损失制排队模型
  13. 手机入侵修改服务器数据,入侵手游服务器修改数据库
  14. Windows Server 2016 路由和远程访问
  15. Python 算法交易实验41 GMM简单估计
  16. 黑客游戏-梦之光芒1~14攻略
  17. 方兴东:让曲线告诉创业的痛楚和狂喜
  18. 做产品与做项目的区别
  19. 树莓派采集MPU9250运行AHRS进行姿态解算
  20. 关于excel导入带图片

热门文章

  1. 乐视云如何炼成弹性支撑百万级别直播流
  2. win10安装mysql5.5,在线面试指南
  3. 字体设计之黑体字的重点
  4. 安卓手机硬改软件介绍。改机软件 改手机参数
  5. beaglebone C语言编程,BeagleBone的GPIO控制
  6. win10家庭版设置用户为管理员
  7. 小米9android q测试版,小米9/小米MIX 3 5G的Android Q测试包已发布
  8. 小米12pro是双卡双待吗 小米12pro是5g手机吗
  9. php curl ftp下载文件,php使用curl实现ftp文件下载功能的方法
  10. 操作系统--二级存储结构下篇知识详解