2021-07-28-飞桨课程笔记-关于数据获取途径与处理方面的技巧
学习目标:
数据集获取途径以及处理方面的技巧
学习内容:
老师挺年轻的,好像学生,但又专业。
这次课程的内容挺杂挺多的,数据、模型的一些问题都涉及到了。讲课过程中,弹幕也提出了许多问题,老师进行了解答。
1.数据集的获取
老师废话不多说,开门见山,依照Notebook,直接开始讲数据集的获取。
数据获取来源方面在notebook上面列举了很多,其实AI Studio上的数据集已经很丰富了。
通过老师的介绍,成功注册了kaggle账号,仿佛发现了新大陆----好多好多数据集还有别人的实现代码。又一个新手学习的天堂。
另外浏览了一下科大讯飞的平台,听老师讲解了一下COCO数据集,知道其是微软发布的。
2.图像处理
老师介绍了一下图像处理的方法,讲到为什么要处理,特别是为什么要对数据进行归一化, 目的是提高收敛效率,统一不同输入范围的数据对于模型学习的影响,映射到激活函数有效梯度的值域
,举了个使用平均值归一化的例子。
3.数据处理
老师拿VOC与COCO两种数据集分别举例介绍。详细介绍了两者不同的标注格式,标注的意思。
另外,学会了在代码中直接写模板,这样也方便数据格式转换。
#写好模板,里面的%s与%d 后面文件输入输出流改变 -------转数据集阶段--------
headstr = """
<annotation><folder>VOC</folder><filename>%s</filename><source><database>My Database</database><annotation>COCO</annotation><image>flickr</image><flickrid>NULL</flickrid></source><owner><flickrid>NULL</flickrid><name>company</name></owner><size><width>%d</width><height>%d</height><depth>%d</depth></size><segmented>0</segmented>
"""
objstr = """<object><name>%s</name><pose>Unspecified</pose><truncated>0</truncated><difficult>0</difficult><bndbox><xmin>%d</xmin><ymin>%d</ymin><xmax>%d</xmax><ymax>%d</ymax></bndbox></object>
"""tailstr = '''
</annotation>
'''
后面讲到了划分训练集与验证集,老师按照0.85:0.15,一般按8:2也可以。
老师边讲课边运行,实现从COCO标注到VOC的转换。
自定义数据集进行训练
老师实际展示了几种常见标注工具,简单介绍了下用法。
数据增强
这里老师简单介绍了位图和矢量图的区别,讲到根据数组绘制图像,还有灰度,缩略,RGB显示图,锐化等概念
数据增强老师讲了原因,notebook上也有。防止过拟合。
提到运行时占用内存会很大。
后面老师展示了数据是否增强对训练的影响
使用了VisualDL 2.0可视化工具。
介绍mAP
最后讲到mAP
TP、FP、FN、TN这东西逻辑上有点绕。可以慢慢理解。
模型方面
老师一部分时间花在讲解训练模型的参数方面,讲解了弹幕提到的batch_size问题。说明了如何设置batch_size
学习时间:
2021.7.29 周三晚上9点
学习产出:
飞桨论坛、CSDN 技术博客 1 篇
2021-07-28-飞桨课程笔记-关于数据获取途径与处理方面的技巧相关推荐
- 【深度学习】李宏毅2021/2022春深度学习课程笔记 - Deep Learning Task Tips
文章目录 一.深度学习步骤回顾 二.常规指导 三.训练过程中Loss很大 3.1 原因1:模型过于简单 3.2 原因2:优化得不好 3.3 原因1 or 原因2 ? 四.训练过程Loss小.测试过程L ...
- 【深度学习】李宏毅2021/2022春深度学习课程笔记 - Convolutional Neural NetWork(CNN)
文章目录 一.图片分类问题 二.观察图片分类问题的特性 2.1 观察1 2.2 简化1:卷积 2.3 观察2 2.4 简化2:共享参数 - 卷积核 2.5 观察3 2.6 简化3:池化 2.6.1 M ...
- 移动端调取摄像头上面如何给出框_飞桨实战笔记:自编写模型如何在服务器和移动端部署...
作为深度学习小白一枚,从一开始摸索如何使用深度学习框架,怎么让脚本跑起来,到现在开始逐步读懂论文,看懂模型的网络结构,按照飞桨官方文档进行各种模型训练和部署,整个过程遇到了无数问题.非常感谢飞桨开 ...
- 飞桨模型保存_飞桨实战笔记:自编写模型如何在服务器和移动端部署
作为深度学习小白一枚,从一开始摸索如何使用深度学习框架,怎么让脚本跑起来,到现在开始逐步读懂论文,看懂模型的网络结构,按照飞桨官方文档进行各种模型训练和部署,整个过程遇到了无数问题.非常感谢飞桨开 ...
- 2021-02-26~27~28 大数据课程笔记 day37day38day39
@R星校长 音乐数据中心平台 1.1 数据库与ER建模 1.1.1 数据库(DataBase) 数据库是按照数据结构来组织.存储和管理数据的仓库,是一个长期存储在计算机内的.有组织的.可共享的.统 ...
- 【深度学习】李宏毅2021/2022春深度学习课程笔记 - Auto Encoder 自编码器 + PyTorch实战
文章目录 一.Basic Idea of Auto Encoder 1.1 Auto Encoder 结构 1.2 Auto Encoder 降维 1.3 Why Auto Encoder 1.4 D ...
- 百度飞桨课程技术心得分享
百度AI Studio账号名字: TransPlus 课程名称:深度学习7日入门-CV疫情特辑 一.爬虫相关知识:urlib库 1.1. 小试牛刀 怎样扒网页呢? 其实就是根据URL来获取它的网页信息 ...
- 2021.07.28
WPF(Windows Presentation Foundation)是微软推出的基于Windows 的用户界面框架,属于.NET Framework 3.0的一部分. WPF的特点:程序人员与美工 ...
- 【深度学习】李宏毅2021/2022春深度学习课程笔记 - 机器学习的可解释性
文章目录 一.为什么我们需要可解释性的机器学习 二.可解释性的 vs 强大的(Powerful) 三.可解释性机器学习的目标 四.可解释性的机器学习 4.1 Local Explanation 局部的 ...
- 携手NVIDIA等40余家国内外伙伴,飞桨硬件生态狂飙
深度学习框架与 AI 硬件厂商,相辅相成.共同发展.百度飞桨与 NVIDIA 等 40 多家硬件伙伴正在践行这一理念. 备受关注的 NVIDIA GTC 2023 大会已经结束,NVIDIA CEO ...
最新文章
- linux服务器文件后缀名,linux服务器备份网站程序并下载到本地(自动)
- Github 精选:13 款炼丹利器,有开源工具包也有超大数据集
- hdu 4430 Yukari's Birthday (简单数学 + 二分)
- IOS https抓包及10.3.3版本证书不生效问题解决
- php nsdata,iOS开发之数据存储之NSData
- 使用 kube-bench 和 kube-hunter 对 Kubernetes 集群风险评估
- ping 工具开发日记(1)
- 项目构建之springboot集成lomback.xml,和log4j基于properties方式的日志配置记录
- Typescript 学习笔记一:介绍、安装、编译
- java jvm和android DVM区别
- 《王道》数据结构笔记整理2022
- 软件工程总结笔记——软件详细设计(五)
- 社交网络的数据挖掘与分析,什么是社交网络分析
- Freyja的查询缓存功能详解
- 影响力 读后感 书评
- 三,python基础初识。
- 库存转换是什么意思_社保卡库存转移啥意思 社保卡怎么转出
- 抽油烟机CCC认证介绍以及CCC认证申请
- 企业进军海外市场:为什么选IBM SoftLayer就对了?
- oracle报表查询sql,63.Oracle数据库SQL开发之 高级查询——使用报表函数