1.1 课程介绍

问题的提出、数据、训练模型、部署模型、监控模型(迭代)

1.2 数据获取

常见的公开数据集(爬虫/收集)

MNIST:手写数字

ImageNet:来自搜索引擎的图片类型的数据集,百万级别,猫之类

AudioSet:来自YouTube的数据集,声音切片

Kinetics:来自YouTube的数据集,视频切片

KITTI:无人驾驶的数据集,sensor

Amazon Review:来自Amazon的评论

SQuAD:Wikipedia的问题和答案

LibriSpeech:1000h的有声读物

找数据集的方式

Paperwithcodes:来自论文

Kaggle:数据科学家提交的数据集

Google Dataset Search

工具包:TensorFlow、huggingface

会议/公司机器学习竞赛

Open Data on AWS

Data Lakes

数据融合

通过keys连接表

存在的问题:确定IDs、缺失的行、冗余的列、值的冲突

生成合成数据

GANs

数据增强(data augmentation)

1.3 网页数据抓取

爬虫:全部网页

数据抓取:某个特定的网页

网页爬虫工具

①使用没有头的浏览器 ②使用大量的IP(AWS、Azure、GCP开实例)

from selenium import webdriver chrome_options = webdriver.Chromeoptions()
chrome_options.headless = True
chrome = webdriver.Chrome( chrome_options = chrome_options)
page = chrome.get(url) 

1.4 数据标注

半监督学习(semi-Supervised Learning SSL)

聚焦于只有少量标注数据、大量未标注数据的应用场景

通常会对数据分布有以下假设:

①连续性假设:有相同特征的实例更可能有相同的标签

②类假设:对于有内在类结构的数据,在同一类里的实例可能有相同的标签

③流型假设:数据真正的维度可能远小于输入的维度,可以通过降维降低复杂度

  • 自学习(self-training(SSL)

使用标注好的数据训练一个模型,使用训练好的模型进行数据标注,得到伪标注,只保留高置信的数据标注,将其加入标注数据中,继续训练模型,反复此步骤

众包(Label through Crowdsourcing

eg: ImageNet

需要考虑的问题

①简化用户交互:设计简单的任务、清晰的指令、简便的用户接口

②费用:用active learning降低

③质量控制:把任务发给多人标注,投票制决定结果(只选择困难的或不确定的任务)

主动学习(Active learning:focus on same scenario as SSL but with human intervention

不确信的采样 把不确定的给标注工标注

Active leaning + Self-training

使用标注好的数据训练一个模型,使用训练好的模型进行数据标注,得到伪标注,保留高置信的数据标注,低置信的数据标注交给标注工标注,把标注好后的数据加入标注数据中,继续训练模型,反复此步骤

弱监督学习(Weak Supervision):半自动生成标签

数据编程data programming:用于分配标签的启发式工程

跟李沐学AI:实用机器学习 | 第一章相关推荐

  1. 【深度学习】ResNet残差网络 ResidualBlock残差块实现(pytorch) | 跟着李沐学AI笔记 | ResNet18进行猫狗分类

    文章目录 前言 一.卷积的相关计算公式(复习) 二.残差块ResidualBlock复现(pytorch) 三.残差网络ResNet18复现(pytorch) 四.直接调用方法 五.具体实践(ResN ...

  2. 【跟李沐学AI学习笔记】数据操作

    本文的来源是B站跟李沐学AI的视频. 机器学习用的最多的数据结构是N维数组.最简单的N维数组是一个0-d的标量,比如1.0,它可能表示一个物体的类别.1-d的数组称为向量,比如说[1.0, 2.7, ...

  3. 动手学深度学习在线课程-跟着李沐学AI

    动手学深度学习在线课程-跟着李沐学AI http://courses.d2l.ai/zh-v2/ 李宏毅<机器学习>中文课程(2022) https://hub.baai.ac.cn/vi ...

  4. 过拟合欠拟合模拟 || 深度学习 || Pytorch || 动手学深度学习11 || 跟李沐学AI

    昔我往矣,杨柳依依.今我来思,雨雪霏霏. ---<采薇> 本文是对于跟李沐学AI--动手学深度学习第11节:模型选择 + 过拟合和欠拟合的代码实现.主要是通过使用线性回归模型在自己生成的数 ...

  5. 深度学习笔记-[跟李沐学AI]-01引言

    DIVE INTO DEEP LEARNING 参考笔记:http://zh-v2.d2l.ai/chapter_introduction/index.html 符号 本书中使用的符号概述如下. 数字 ...

  6. 【深度学习】跟李沐学ai 线性回归 从零开始的代码实现超详解

    目录 一.引言 二.本文代码做了什么 如何利用数据集训练 三.代码实现与解析 一.导包 二.相应的函数实现 1 生成样本(数据集) 2 按批量读取数据集 3 定义模型 损失函数 算法 1 定义模型 2 ...

  7. 跟李沐学AI:实用机器学习 | 第九章

    9.1 模型调参 手动调参 从一个好的基线开始,从工具包或者论文中的设置选择起始参数. 每次调一个超参数的值,观察性能变化. 虽然SGD在参数调得好的情况下模型效果会优于Adam,但是Adam相比于S ...

  8. 跟李沐学AI:实用机器学习 | 第五章

    5.1 方差和偏差 方差:预测结果的方差 偏差:预测结果和真实值之间的差距 需要低方差.低偏差的模型 第一项为偏差,第二项为方差 减小泛化误差 减小偏差:设计更加复杂的模型,例如增加神经网络的层数.隐 ...

  9. 跟李沐学AI之注意力机制+transformer

    注意力机制 注意力提示 注意力的可视化 注意力汇聚 平均汇聚 非参数注意力汇聚 带参数注意力汇聚 注意力评分函数 掩蔽softmax操作 加性注意力 缩放点积注意力 Bahdanau注意力 多头注意力 ...

最新文章

  1. mysql 一键获取数据库表结构
  2. malloc 和 calloc的区别?
  3. channelread0会被调用两次_值得一看:C#同步方法中如何调用异步方法?
  4. 字符与字符串3——char 的大小
  5. php框架 css文件引用,yii框架中怎么引入css文件
  6. matplotlib ----- 多子图, subplots
  7. 开心网(kaixin001.com)服务器架构的一点猜想
  8. 城阳三中2021高考成绩查询入口,2021年青岛城阳区中考录取分数线公布
  9. android sdk下载慢的解决方法
  10. MLDN学习笔记 —— Annotation
  11. Power BI数据源之web
  12. Scrapy 框架爬取豆瓣电影的信息(包括图片)和电影评论-2
  13. Linux和Windows双系统gpt,Windows+Ubuntu双系统GPTMBR引导设置
  14. 计算机毕业设计Python+Django的医院排队叫号系统(源码+系统+mysql数据库+Lw文档)
  15. Magento 常用插件(一)
  16. Python 实现图片裁剪(附代码) | Python工具
  17. 华为机试_HJ61 放苹果【简单】【收藏】
  18. HMM、MEMM、CRF
  19. 开源的悲哀——袁萌100天变身实录[3]
  20. 对话美团 CEO 王兴:太多人关注边界,而不关注核心

热门文章

  1. allegro 警告怎么要怎么做呢进入光绘界面提示artwork will be rounder down because
  2. ! 和 !! 的区别
  3. 与领导吃饭需要注意什么
  4. Python中的字符串下标
  5. eTex@3.0 报错,字体“Calibri”不支持样式“Regular” 的解决办法
  6. c++逆天改命进阶--AVLTree
  7. (转载)互联网鄙视食物链大全
  8. paper weekly_Java Weekly 24/15:JCache,Hibernate OGM,微服务
  9. 关于微信小程序进行数据统计以及分析问题
  10. AutoCAD 2012安装错误,与.net framework (1603错误)以及ms2005vc++的问题。