跟李沐学AI:实用机器学习 | 第一章
1.1 课程介绍
问题的提出、数据、训练模型、部署模型、监控模型(迭代)
1.2 数据获取
常见的公开数据集(爬虫/收集)
MNIST:手写数字
ImageNet:来自搜索引擎的图片类型的数据集,百万级别,猫之类
AudioSet:来自YouTube的数据集,声音切片
Kinetics:来自YouTube的数据集,视频切片
KITTI:无人驾驶的数据集,sensor
Amazon Review:来自Amazon的评论
SQuAD:Wikipedia的问题和答案
LibriSpeech:1000h的有声读物
找数据集的方式
Paperwithcodes:来自论文
Kaggle:数据科学家提交的数据集
Google Dataset Search
工具包:TensorFlow、huggingface
会议/公司机器学习竞赛
Open Data on AWS
Data Lakes
数据融合
通过keys连接表
存在的问题:确定IDs、缺失的行、冗余的列、值的冲突
生成合成数据
GANs
数据增强(data augmentation)
1.3 网页数据抓取
爬虫:全部网页
数据抓取:某个特定的网页
网页爬虫工具
①使用没有头的浏览器 ②使用大量的IP(AWS、Azure、GCP开实例)
from selenium import webdriver chrome_options = webdriver.Chromeoptions()
chrome_options.headless = True
chrome = webdriver.Chrome( chrome_options = chrome_options)
page = chrome.get(url)
1.4 数据标注
半监督学习(semi-Supervised Learning SSL)
聚焦于只有少量标注数据、大量未标注数据的应用场景
通常会对数据分布有以下假设:
①连续性假设:有相同特征的实例更可能有相同的标签
②类假设:对于有内在类结构的数据,在同一类里的实例可能有相同的标签
③流型假设:数据真正的维度可能远小于输入的维度,可以通过降维降低复杂度
- 自学习(self-training)(SSL)
使用标注好的数据训练一个模型,使用训练好的模型进行数据标注,得到伪标注,只保留高置信的数据标注,将其加入标注数据中,继续训练模型,反复此步骤
众包(Label through Crowdsourcing)
eg: ImageNet
需要考虑的问题
①简化用户交互:设计简单的任务、清晰的指令、简便的用户接口
②费用:用active learning降低
③质量控制:把任务发给多人标注,投票制决定结果(只选择困难的或不确定的任务)
主动学习(Active learning):focus on same scenario as SSL but with human intervention
不确信的采样 把不确定的给标注工标注
Active leaning + Self-training
使用标注好的数据训练一个模型,使用训练好的模型进行数据标注,得到伪标注,保留高置信的数据标注,低置信的数据标注交给标注工标注,把标注好后的数据加入标注数据中,继续训练模型,反复此步骤
弱监督学习(Weak Supervision):半自动生成标签
数据编程data programming:用于分配标签的启发式工程
跟李沐学AI:实用机器学习 | 第一章相关推荐
- 【深度学习】ResNet残差网络 ResidualBlock残差块实现(pytorch) | 跟着李沐学AI笔记 | ResNet18进行猫狗分类
文章目录 前言 一.卷积的相关计算公式(复习) 二.残差块ResidualBlock复现(pytorch) 三.残差网络ResNet18复现(pytorch) 四.直接调用方法 五.具体实践(ResN ...
- 【跟李沐学AI学习笔记】数据操作
本文的来源是B站跟李沐学AI的视频. 机器学习用的最多的数据结构是N维数组.最简单的N维数组是一个0-d的标量,比如1.0,它可能表示一个物体的类别.1-d的数组称为向量,比如说[1.0, 2.7, ...
- 动手学深度学习在线课程-跟着李沐学AI
动手学深度学习在线课程-跟着李沐学AI http://courses.d2l.ai/zh-v2/ 李宏毅<机器学习>中文课程(2022) https://hub.baai.ac.cn/vi ...
- 过拟合欠拟合模拟 || 深度学习 || Pytorch || 动手学深度学习11 || 跟李沐学AI
昔我往矣,杨柳依依.今我来思,雨雪霏霏. ---<采薇> 本文是对于跟李沐学AI--动手学深度学习第11节:模型选择 + 过拟合和欠拟合的代码实现.主要是通过使用线性回归模型在自己生成的数 ...
- 深度学习笔记-[跟李沐学AI]-01引言
DIVE INTO DEEP LEARNING 参考笔记:http://zh-v2.d2l.ai/chapter_introduction/index.html 符号 本书中使用的符号概述如下. 数字 ...
- 【深度学习】跟李沐学ai 线性回归 从零开始的代码实现超详解
目录 一.引言 二.本文代码做了什么 如何利用数据集训练 三.代码实现与解析 一.导包 二.相应的函数实现 1 生成样本(数据集) 2 按批量读取数据集 3 定义模型 损失函数 算法 1 定义模型 2 ...
- 跟李沐学AI:实用机器学习 | 第九章
9.1 模型调参 手动调参 从一个好的基线开始,从工具包或者论文中的设置选择起始参数. 每次调一个超参数的值,观察性能变化. 虽然SGD在参数调得好的情况下模型效果会优于Adam,但是Adam相比于S ...
- 跟李沐学AI:实用机器学习 | 第五章
5.1 方差和偏差 方差:预测结果的方差 偏差:预测结果和真实值之间的差距 需要低方差.低偏差的模型 第一项为偏差,第二项为方差 减小泛化误差 减小偏差:设计更加复杂的模型,例如增加神经网络的层数.隐 ...
- 跟李沐学AI之注意力机制+transformer
注意力机制 注意力提示 注意力的可视化 注意力汇聚 平均汇聚 非参数注意力汇聚 带参数注意力汇聚 注意力评分函数 掩蔽softmax操作 加性注意力 缩放点积注意力 Bahdanau注意力 多头注意力 ...
最新文章
- mysql 一键获取数据库表结构
- malloc 和 calloc的区别?
- channelread0会被调用两次_值得一看:C#同步方法中如何调用异步方法?
- 字符与字符串3——char 的大小
- php框架 css文件引用,yii框架中怎么引入css文件
- matplotlib ----- 多子图, subplots
- 开心网(kaixin001.com)服务器架构的一点猜想
- 城阳三中2021高考成绩查询入口,2021年青岛城阳区中考录取分数线公布
- android sdk下载慢的解决方法
- MLDN学习笔记 —— Annotation
- Power BI数据源之web
- Scrapy 框架爬取豆瓣电影的信息(包括图片)和电影评论-2
- Linux和Windows双系统gpt,Windows+Ubuntu双系统GPTMBR引导设置
- 计算机毕业设计Python+Django的医院排队叫号系统(源码+系统+mysql数据库+Lw文档)
- Magento 常用插件(一)
- Python 实现图片裁剪(附代码) | Python工具
- 华为机试_HJ61 放苹果【简单】【收藏】
- HMM、MEMM、CRF
- 开源的悲哀——袁萌100天变身实录[3]
- 对话美团 CEO 王兴:太多人关注边界,而不关注核心
热门文章
- allegro 警告怎么要怎么做呢进入光绘界面提示artwork will be rounder down because
- ! 和 !! 的区别
- 与领导吃饭需要注意什么
- Python中的字符串下标
- eTex@3.0 报错,字体“Calibri”不支持样式“Regular” 的解决办法
- c++逆天改命进阶--AVLTree
- (转载)互联网鄙视食物链大全
- paper weekly_Java Weekly 24/15:JCache,Hibernate OGM,微服务
- 关于微信小程序进行数据统计以及分析问题
- AutoCAD 2012安装错误,与.net framework (1603错误)以及ms2005vc++的问题。