1 神经元

1.1 概述

1.1.1 神经网络

神经网络:一种人工模仿动物中枢系统的数学模型,用于对函数进行近似估计

1.1.2 神经元

神经网络的基本单位是神经元。

神经元是一种处理单元,是对人脑组织的神经元的某种抽象、简化和模拟。通过神经元,人工神经网络可以以数学模型模拟人脑神经元活动,继而进行高效的计算以及其他处理。

1.2 计算机中的神经元系统

1.2.1 简单的神经元系统

神经元模型便是模拟大脑神经元的运行过程,其包含输入,输出与计算功能,输入可以类比为神经元的树突,而输出可以类比为神经元的轴突,计算则可以类比为细胞核。下图是一个典型的神经元模型:包含有m个输入,1个输出,以及2个计算功能。

1.2.2 一句话理解神经网络

所以一句话理解就是:制造一个神经网络就是在定义一个函数集合。而训练一个神经网络就是在这个函数集合中找到 唯一一个函数。这个函数代表了训练样本的共性特征。这种共性特征称为目标。

一个神经元的功能是求得输入向量与权向量的内积后,经一个非线性传递函数得到一个标量结果。

1.2.3 神经网络的形成

当前主要使用反向传播的算法将模型的误差作为刺激的信号,并沿着神经元处理信号的反方向进行逐层传播,并更新当前层中节点的权重。

1.2.4 神经网络的特点

神经网络的结构与功能,使得其天生具有编程与实现各种高级功能的能力,只不过该编程不需要通过人脑拟合现实来实现,而是通过模型学习的方式,通过现实的表象来优化其所需要的结构。

1.3 深度学习中的基础神经网络模型

  • 全连接神经网络:用来处理与数值相关的任务
  • 卷积神经网络:用来处理与计算机视觉相关的任务
  • 循环神经网络:用来处理与序列相关的任务

1.4 神经网络(深度学习)到底是在干什么

1.4.1 玩色子

应该都接触过摇色子赌大小得游戏,微信表情包就有这个,总共有六个点数,如下:


一般电视剧里用两只碗扣在一块,里面有三个色子,最大是18点,最小是3点,所以这里暂且以11为中位数,大于等于11的为大,小于11的为小,刚好8个大点、8个小点。

1.4.2 建模型

神经网络包括三个部分——输入层、隐藏层和输出层。我们建立一个神经网络模型来让机器识别我们摇出来的点数是大还是小。

先摇三个点。。。

很明显的是1+3+4 = 8 <11,

问题是隐藏层 “ ”到底做了什么?该怎么做?

1.4.3 出结果

其实这个隐藏层的函数(或者叫矩阵)就是三个值为1的常数函数。

计算方式为点对点相乘然后相加(相当于深度学习里面的全连接层)
1×1+3×1+4×1 = 8 < 11,然后只需要一个判断函数就可以将“小”作为结果输出。

同样:


3×1+5×1+6×1 = 14 >11,输出“大”。

当然了,这个只是一个很简单的分类模型,而且只有两个分类结果。
一般用于实现数字识别或者图像识别的隐藏层比较复杂,甚至需要很多个隐藏层,分别命名为卷积层(一个模型中可能会多次使用)、池化层(一个模型中可能会多次使用)、全连接层,还会有对应的激活函数。

看吧,其实就是一个很简单的模型而已,只是名字唬人罢了。

2 全连接神经网络,又称作多层感知机(MLP)

2.1 网络结构

  • 输入层:[特征维度,n]
  • 隐含层:权重矩阵 [输出维度,输入维度] 或者说  [这层维度,上层维度]
  • 输出层:[类别数,n]

2.1.1 全连接层的本质

① 全连接神经网络的本质是将低维数据向高维数据的映射,通过增加数据所在的维度空间,使得数据变得线性可分

② 可以对任何数据进行分类,缺点是需要更多的参数进行训练。但更多的参数参与运算,将会导致训练过程难以收敛

2.2 全连接神经网络的设计思想

2.2.1 输入节点根据外部的特征数据来确定

2.2.2 隐藏层的节点数,隐藏层的数量都是可以自定义设计的,但需要遵循以下两个原则

2.2.3 设计原则

  • 隐藏层的节点数决定模型的拟合能力,但是过多的节点带了拟合能力的同时,也会使得模型的泛化能力下降。
  • 隐藏层的层数决定模型的泛化能力,层数越多,模型的推理能力越强,但是随着层数的变多,会对拟合效果产生影响

2.3 全连接神经网络在模型中的位置

一般处于整个深层模型的最后部分,由其具有的调节维度的作用,通过指定输入层与输出层的节点数,就可以实现从原维度向任意维度的变化,一般前后层的维度控制在5倍以内。

2.3.1 小技巧

搭建多层全连接神经网络时,对隐藏层的节点设计,应遵循先将维度扩大再缩小的方式进行,会使得模型的拟合效果更好。

【Pytorch神经网络理论篇】 06 神经元+神经网络模型+全连接网络模型相关推荐

  1. 【Pytorch神经网络理论篇】 11 卷积网络模型+Sobel算子原理

    1 视觉角度理解卷积神经网络 1.1 卷积神经网络与生物视觉系统的关系 卷积神经网络的工作流程与生物大脑的处理视觉信号的流程相似,即:将图像从基础像素到局部信息再到整体信息的转化.大脑在对图像进行分级 ...

  2. 【Pytorch神经网络理论篇】 09 神经网络模块中的损失函数

    1 训练模型的步骤与方法 将样本书记输入到模型中计算出正向的结果 计算模型结果与样本目标数值之间的差值(也称为损失值loss) 根据损失值,使用链式反向求导的方法,依次计算出模型中每个参数/权重的梯度 ...

  3. 【Pytorch神经网络理论篇】 34 样本均衡+分类模型常见损失函数

    同学你好!本文章于2021年末编写,获得广泛的好评! 故在2022年末对本系列进行填充与更新,欢迎大家订阅最新的专栏,获取基于Pytorch1.10版本的理论代码(2023版)实现, Pytorch深 ...

  4. 【Pytorch神经网络理论篇】 15 过拟合问题的优化技巧(二):Dropout()方法

    1 Dropout方法 2.1 Dropout原理 在训练过程中,每次随机选择一部分节点不去进行学习. 2.1.1 从Dropout原理来看过拟合的原因 任何一个模型不能完全把数据分开,在某一类中一定 ...

  5. 【Pytorch神经网络理论篇】 20 神经网络中的注意力机制

    注意力机制可以使神经网络忽略不重要的特征向量,而重点计算有用的特征向量.在抛去无用特征对拟合结果于扰的同时,又提升了运算速度. 1 注意力机制 所谓Attention机制,便是聚焦于局部信息的机制,比 ...

  6. 【Pytorch神经网络理论篇】 27 图神经网络DGL库:简介+安装+卸载+数据集+PYG库+NetWorkx库

    DGL库是由纽约大学和亚马逊联手推出的图神经网络框架,支持对异构图的处理,开源相关异构图神经网络的代码,在GCMC.RGCN等业内知名的模型实现上也取得了很好的效果. 1 DGL库 1.1 DGL库的 ...

  7. 【Pytorch神经网络理论篇】 22 自编码神经网络:概述+变分+条件变分自编码神经网络

    1 无监督学习模型的概述 在监督训练中,模型能根据预测结果与标签差值来计算损失,并向损失最小的方向进行收敛. 在无监督训练中,无法通过样本标签为模型权重指定收敛方向,这就要求模型必须有自我监督的功能. ...

  8. 【Pytorch神经网络理论篇】 31 图片分类模型:ResNet模型+DenseNet模型+EffcientNet模型

    1 ResNet模型 在深度学习领域中,模型越深意味着拟合能力越强,出现过拟合问题是正常的,训练误差越来越大却是不正常的. 1.1 训练误差越来越大的原因 在反向传播中,每一层的梯度都是在上一层的基础 ...

  9. 【Pytorch神经网络理论篇】 29 图卷积模型的缺陷+弥补方案

    图卷积模型在每个全连接网络层的结果中加入了样本间的特征计算.其述质是依赖深度学特征与缺陷. 1.1 全连接网络的特征与缺陷 多层全连接神经网络被称为万能的拟合神经网络.先在单个网络层中用多个神经元节点 ...

最新文章

  1. 【Whalepaper】CV论文研读 - You Only Look One-level Feature (YOLOF), CVPR2021
  2. 十进制转十六进制(蓝桥杯)
  3. Nmap 7.70新增功能——扫描主机所有IP
  4. .net 获取字符串中的第一个逗号的位置_SQLZOO中做错过的题
  5. 牛客练习赛 60(待补E-长链剖分或者dsu)
  6. 洛谷P1321题题解(Java语言描述)
  7. zabbix php 安装,zabbix_Linux安装php5.6.31
  8. Cisco交换机链路聚合
  9. UI基础设计规范,确定不了解一下?
  10. 如何重命名Git标签?
  11. 3-(基础入门篇)稍微了解一下(需要知道的关于Lua的一些基本的知识)
  12. 转:requirejs2.0新特性介绍
  13. BootDo平台数据库使用Oracle
  14. 数据流分析之WorkList Algorithm
  15. java在线编译器手机版,java编译器手机版下载
  16. Linux学习笔记之实现黑客帝国炫酷效果
  17. 速领,阿里巴巴Java开发手册终极版
  18. 经济学人 MAY 12TH–18TH 2018 page 32阅读————2020-02-25
  19. Oracle怎样创建共享文件夹,OracleVirtualBox虚拟机如何实现文件夹共享
  20. 飞机加油游戏 --- 我的易术

热门文章

  1. 一个女程序员的创业人生:胆识也是一种能力 作者:秋镇菜
  2. 事务以及@Transcational注解
  3. 产品经理和项目经理有哪些区别?
  4. Linux系统7个运行级别图文详解
  5. java发送c语言结构体_C语言中结构体直接赋值?
  6. 领域驱动设计:软件核心复杂性应对之道_人人都可以领域驱动设计(一)
  7. 数据结构探险——图篇
  8. web前端细解cookie那些事
  9. LESS实战::not与:hover混合使用
  10. AWR报告中Top 10 Foreground Events存在”reliable message”等待事件的处理办法