深度学习之TensorFlow 第三章基本开发步骤--以逻辑回归拟合二维数据为例(转)
深度学习有四个步骤:
准备数据 搭建模型 迭代训练 使用模型
- import tensorflow as tf
- import numpy as np #数组
- import matplotlib.pyplot as plt # matplotlib.pyplot 2D绘图库 类似MATLAB的一种绘图框架
- plotdata = { "batchsize":[], "loss":[] } #存放批次值和损失值
- def moving_average(a, w=10):
- if len(a) < w:
- return a[:]
- return [val if idx < w else sum(a[(idx-w):idx])/w for idx, val in enumerate(a)]
- #生成模拟数据
- train_X = np.linspace(-1, 1, 100) #train_X = np.linspace(-1, 1, 100) #生成-1~1之间的100个数作为x。
- train_Y = 2 * train_X + np.random.randn(*train_X.shape) * 0.3 #(a属于[-1,1]之间的随机数)
- train_Y = 2 * train_X + np.random.randn(*train_X.shape) * 0.3 # y=2x,但是加入了噪声
- #显示模拟数据点
- plt.plot(train_X, train_Y, 'ro', label='Original data') #‘ro’代表红色实心圈标记
- plt.legend() #显示图例label='Original data'
- plt.show()
- # 创建模型
- # 占位符
- X = tf.placeholder("float")
- Y = tf.placeholder("float") #X代表输入,Y代表对应的真实值,都是占位符(占住一个固定的位置等着再往里面添加内容的符号)
- # 模型参数
- W = tf.Variable(tf.random_normal([1]), name="weight")
- b = tf.Variable(tf.zeros([1]), name="bias") #W和b是参数,W被初始化为[-1,1]的随机数,形状为一维的数字,b的初始化为0,形状也是一维。
- # 前向结构
- z = tf.multiply(X, W)+ b
- #反向优化
- cost =tf.reduce_mean( tf.square(Y - z))
- learning_rate = 0.01 #学习率代表调整参数的速度。这个值一般小于1。值越大,代表调整的速度越大,但不精确。
- optimizer = tf.train.GradientDescentOptimizer(learning_rate).minimize(cost) #GradientDescentOptimizer是封装好的梯度下降算法。
- # 初始化变量
- init = tf.global_variables_initializer()
- # 训练参数
- training_epochs = 20 #迭代次数
- display_step = 2
- # 启动session
- with tf.Session() as sess:
- sess.run(init)
- # Fit all training data
- for epoch in range(training_epochs):
- for (x, y) in zip(train_X, train_Y):
- sess.run(optimizer, feed_dict={X: x, Y: y}) #外层放循环次数
- 通过sess.run来进行网络节点的运算,通过feed机制将真实数据灌到占位符对应的位置(feed_dict={X: train_X, Y:train_Y})同时没执行一次都会将网络结构中的节点打印出来
- #显示训练中的详细信息
- if epoch % display_step == 0:
- loss = sess.run(cost, feed_dict={X: train_X, Y:train_Y})
- print ("Epoch:", epoch+1, "cost=", loss,"W=", sess.run(W), "b=", sess.run(b))
- if not (loss == "NA" ): #是个安全检查,保证loss值有效才会将其用图示显示出来
- plotdata["batchsize"].append(epoch)
- plotdata["loss"].append(loss)
- print (" Finished!")
- print ("cost=", sess.run(cost, feed_dict={X: train_X, Y: train_Y}), "W=", sess.run(W), "b=", sess.run(b))
- #print ("cost:",cost.eval({X: train_X, Y: train_Y}))
- #图形显示
- plt.plot(train_X, train_Y, 'ro', label='Original data')
- plt.plot(train_X, sess.run(W) * train_X + sess.run(b), label='Fitted line')
- plt.legend()
- plt.show()
- plotdata["avgloss"] = moving_average(plotdata["loss"])
- plt.figure(1) #plt.figure(1)是新建一个名叫 Figure1的画图窗口
- plt.subplot(211) #第一个画板的第一个子图
- plt.plot(plotdata["batchsize"], plotdata["avgloss"], 'b--') #plt.plot(x,c)是在画图窗口里具体绘制横轴为x 纵轴为c的曲线 ‘b--’为蓝色破折线
- plt.xlabel('Minibatch number')
- plt.ylabel('Loss')
- plt.title('Minibatch run vs. Training loss')
- plt.show()
- print ("x=0.2,z=", sess.run(z, feed_dict={X: 0.2}))
学习速率对于梯度下降算法,这应该是一个最重要的超参数。如图所示,如果学习速率设置得非常大,那么训练可能不会收敛,就直接发散了;如果设置的比较小,虽然可以收敛,但是训练时间可能无法接受;如果设置的稍微高一些,训练速度会很快,但是当接近最优点会发生震荡,甚至无法稳定。不同学习速率的选择影响可能非常大。 理想的学习速率是:刚开始设置较大,有很快的收敛速度,然后慢慢衰减,保证稳定到达最优点。
下面记录一下各种函数的作用,有助于学习记忆python库和函数:
1.首先是linspace函数:numpy.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)
返回(start,stop)间的num个数,endpoint为真sample必然有终点,为否必然没有终点,retstep表示一定步长,最后返回(sample,step)
2.np.random.randn : numpy.random.rand(d0, d1, ..., dn)
随机产生维度为(d0,d1...,dn)的随机数,从标准正态分布中产生。
但random.rand(d0,d1...,dn)产生数值取值范围是[0,1)
3.tf.placeholder : tf.placeholder(dtype,shape = None , name = None)
占位数,可以理解为变量,在需要的时候才去赋值
dtype 表示数据类型,例如tf.float32,tf.float64,shape表示数组形状,shape = None 表示一维数,还可以shape =[3,4],shape = [None,4]表示行未定。返回Tensor类型。
4.tf.Variable.int()
tf.Variable.init(initial_value, trainable=True, collections=None, validate_shape=True, name=None)
参数表引用相关资料:
initial_value |
所有可以转换为Tensor的类型 |
变量的初始值 |
trainable |
bool |
如果为True,会把它加入到GraphKeys.TRAINABLE_VARIABLES,才能对它使用Optimizer |
collections |
list |
指定该图变量的类型、默认为[GraphKeys.GLOBAL_VARIABLES] |
validate_shape |
bool |
如果为False,则不进行类型和维度检查 |
name |
string |
变量的名称,如果没有指定则系统会自动分配一个唯一的值 |
5.tf.random_normal() : tf.random_normal(shape, mean=0.0, stddev=1.0, dtype=tf.float32, seed=None, name=None)
代码中仅用到shape=[1],表示一维数
6.tf.reduce_mean(input_tensor, reduction_indices=None, keep_dims=False, name=None) 求平均值
input_tensor:待求值的tensor。
reduction_indices:在哪一维上求解。
7.tf.train.GrandientDescentOptimizer(learning_rate)
产生一个规定学习率的优化器:optmizier = tf.train.GrandientDescentOptimizer(learning_rate = 0.01)
计算梯度并且直接作用于变量上:optimizer.minimize(cost , var_list = <list of variables>)
optimizer.run()
计算出梯度:gradients = optimizer.compute_gradients(loss , <list of variables>)
然后就可以根据自己的需要处理梯度了。
8.tf.global_variables_initializer()初始化所有Tensor变量的状态
init = tf.global_variables_initializer()
with tf.Session() as sess:
sess.run(init)
9.def moving_average(a, w=10):
if len(a) < w:
return a[:]
return [val if idx < w else sum(a[(idx-w):idx])/w for idx, val in enumerate(a)]
滑动平均模型 用途:用于控制变量的更新幅度,使得模型在训练初期参数更新较快,在接近最优值处参数更新较慢,幅度较小
方式:主要通过不断更新衰减率来控制变量的更新幅度.
在训练神经网络时,不断保持和更新每个参数的滑动平均值,在验证和测试时,参数的值使用其滑动平均值能有效提高神经网络的准确率。
第一个返回值是如果a向量的长度小于w的值,就输出向量a中的所有值。
第二个返回值是如果向量a的长度大于w值,将索引小于长度w的值直接输出,将索引大于w值的按照sum(a[(idx-w):idx])/w的方式进行计算输出。
在python中enumerate的用法多用于在for循环中得到计数,
enumerate参数为可遍历的变量,如 字符串,列表等; 返回值为enumerate类。
举个例子a=[a,b,c,d]
For idx,val in enumerate(a) #idx为向量a的索引即下标
[0 a] [1 b] [2 c] [3 d]
在python中enumerate的用法多用于在for循环中得到计数,
enumerate参数为可遍历的变量,如 字符串,列表等; 返回值为enumerate类。
tensorflow开发的基本步骤
1.定义输入节点的方法 2.定义学习参数的变量 3.定义运算 4.优化函数,优化目标 5.初始化所有变量 6.迭代更新参数到最优解 7.测试模型8. 使用模型
模型内部的数据流向
1 正向 :数据从输入开始,依次进行各节点定义的运算,一直运算到输出,是模型最基本的数据流向。它直观地表现了网络模型的结构,在模型的训练、测试、使用场景中都会用到。这部分是必须要掌握的。
2 反向 :只有在训练场景下会用到。这里使用了一个叫做反向链式求导的方法,即先从正向的最后一个节点开始,计算此时结果值与真实值的误差,这样会形成一个用学习参数表示误差的方程,然后对方程中的每个参数求导,得到其梯度修正值,同时反推出上一层的误差,这样就将该层节点的误差按照正向的相反方向传到上一层,并接着计算上一层的修正值,如此反复下去一步一步地进行转播,直到传到正向的第一个节点。 这部分原理TensorFlow已经实现好了,简单理解即可,应该把重点放在使用什么方法来计算误差,使用哪些梯度下降的优化方法,如何调节梯度下降中的参数(如学习率)问题上。
一个标准的模型结构分为输入、中间节点、输出三大部分,而如何让这三部分连通起来学习规则并可进行计算,则是框架TensorFlow所做的事情。
TensorFlow将中间节点及节点间的运算关系(OPS)定义在自己内部的一个“图”上,全通过一个“会话(session)”进行图中OPS的具体运算。
可以这样理解: “图”是静态的,无论做任何加、减、乘、除,它们只是将关系搭建在一起,不会有任何计算。 “会话”是动态的,只有启动会话后才会将数据流向图中,并按照图中的关系运算。并将最终的结果从图中流出。
TensorFlow用这种方式分离了计算的定义和执行,“图”类似施工图(blueprint),而会话更像施工地点。
构建一个完整的图一般需要定义3种变量。 输入节点:即网络的入口。 用于训练的模型参数(也叫学习参数):是连接各个节点的路径。 模型中的节点(OP):最复杂的就是OP。OP可以用来代表模型中的中间节点,也可以代表最终的输出节点,是网络中的真正结构。
深度学习之TensorFlow 第三章基本开发步骤--以逻辑回归拟合二维数据为例(转)相关推荐
- Tensorflow基本开发步骤——以逻辑回归拟合二维数据为例
深度学习大概有如下四个步骤:准备数据,搭建模型,迭代训练和使用模型. 一.准备数据 使用y=2x作为主体,通过加入一些随机干扰噪声产生一组数据.代码如下: import tensorflow as t ...
- Coursera吴恩达《神经网络与深度学习》课程笔记(2)-- 神经网络基础之逻辑回归...
转至:https://blog.csdn.net/red_stone1/article/details/77851177 上节课我们主要对深度学习(Deep Learning)的概念做了简要的概述.我 ...
- Coursera吴恩达《神经网络与深度学习》课程笔记(2)-- 神经网络基础之逻辑回归
红色石头的个人网站:redstonewill.com 上节课我们主要对深度学习(Deep Learning)的概念做了简要的概述.我们先从房价预测的例子出发,建立了标准的神经网络(Neural Net ...
- 吴恩达《神经网络和深度学习》第二周编程作业—用神经网络思想实现逻辑回归
吴恩达<神经网络和深度学习>-用神经网络思想实现逻辑回归 1 安装包 2 问题概述 3 学习算法的一般架构 4 构建算法的各个部分 4.1 激活函数 4.2 初始化参数 4.3 前向和后向 ...
- 在浏览器中进行深度学习:TensorFlow.js (四)用基本模型对MNIST数据进行识别
2019独角兽企业重金招聘Python工程师标准>>> 在了解了TensorflowJS的一些基本模型的后,大家会问,这究竟有什么用呢?我们就用深度学习中被广泛使用的MINST数据集 ...
- 在浏览器中进行深度学习:TensorFlow.js (十二)异常检测算法
2019独角兽企业重金招聘Python工程师标准>>> 异常检测是机器学习领域常见的应用场景,例如金融领域里的信用卡欺诈,企业安全领域里的非法入侵,IT运维里预测设备的维护时间点等. ...
- 吴恩达深度学习第一课第三周编程作业(上)
作业描述: 用1层隐藏层的神经网络分类二维数据 欢迎来到第3周的编程作业. 现在是时候建立你的第一个神经网络了,它将具有一层隐藏层. 你将看到此模型与你使用逻辑回归实现的模型之间的巨大差异. 你将学到 ...
- 【深度学习之美】激活引入非线性,池化预防过拟合(入门系列之十二)
12.1 两个看似闲扯的问题 在开讲本章内容之前,先请你思考两个问题呗:第一个问题,你能用直线画出一张漂亮的笑脸吗?第二个问题是,你知道那副著名的对联:"诸葛一生唯谨慎,吕端大事不糊涂&qu ...
- 深度学习之tensorflow (一) XORerr1 -修改
博客背景是学习<深度学习之TensorFlow>这本书籍中的作业,修改第七章的作业,把XOR-异或的错误代码修改为正确的. 主要修改有三个地方: 隐藏层一的运算从sigmoid修改为add ...
最新文章
- PCE:南农张瑞福组揭示微生物肥料菌种芽孢杆菌应对植物免疫防卫实现根际定殖的新策略...
- iOS开发之使用CocoaPods更新第三方出现“target overrides the `OTHER_LDFLAGS`……”问题解决方案
- Github GAN 非平稳纹理合成
- [密码学] 双重与三重DES
- Firefox跟博客园闹别扭!用不了博客园的HTML编辑器了。
- 数据结构 | 如何一文搞定链表问题?(附20本书获奖名单)
- 如何通过 C# 自动捕获一个文件的变更?
- 在cygwin下编译c语言
- 标题在上边框中的html(fieldset标签)
- LeetCode 395. 至少有K个重复字符的最长子串(分治)
- winsocket(1)
- 开发者应当熟知的 C# 序列化和反序列化
- WCF分布式开发常见错误(3):客户端调用服务出错
- iOS 浅复制和深复制的深层理解,含示例
- listView多布局
- POJ 1141 Brackets Sequence
- Spring源码分析
- Oracle在SQL语句中对时间操作、运算
- [新增:鸵鸟]软件开发团队的脓包:皇帝的新装、口号党、鸵鸟、废话迷
- 机器学习笔记 - 学习使用TensorFlow和张量处理单元 (TPU) 构建图像分类模型
热门文章
- python difflib 源码_python difflib 模块
- linux用户开机.bashrc,验证linux shell在启动时会自动执行用户主目录下的.bashrc脚本...
- 自定义beans.xml文件实现Spring框架
- org.springframework.web.client.RestClientException: Could not extract response
- 用户是如何浏览你的网站的
- 多路复用器_超详细的I/O多路复用概念、常用I/O模型、系统调用等介绍
- Hibernate多表关联查询记录映射
- Oracle数据库使用Navicat premium创建用户时遇到的坑
- location.reload() 和 location.replace()的区别和应用
- 存数据返回他的序列号id_使用excel进行数据分析