数字神经网络系统

第一篇 基础理论

一、 概述

二、生物原型研究

2-1.人体神经结构

人工数字神经网络系统源于人脑神经网络。了解人脑神经网络的组成和原理,有助于对人工神经网络的理解。

2-1-1.神经元

人脑是认识客观世界的器官。研究表明,人的意识、思维、行为等脑的高级功能都与客观世界密切相关。神经科学起始于上个世纪末,1875年意大利解剖学家C.Golgi用染色体法首先识别出单个神经细胞,1889年Caial创立了神经元学说,指出了神经系统是由结构上相对独立的神经细胞构成,在最近几十年来的研究结果认为人脑的神经元效量为1013。每个神经元包含了以下几个结构特性:

2-1-1-1. 细胞体(Cell Body),其大小在5至100微米的直径不等。细胞体由细胞核,细胞质和细胞膜组成。

2-1-1-2. 铀突(Axon),是细胞体向其它细胞伸出的最长一条分支,即神经纤维,相当于细胞的输出,每个神经元只有一个。

2-1-1-3. 树突(也称枝晶,Dendrites),是细胞体向外伸出的许多较短的树状分支,相当于细胞的输入。

2-1-1-4. 突触(Synaptic),是神经元之间连接的接口。整个脑内突触的数目大约在1014一1015之间,通过突触互连,连接方式不同,其生理作用也不同。突触的信息传递特性可变,因此细胞之间的连接强度可变,这是一种柔性连接,也称为神经元结构的可塑性。

另外,研究表明,神经元细胞膜内外之间存在电位差,称为膜电位。膜外为正,膜内为负。其大小约为几十微伏。膜电压接受神经其它神经元的输入后,电位上升或下降,当转入冲动的时空整合结果,使膜电位上升,而且当超过叫做动作电位的团值时,细胞进入兴奋状态,产生神经冲动,由轴突输出,这个过程称为兴奋。动作阂值电位约为40微伏13传入的冲动时空整合结果使膜电压下降并低于动作电压的闻值时,细胞进入抑制状态,无神经冲动输出。

2-1-2.信息传递

突触是神经细胞间传递信息的结构,突触由三部分构成,即突触前成分,突触间隙和突触后成分。突触所传递的信息采用电传递和化学传递两种方式。突触前成分是神经末梢上一个特化了的部分。突触末梢形成许多球形的小体。小体上直接进入突触连接部分的质膜叫做突触前膜。小体原浆中含有大量的突触小泡,小泡的直径约为200--800埃,内含神经递质。突触前膜外面是突触间隙,是突触前后之间的一个区域,其宽度为100-500埃。突触间隙的液体与细胞外液体是连通的,因此具有相同的离子组成。突触后细胞的一边是突触下膜,它是突触后细胞质膜特化的区域,含有待殊的分子受体。突触的结构示图和突轴信息传递过程。

高等动物神经系统中,突触前的电活动不直接引起突触后成分的活动,不存在电学耦连。突触传递一般通过持殊的化学物质中介,这种物质叫做神经介质或递质,突触的信息传递只能由突触前到突触后,不存在反向活动的机制。因此突触传递是单方向的。兴奋一分泌耦连,神经介质释放和介质在间隙的扩散直到突触后膜的去极化约需o。5-1毫秒,这就是突延迟。用微电极技术研究脊髓前角细胞的模电位。根据突触后电位的反应,将突触分为两种:兴奋性突触和抑制性突触。神经末梢释放介质使突触后膜产生极化反应,即兴奋性突触后电位,这是兴奋性突触。如果释放介质使突触后膜产生超极化反应,即抑制性突触后电位,则是抑制性突触。在许多可兴奋的细胞之间发现电学期连。现已证明,缝隙连接在形态上代表这种耦连。电学突触能够提供更大的传输速率,并在神经细胞间产生整合作用。

另外研究也表明了神经网络的复杂多样性,不仅在于神经元和突触的数量大,组合方式复杂和联系广泛,还在于突触传递机制中,释放神经递质是实现突触传递机制的中心环节,不同的神经递质有着不同的作用性质和特点。神经递质在维持正常生理功能方面起着重要的作用,通过电信号-化学反应信号系统传递神经信息,进行复杂的信息加工,实现对机体的调节控制。

2-2. 神经组织

神经元与神经纤维构成的神经组织具有两种基本特性,即兴奋与传导。当神经元的某一部分受到某种刺激时,在受刺激的部位就产生兴奋。这种兴奋会沿着神经元扩散开来,并在一定的条件下通过突触传达到相连的神经细胞。神经纤维的一部分兴奋起来时产生电位或电流的变化。这就是生物电流,是研究神经兴奋状态的标志。电位的变化非常迅速且短暂,叫做峰形电位。神经兴奋的结果产生神经冲动,神经冲动是能量传递的一种方式。通常,一条神经纤维接受一个适度的刺激时测会产生一个冲动。但当对一个神经来进行刺激时,则会引起若干纤维同时冲动。刺激越强,则发生冲动的神经纤维越多,反之亦然。实验表明,神经冲动的能量并非来自刺激。而是神经纤维本身产生的。刺激的作用是引发神经纤维产生冲动。

对于人体来说,在外界、内界环境刺激下,通过神经系统,机体对刺激产生规律性回答。外部和内部刺激物作用于感受器,引起神经冲动。神经冲动沿着传入神经传达到神经中枢。通过中枢的神经联系,再经传出神经传达到效应器官,引起反应。这就是一个完整的反射过程。产生反射活动的基本结构组成有感受器,传入神经,神经中枢,传出神经和效应器。感受器一舱是神经组织末梢的特殊结构,它把刺激的能量转变为神经的兴奋过程,所以感受器是一种换能装置。

某一特定的反射往往是在刺激特定的感受器后产生的,该特定感受器所在的部位成为这个感受器的感受野。神经中枢是指调节某一特定生理机能的神经细胞群。神经中枢的活动可以通过神经纤维直接影响效应器,在某些情况下,也可以通过体液的道路间接影响效应器,这种体液调节就是指内分泌腺的调节。这时反射是按感受器、传入神经、神经中枢、传出神经、内分泌腺、激素在血液中转运、效应器这样的过程进行。

反射可以分为两种:无条件反射和条件反射。无条件反射是先天性的,一定刺激作用于一定的感受野时。常引起一定的反射。例如,食物入口引起唾液分泌反射,机械刺激角膜产生眨眼反射等。无条件反射使人们能初步适应环境。条件反射是在机体的生活中形成的,它可以随着机体的外部环境和内部状况的变化而变化。条件反射的建立大大扩展了机体的反应范围。比无条件反射有更大的预见性和灵活性,更适应于复杂变化的生存环境。在实际活动中,无条件反射和条件反射的划分有相对的意义,肌体的每一活动都具有这两种反射的性质。在肌体内。无条件反射只有在新生时出现,在这以后由于条件反射不断建立,条件反射和无条件反射越来越不可分割地融合在一起。每次无条件反射出现,都有条件反射参与,而条件反射归根到底是在无条件反射的基础上建立的,它的构成已经把某些无条件反射的成分包括了进去。所以,几乎所有的生理机能都是无条件反射相条件反射的有机统一。

2-3. 视觉神经

眼是人接收来自外部信息的最主要的接收器官,是最为复杂的感官器官。外界物体的光线射入眼中,聚焦后在视网膜上成像,视网膜发出神经冲动达到大脑皮层视区,产生视觉。人眼的简要水平切面如图所示。角膜与晶状体之间是前房,虹膜与晶状体之间是后房,前房、后房之间都充满液体叫房水。晶状体的后方直到视网膜充满透明的胶状物质,叫玻璃体。角膜,房水与晶状体等构成折光系统,它是透明的组织,能把物像形成在视网膜上。在所有的感官系统中,视网膜的结构最复杂。视网膜为感光系统,能感受光的刺激,发放神经冲动。它不仅有一级神经元(感光细胞),还有二级神经元(双极细胞)和三级神经无(神经节细胞)。

感光细胞有两种,视杆和视锥细胞。二者都与双极细胞形成突触联系。双极细胞外端与视杆细胞和视锥细胞相连,内端与神经节细胞相接。感光细胞的分布是不均匀的,视锥细胞分布在视网膜的中央凹部分。前视杆细胞则分布在视网膜的比较边缘部分。在视神经进入的地方没有感受细胞,形成盲点。视杆细胞的特点是对弱光有高度的感受性,因而是夜视觉的器官。视锥细胞对光的强度有较弱的感受性,因而是昼视觉的器官。视杆细胞中含有夜视觉所必须的视紫红质。视锥细胞中含有昼视觉所必须的视紫质。视锥细胞可以感受和分辨颜色。

视神经是由成柬的神经节细胞的轴突组成,来自两侧的视神经在脑下垂体前方会合成视交叉。在这里组成每一根视神经的神经纤维束在进一步进入脑部之前被重新分组。从视神经交叉再发出的神经束叫作视束。在重新分组时,来自两眼视网膜右侧的纤维合成一束传向脑的右半部.来自两眼视网膜左侧的纤维合成另一束传向脑的左半部(如图所示)。

这两束经过改组的纤维视柬继续向脑内行进,大部分终止于丘脑的两个被分成外侧膝状体的神经核。外腺体的细胞主要有两类,投射细胞相中间神经元。外膝体完成输入信息处理上的第一次分离,然后传送到大脑的第一视区和第二视区。外膝体属丘脑,是眼到视皮层的中继站。这就是视觉通路。视网膜上的光感受细胞通过光化学反应和光生物化学反应,产生光感受器电位和神经脉冲,在视网膜上沿垂直和水平两个方向传递信息。这样的信息沿着视觉通路进行传播。视觉信号按连续步骤进行加工.发生在每一水平的转变相整合。从神经感受野可以作出员完善的分析。中枢神经元的感受野是指能影响某一视神经元反应的视网膜或视野的区域。每个视皮层,外侧膝状体的神经元或视网膜神经细胞节细胞在视网膜上均有其特定的感受野,视网膜上神经细胞的感受野都是同心圆。可分为开中心圆型和闭中心圆型两类。外侧膝状体的神经元的感受野与神馒节细胞相似。皮层神经无的感受野至少可分为三种类型:简单型、复杂型、超复杂型。

HubeL相WieseI于1962年提出了一个组合的感受野模式。具有相同感受野

的视皮层神经元在垂直于皮层表明的方向上呈住状分布.它们是视皮层的基本功能单位,成为超柱。超柱内的神经元对同一感受野中图像和景物的各种持征进行并行的处理和译码,是产生主观感知觉的重要神经基础。现在大体止有两种超住模型及译码理论:特征提取理论和空间频率分析器理论。视觉持征提取理论认为.视觉废层的超柱是由许多不同特征的提取功能柱所组成。每种功能校内的细胞不但感受野相同,其功能也相同,根据功能不同可以分为方位柱,服势柱和颜色柱等。与上述特征提取的超柱模型不同,视觉空间频率分析器的理论则认为.视皮层的神经元类似于傅立叶分析器,每个神经元敏感的空间频率不同。大量的研究结果表明,对复杂图形的视知觉即包含待征提取.又包括空间按空间频率分析的译码过程。此外.视皮层以外的皮层联络区也协同活动。

MHter和Stryker总结了眼优势柱的生理学研究成果之后,建立了眼优势柱模型。他们认为视皮层活动性差异是形成神经元可塑性的基础,活动性差异的统计学规律是优势柱形成的基础.每只限传入刺激引起的视皮层神经元单位发放模式的相关性,比西服同时性传入刺激引起的发放差异,在服优势校形成中具有更大的作用;不仅传入刺激引起的突触前神经活动模式是重要的,突触后的皮层神经元反应模式在服优势校中也是重要的。这些假设基本符合Hebb突触理论观点。

2-4. 脑记忆生理机制

神经生理学家一直在从事脑在何处以及如何记忆的研究。研究结果表明.在脑细胞经受多次某个对象的刺激而保持连续兴奋状态时,只有当这种刺激达到一定强度(阀值)之后,脑细胞里才会留下痕迹。而且当这个对象刺激的频率提高时.阀值降低,记忆更加牢固。

人脑的大量神经细胞都以发射和不发射冲动对行为和精神活动做出贡献。这些细胞之间以多种方式交互作用。动态记忆理论是由桑克在1982年提的,它描述了记忆是如何组织的,记忆是怎样从过去经验中获得智能而自动改变和增长的。当证实过去的经验失败就存储新的经验,即由经验中学习,用联想及从联想中归纳的方法改变结构以适应预测的失败。动态记忆依赖持续运行的神经冲动,或者依赖于可能由重复到达的冲动所强化的神经元内某些活跃的代谢变化和电位变化的保持。通过联系神经元的封闭环(或神经冲动)可能是这种动态记忆机制,每个记忆项目依赖于特定的神经元环或网的活动。事实上人们的记忆容量比神经元多,因此,不同的记忆可能共用部分通路。如果冲动实际上没打留下长时持续的痕迹,那么活动一旦停止.记忆便完全地,不可改变地消失掉。

另外,实验证明记忆不是纯动态的。但是这并不排除最初对神经元的依赖性。冲动的运行必然包含在那种留下记忆痕迹的最初经验中。重复造成更好的记忆这一事实告诉我们.冲动为了以后留下持久的物质变化必须在它选定的道路上循环流动。事实上巩固记忆痕迹的确需要时间作为代价。学习机制表明,突触结构的变化,或者神经蛋白质的变化,是这种持久的静态痕迹。那么神经元原来不起作用,由于活动而可能变得起作用并持续起作用。既然是记忆就存在一个记忆位置的问题。

在神经元生理学中,记忆研究最常用的方法是对人脑进行局部破坏,观察归纳障碍的情况。实验表明记忆与海马有密切的关系。另外与记忆有关的是杏仁体。杏仁体把感觉输入信号会聚成同样-些部分,又把神经纤维深入地送进大脑小的丘脑下部。杏仁体的多种联系构成为认为它能为记忆服务的多种作用的基础。从皮质感觉系统最终一个神经站来的神经纤维到达杏仁体。感觉印象在那里启动记忆系统的一条环路,它依靠杏仁体和丘脑之间的联系。杏仁体和丘脑之间的联系.杏仁体和丘脑下部之间的纽带似乎允许把-种体验与情感通路接合起来。那些纽带通过激活从杏仁体到感觉通路之间的反复联系,也可以便感情影响学习。从杏仁体返回到感觉区的联系的存在,有可能解释一个单一的刺激能引出多种多样的记忆。如当嗅到一种熟悉的食物的气味时能唤起对它的外观、质地和味道记忆。

总的来说.两个主要的记忆回路分别起源于海马和杏仁体,它们负责许多种认知学习。除此之外,还存在用于学习的第二系统。复制刺激反应是该系统中的关键部分,我们称这种学习类型为习惯。习惯是刺激和反应的无意识接合。行为主义心理学家早就证明这种接合是所有学习的基础。行为主义观点中排除了通常意义中的"精神"、"认知"、以及"记忆"这样一些术语。学习可能依靠两个完全不同的系统,其中之一源自认知性习惯,另一个则是认知记忆的基础。这样就可调和行为主义和认知主义学派,行为就可能是对刺激的无意识反应和由认知和期望所指导的行为的接合体。

三、 神经网络和分布系统

3-1. 分布系统

3-1-1. 概述

分布系统是在人类周围存在的最为普遍的系统。分布系统与非分布系统存在着较大的差异。非分布系统往往受一个统一命令的指挥,有一个集中发布命令的机构。与之相反,分布系 统有多个发布命令的机构,故而称之为分布的。显然分布系统应该包含异步这一层含义,既然 没有统一的指挥机构自然表现为非同步。另外,对于分布系统不能期待整个系统为完全有序。 即从宏观上看是有序的,而在微观动作上存在着随机性,以实现与其它系统或环境的协调。此 外,分布系统中的每个要素相互竞争、协调,在各种制约下作为整体保持一定秩序,适应外界的 变动。社会学中的很多现象,如一个人类集团内部,民族之间、国家之间,以至人与人,人类与自 然之间等等普遍存在这种现象。

3-1-2. 系统的特点:

3-1-2-1. 分布性

分布性体现在.系统由多个独立智能要素构成。独立的智能要素可以是简单要素,也可以是子系统,它们有某种自主的决定权利。

3-1-2-2. 蠕动性

就分布系统本身而言,有其不确定性,即系统并非固定不变。在此,系统存在某种程度的流动性、模糊性、异步性,各要素之间通过相互作用、相互通信达到协调工作。

3-1-2-3. 自组织

分布系统能适应环境的变化进行自组织,按一种规律或秩序来达到某一目的。自组织与自适应概念相似。自适应是通过自组织(或重构)实现的。系统在自组织过程中不断地从外界环境中吸取信息,不断地重新组织本身。

3-1-2-4. 集中与分布共享

"集中"的含义是指用一个统一的命令体系来控制系统动作。在此我们对这一解释稍加扩展。如果在一个系统中有多个主体、自律要素或子系统,它们执行一个动作,这种情况在客观效果上与执行统一命令相同,我们也使用"集中"这个术语。"分布"与"集中"恰好相对,如果所有的要素接受不同的、独立的信息,进行不同的动作,我们称之为"完全"的分布系统。对于一般的分布系统而言,它往往表现在"集中"与"完全"分布系统之间,即在分布系统中某些要素接受不同的、独立的信息,进行不同的动作,而另外一些要素可能在一个或多个不同的统一的命令体系控制下进行动作。恰当选择分布系统的组成形式有助于使系统的功能可以达到某一最终日的或实现某一秩序。

3-1-2-5. 宏观性

研究分布系统时并不注重每个要素的微观动作,如同在热力学研究中不关心每个气体分子的状态一样。气体分子在微观层次上完全无序,而在宏观层次上看来是均匀的。在分布系统研究中着眼于系统整体的宏观动作或秩序。当然,微观和宏观是相对的概念。

3-2. 人工神经网络

3-2-1. 概述

人工神经网络在80年代中期得到了飞速的发展。1982年美国加州州立理工学院物理学家Hopfield教授提出了Hopfield人工神经网络模型,他将能量函数的概念引入人工神经网络,并给出了稳定性的判据,开拓了人工神经网络用于联想记忆和优化计算的新途径。

人工神经网络模拟人类部分形象思维的能力,是模拟人工智能的一条途径。特别是可以利用人工神经网络解决人工智能研究中所遇到的一些难题。人工神经网络理论的应用已经渗透到多个领域,在计算机视觉、模式识别、智能控制、非线性优化、自适应滤波相信息处理、机器人等方面取得了可喜的进展。

人工神经网络模型发展到今日已有百余种模型,建造的方法也是多种多样,有出自于热力学的.数学方法的,模糊以及混沌方法。对于有规则的网络结构比较适合我们习惯的简洁分析方法。由于网络拓扑结构的规则性,限制了系统的自由性和无序运动,因而可以采用非效力学的其它方法。如对于前馈拓扑结构的人工神经网络,可使用感知器算法、误差反传递算法、竞争学习算法等。尽管如此,鉴于人工神经网络从本质上体现了分布系统的基本性质,所以分布系统的理论和方法均适合人工神经网络的研究。

3-2-2. 人工神经网络的信息处理原理

人工神经网络是由大量称为神经处理单元的自律要素以及这些自律要素相互作用形成的网络。它是在多年来对神经科学研究的基础之上,经过一定的抽象、简化与模拟的人工信息处理模型。它反映了人脑功能的某些基本持性.促又不世人脑的真实写照,形所-个具有高度非线性的大规模非线性动力学系统。必须指出,人工神经网络绝对不是任何意义的人脑的神经网络或其它生物脑。人工神经网络系统基础功能:

3-2-2-1. 学习能力:通过实践进行学习;

3-2-2-2. 自适应能力:系统能适应外界的变化保持良好的性能;

3-2-2-3. 自组织能力:依据外部环境的变化进行自组织,自适应是通过自组织实现的;

3-2-2-4. 容错与自修复能力:对不完整的信息给出正确的解答,或者系统内部发生某些故障时仍能达到良好的状态;

3-2-2-5. 输入输出能力;

3-2-2-6. 知识表示能力;

3-2-2-7. 模式存储、检索能力。

从数学的角度可以归纳为以下几个基础属性:

a) 非线性:人工神经元可以表述为激活和抑制两种基本状态,这就是一种非线性关系。

b) 非局域性:人工神经网络系统是以人工神经元之间的相互作用表现信息的处理和存储能人。系统的整体行为不仅取决于单个神经元的状态,而且取决于它们之间的相互作用,用此来模拟大脑的非局域性。

c) 非凸性:非凸性是指人工神经网络的演化过程在满足一定条件下取决于某特定函数,而且该函数具有多个稳定点,这将导致在不同边界条件下得到不同的结果,这就是系统演变的多样性。

d) 非定常性;表现在人工神经网络具有自组织、自适应和自学习能力。

在分布系统论中假定了分布系统中的大量处理单元都是自律要素,并且通过自律要素间的相互作用体现整体性能相信息处理能力。自律要素的处理能力可以是非常复杂,也可能异常简单。相对而言,在人工神经网络模型中,一般假设神经元是一个非常简单的处理单元.每个单元向其它单元发送兴奋性或抑制性信号。单元表示可能存在的假设,单元之间的相互作用则表示单元之间存在的约束。这些单元的稳定激活模式就是问题的解。

3-3. 企业数字神经网络

企业数字神经系统是人工神经网络系统在企业管理上的一种应用系统。数字神经系统通过对神经元以及神经系统的模仿,确立系统模型,解决企业的信息传递机制和流程问题。系统核心强调信息准确、传递及时、对象合理。业数据交流的双向性、互动性和数据信息的复杂性,数字神经系统的网络模型是一种综合的神经网络模型。根据不同的一些情况,采用反馈神经网络、自组织神经网络模型。

反馈神经网络模型:采用经典的Hopfield网络模型。在反馈神经网络中,输入数据决定反馈系统的初始状态,然后系统经过一系列状态转移后,逐渐收敛于平衡状态。这样的平御伏态就是反馈神经网络经计算后的输出结果。 Hopfield经常被用于资源组合优化问题。

自组织网络模型(Self-organizing Neural NetWork):Kohonen的自组织特征映射神经网络(seIf-organizing Feature Map)。自组织神经网络是一种无教师学习神经网络,它能模拟人类根据过去经验自动适应无法预测的环境变化。

第二篇  系统模型

第一章 典型神经网络模型

模拟人类实际神经网络的数学方法问世以来,人们已慢慢习惯了把这种人工神经网络直接称为神经网络。神经网络在系统辨识.模式识别,智能控制等领域有着广泛而吸引人的前景。特别在智能控制中,人们对神经网络的自学习功能尤其感兴趣,并且把神经网络这一重要特点看作是解决自动控制中按制器适应能力这个难题的关键钥匙之一。

神经网络的基础在于神经元。

神经元是以生物神经系统的神经细胞为基础的生物模型。在人们对生物神经系统进行研究,以探讨人工智能的机制时,把神经元数学化,从而产生了神经元数学模型。

大量的形式相同的神经元连结在—起就组成了神经网络。神经网络是一个高度非线性动力学系统。虽然,每个神经元的结构和功能都不复杂,但是神经网络的动态行为则是十分复杂的;因此,用神经网络可以表达实际物理世界的各种现象。

神经网络模型是以神经元的数学模型为基础来拥述的。神经网络模型由网络拓扑.节点特点和学习规则来表示。神经网络对人们的巨大吸引力主要在下列几点:

1.并行分布处理。

2.高度鲁棒性和容错能力。

3.分布存储及学习能力。

4.能充分逼近复杂的非线性关系。

在控制领域的研究课题中,不确定性系统的控制问题长期以来都是控制理论研究的中心主题之一,但是这个问题一直没有得到有效的解决。利用神经网络的学习能力,使它在对不确定性系统的控制过程中自动学习系统的特性,从而自动适应系统随时间的特性变异,以求达到对系统的最优控制;显然这是一种十分振奋人心的意向和方法。

人工神经网络的模型现在有数十种之多,在这一章中,主要介绍应用较多的典型的神经网络模型。这些模型包括BP网络、Hopfield网络、ART网络和Kohonen网络。

1.1   神经网络的基本机理和结构

神经网络的基本组成单元是神经元,在数学上的神经元模型是和在生物学上的神经细胞对应的。或者说,人工神经网络理论是用神经元这种抽象的数学模型来描述客观世界的生物细胞的。

很明显,生物的神经细胞是神经网络理论诞生和形成的物质基础和源泉。这样,神经元的数学描述就必须以生物神经细胞的客观行为特性为依据。因此,了解生物神经细胞的行为特性就是一件十分重要而必须的事了。

神经网络的拓朴结构也是以生物学解剖中神经细胞互连的方式为依据的。对神经细胞相互作用情况的揭露也是十分重要的。

1.1.1 神经元及其行为机理

神经元是神经网络基本元素。只有了解神经元才能认识神经网络的本质。在这一节介 绍神经元的生物学解副,信息的处理与传递方式,工作功能以及其数学模型。

一、神经元的生物学解剖

在人体内,神经元的结构形式并非是完全相同的;但是,无论结构形式如何,神经元都是 由一些基本的成份组成的。神经元的生物学解剖可以用图1—1所示的结构表示。从图中 可以看出:神经元是由细胞体,树突和轴突三部分组成。

图1-1  神经元的解剖

1.细胞体

细胞体是由很多分子形成的综合体,内部含有一个细胞核、核糖体、原生质网状结构等,它是神经元活动的能量供应地,在这里进行新陈代谢等各种生化过程。神经元也即是整个细胞,整个细胞的最外层称为细胞膜。

2.树突

细胞体的伸延部分产生的分枝称为树突,树突是接受从其它神经元传人的信息的入口。

3.轴突

细胞体突起的最长的外伸管状纤维称为轴突。轴突最长可达1米以上。轴突是把神经元兴奋的信息传出到其它神经元的出口。

突触,是一个神经元与另一个神经元之间相联系并进行信息传送的结构。突触如图1—2所示。它由突触前成分,突触间隙和突触后成分组成。突触前成分是一·个神经元的轴突末梢。突触间隙是突触前成分与后成分之间的距离空间,间隙一般为200—300Å。突触后成分可以是细胞体,树突或轴突。突触的存在说明:两个神经元的细胞质并不直接连通,两者彼此联系是通过突触这种结构接口的。有时.也把突触看作是神经元之间的连接。

图1-2   突触结构

目前,根据神经生理学的研究,已经发现神经元及其问的突触起码有不同的4种行为。神经元的4种生物行为有:

(1)能处于抑制或兴奋状态;

(2)能产生爆发和平台两种情况;

(3)能产生抑制后的反冲;

(4)具有适应性。

突触的4种生物行为有:

(1)能进行信息综合;

(2)能产生渐次变化的传送;

(3)有电接触和化学接触等多种连接方式;

(4)会产生延时激发。

目前,人工神经网络的研究仅仅是对神经元的第一种行为和突触的第一种行为进行模拟,其它行为尚未考虑。所以,神经网络的研究只是处于起步的初级阶段,后边还有大量的工作等人们去探讨和研究。目前,神经网络的研究已向人们展示了其美好的前景;只要按阶段不断取得进展,神经元和突触的其它行为是完全可以实现人工模拟的。

二.神经元的信息处理与传递

1.神经元的兴奋与抑制

人工神经网络对神经元的兴奋与抑制进行模拟,故而首先应了解神经元的兴奋与抑制状态。

一个神经元的兴奋和抑制两种状态是由细胞膜内外之间不同的电位差来表征的。在抑制状态,细胞膜内外之间有内负外正的电位差,这个电位差大约在-50—-100mv之间。在兴奋状态,则产生内正外负的相反电位差,这时表现为约60—100mv的电脉冲。细胞膜内外的电位差是由膜内外的离子浓度不同导致的。细胞的兴奋电脉冲宽度一般大约为1ms。神经元的兴奋过程电位变化如图1—3所示。

图1-3.神经元的兴奋过程电位变化

2.神经元的信息传递及阀值特性

对神经细脑的研究结果表明:神经元的电脉冲几乎可以不衰减地沿着轴突传送到其它神经元去。

由神经元传出的电脉冲信号通过轴突,首先到达轴突末梢,这时则使其中的囊泡产生变化从而释放神经递质,这种神经递质通过突触的间隙而进入到另一个神经元的树突中。树突上的受体能够接受神经递质从而去改变膜向离子的通透性.使膜外内离子浓度差产生变化;进而使电位产生变化。显然,信息就从一个神经元传送到另一个神经元中。

当神经元接受来自其它神经元的信息时,膜电位在开始时是按时间连续渐渐变化的。当膜电位变化经超出一个定值时,才产生突变上升的脉冲,这个脉冲接着沿轴突进行传递。神经元这种膜电位高达一定阀值才产生脉冲传送的特性称阀值特性。

这种阀值特性从图1—3中也可以看出。

神经元的信息传递除了有阀值特性之外,还有两个特点。一个是单向性传递,即只能从前一级神经元的轴突末梢传向后一级神经元的树突或细胞体,不能反之。另一个是延时性传递.信息通过突触传递,通常会产生0.5—1ms的延时。

3.神经元的信息综合特性

神经元对来自其它神经元的信息有时空综合特性。

在神经网络结构上,大量不同的神经元的轴突末梢可以到达同一个神经元的树突并形成大量突触。来源不同的突触所释放的神经递质都可以对同一个神经元的膜电位变化产生作用。因此,在树突上,神经元可以对不同来源的输入信息进行综合。这就是神经元对信息的空间综合特性。

对于来自同一个突触的信息,神经元可以对于不同时间传人的信息进行综合。故神经元对信息有时间综合特性。

4.神经元、突触的D/A、A/D特性

从神经元轴突上传递的信息是等幅、恒宽、编码的离散电脉冲信号,故而是一个数字量。但在突触中神经递质的释放和树突中膜电位的变化是连续的。故而,这时说明突触有D/A功能。在神经元的树突膜电位高过一定阀值时,则又变成电脉冲方式由轴突传送出去。故而,这个过程说明神经元有A/D功能。

很明显,信息通过一个神经元传递时,神经元对信息执行了D/A、A/D转换过程。

从上面可知,神经元对信息的处理和传递有阀值,D/A、A/D和综合等一系列特性和功能。

三、神经元的数学模型

从神经元的特性和功能可以知道,神经元是一个多输入单输出的信息处理单元,而且,它对信息的处理是非线性的。根据神经元的特性和功能,可以把神经元抽象为一个简单的数学模型。工程上用的人工神经元模型如图1—4所示。

图1—4     神经元的数学模型

在图1—4中,X1,X2,……,Xn是神经元的输入,即是来自前级n个神经元的轴突的信息A是i神经元的阎值;Wi1,Wi2……,Win分别是i神经元对X1,X2,……,Xn的权系数,也即突触的传递效率;Yi是i神经元的输出;f[·]是激发函数,它决定i神经元受到输人X1,X2,……,Xn的共同刺激达到阀值时以何种方式输出。

从图1—4的神经元模型,可以得到神经元的数学模型表达式:

(1-1)
 

图1-5.典型激发函数

对于激发函数f[·]有多种形式,其中最常见的有阶跃型、线性型和S型三种形式,这三种形式如图1—5所示。

为了表达方便;令:

(1-2)

则式(1-1)可写成下式:

Yi=F[Ui] ;       (1-3)

显然,对于阶跃型激发涵数有:

(1-4)

对于线性型激发函数,有:

f(Ui)=Ku;             (1-5)

对于S型激发函数,有:

(1-6)

对于阶跃型激发函数,它的输出是电位脉冲,故而这种激发函数的神经元称离散输出模型。

对于线性激发函数,它的输出是随输入的激发总量成正比的;故这种神经元称线性连续型模型。

对于用s型激发函数,它的输出是非线性的;故这种神经元称非线性连续型模型。

上面所叙述的是最广泛应用而且人们最熟悉的神经元数学模型;也是历史最长的神经元模型。近若干年来,随着神经网络理论的发展,出现了不少新颖的神经元数学模型,这些模型包括逻辑神经元模型,模糊神经元模型等,并且渐渐也受到人们的关注和重视。

1.1.2 神经网络结构及功能

神经元和神经网络的关系是元素与整体的关系。神经元的结构很简单,工作机理也不深奥;但是用神经元组成的神经网络就非常复杂,其功能也十分奥妙。

人们平常十分清楚砖头是很简单的,但是用简单的砖头,人们就可以筑造出各种美伦美灸的建筑物;无论是优雅的别墅,亦或是高耸雄伟的大厦,或者是粗旷的金字塔,亦或是庄严肃穆的教堂,无一不是由简单的砖头砌堆而成。简单的神经元也是如此,通过不同方式的连接和信息传递,也就能产生丰富多彩的神经网络结构,创造出令人赞叹的优异功能。

一、神经网络

神经网络就是由许多神经元互连在一起所组成的神经结构。把神经元之间相互作用的关系进行数学模型化就可以得到神经网络模型。

1.神经网络的基本属性

神经网络有些基本属性,它们反映了神经网络的特质。

(1)非线性

人脑的思维是非线性的,故人工神经网络模拟人的思维也应是非线性的。

(2)非局域性

非局域性是人的神经系统的一个特性,人的整体行为是非局域性的最明显体现。神经网络以大量的神经元连接模拟人脑的非局域性,它的分布存储是非局域性的一种表现。

(3)非定常性

神经网络是模拟人脑思维运动的动力学系统,它应按不同时刻的外界刺激对自己的功能进行修改,故而它是一个时变的系统。

(4)非凸性

神经网络的非凸性即是指它有多个极值,也即系统具有不只一个的较稳定的平衡状态。这种属性会使系统的演化多样化。神经网络的全局优化算法就反映了这一点,例如模拟退火法。

2.神经网络模型

神经网络在目前已有几十种不同的模型。人们按不同的角度对神经网络进行分类,通常可按5个原则进行神经网络的归类。

按照网络的结构区分,则有前向网络和反馈网络。

按照学习方式区分,则有有教师学习和无教师学习网络。

按照网络性能区分,则有连续型和离散性网络,随机型和确定型网络。

按照突触性质区分,则有一阶线性关联网络和高阶非线性关联网络。

按对生物神经系统的层次模拟区分,则有神经元层次模型,组合式模型,网络层次模型,神经系统层次模型和智能型模型。

通常,人们较多地考虑神经网络的互连结构。一段而言,神经网络有分层网络,层内连接的分层网络.反馈连接的分层网络,互连网络等4种互连结构,这些结构如图1—6所示。

在人们提出的几十种神经网络模型中,人们较多用的是Hopfield网络、BP网络、Kohonen网络和ART(自适应共振理论)网络。

(c) 有反馈连接的分层网络

(d)互连网络

Hopfield网络是最典型的反馈网络模型,它是目前人们研究得最多的模型之一。Hopfield网络是由相同的神经元构成的单层,并且不具学习功能的自联想网络。它需要对称连接。这个网络习以完成制约优化和联想记忆等功能。

BP网络是反向传播(Back Propagation)网络。它是一种多层前向网络,采用最小均方差学习方式。这是一种最广泛应用的网络。它可用于语言综合,识别和自适应控制等用途。BP网路需有教师训练。

Kohonen网络是典型的自组织神经网络,这种网络也称为自组织特征映射网络SOM。它的输入层是单层单维神经元;而输出层是二维的神经元,神经元之间存在以“墨西哥帽”形式进行侧向交互的作用。因而,在输出层中,神经元之间有近扬远抑的反馈特性;从而使Kohonen网络可以作为模式特征的检测器。

ART网络也是一种自组织网络模型。这是一种无教师学习网络。它能够较好地协调适应性,稳定性和复杂性的要求。在ART网络中,通常需要两个功能互补的子系统相互作用.这两个子系统称注意子系统和取向子系统。ART网络主要用于模式识别,它不足之处是在于对转换、失真和规模变化较敏感。

3.神经网络的学习规则

神经网络的学习规则可以粗略分成3类,这些类别分别如下:

第一类学习规则称相关学习规则。这种规则只根据连接间的激活水平改变权系数。

常用于自联想网络,如Hopfield网络。

第二类学习规则称纠错学习规则。这种规则根据输出节点的外部反馈改变权系数。在方法上它和梯度下降法等效,按局部改善最大的方向一步步进行优化,从而最终找到全局优化值。感知器学习就采用这种纠错学习规则.例如BP算法。用于统计性算法的模拟退火算法也属于这种学习规则。

第三类学习规则称无教师学习规则。它是一种对输入测检进行自适应的学习规则。

ART网络的自组织学习算法即属于这一类。

二、神经网络信息处理的数学过程

神经网络信息处理可以用数学过程来说明,这个过程可分为两个阶段;执行阶段和学习阶段。下面以前向网络情况说明这两个阶段。

1.执行阶段

执行阶段是指神经网络对输入信息进行处理,并产生对应的输出过程。在执行阶段,网络的连接结构和权系数是已经确定并且不会变化的。这时有:

(1-7)
Xi(t+1)=fi[ui(t+1)] (1-8)

其中:Xi是前级神经元的输出;

Wij是第i个神经元和前级j个神经元突触的权系数

θi:是第i个神经元的阀值;

fi为第i个神经元的非线性激活函数;

Xi为第i个神经元的输出。

2.学习阶段

学习阶段是指神经网络自完善的阶段;这时,网络按一定的学习规则修改突触的权系数Wij,以使到结定的测度函数E达到最小。一般取:

E=(Ti,Xi)           (1-9)

其中,Ti是教师信号;

Xi是神经元的输出。

学习公式可以表示为下面数学表达式:

(1-10)

其中:Ψ是一个非线性函数;

ηij是权重变化率;

n是学习时的迭代次数。

对于梯度学习算法,则可以采用下面具体公式:

(1-11)

神经网络对信息的处理一般都需要学习阶段和执行阶段结合,才能实现合理的处理过程。神经网络对信息的学习是为了取得对信息的适应特性,或信息的特征;而神经网络对信息的执行过程是对特征的检索或者是对信息的分类过程。

学习和执行是神经网络不可缺少的两个处理和功能。神经网络的各种有效的行为和作用,都是通过这两个关键的过程来实现的。

通过学习阶段,可以把神经网络训练成对某种信息模式特别敏感,或具有某种特征的动力学系统。通过执行阶段,可以用神经网络识别有关信息模式或特征。

在智能控制中,用神经网络作为控制器,则在学习时就是以神经网络去学习被控对象的特征,从而使神经网络能适应被控对象的输入输出关系;这样,在执行时,神经网络就能以学习到的知识对被控对象实现恰如其分的控制。

1.2反向传播BP模型

学习是神经网络一种最重要也最令人注目的特点。在神经网络的发展进程中,学习算法的研究有着十分重要的地位。目前,人们所提出的神经网络模型都是和学习算法相应的。所以,有时人们并不去祈求对模型和算法进行严格的定义或区分。有的模型可以有多种算法.而有的算法可能可用于多种模型。不过,有时人们也称算法为模型。

自从40年代Hebb提出的学习规则以来,人们相继提出了各种各样的学习算法。其中以在1986年Rumelhart等提出的误差反向传播法,即BP(error BackPropagation)法影响最为广泛。直到今天,BP算法仍然是自动控制上最重要、应用最多的有效算法。

1.2.1 神经网络的学习机理和机构

在神经网络中,对外部环境提供的模式样本进行学习训练,并能存储这种模式,则称为感知器;对外部环境有适应能力,能自动提取外部环境变化特征,则称为认知器。

神经网络在学习中,一般分为有教师和无教师学习两种。感知器采用有教师信号进行学习,而认知器则采用无教师信号学习的。在主要神经网络如BP网络,Hopfield网络,ART网络和Kohonen网络中;BP网络和Hopfield网络是需要教师信号才能进行学习的;而ART网络和Kohonen网络则无需教师信号就可以学习。所谓教师信号,就是在神经网络学习中由外部提供的模式样本信号。

一、感知器的学习结构

感知器的学习是神经网络最典型的学习。

目前,在控制上应用的是多层前馈网络,这是一种感知器模型,学习算法是BP法,故是有教师学习算法。

一个有教师的学习系统可以用图1—7表示。这种学习系统分成三个部分:输入部,训练部和输出部。

图1-7  神经网络学习系统框图

输入部接收外来的输入样本X,由训练部进行网络的权系数W调整,然后由输出部输出结果。在这个过程中,期望的输出信号可以作为教师信号输入,由该教师信号与实际输出进行比较,产生的误差去控制修改权系数W。

学习机构可用图1—8所示的结构表示。

在图中,Xl,X2,…,Xn,是输入样本信号,W1,W2,…,Wn是权系数。输入样本信号Xi可以取离散值“0”或“1”。输入样本信号通过权系数作用,在u产生输出结果 ∑WiXi,即有:

u=∑WiXi=W1X1+W2X2+…+WnXn

再把期望输出信号Y(t)和u进行比较,从而产生误差信号e。即权值调整机构根据误差e去对学习系统的权系数进行修改,修改方向应使误差e变小,不断进行下去,使到误差e为零,这时实际输出值u和期望输出值Y(t)完全一样,则学习过程结束。

神经网络的学习一般需要多次重复训练,使误差值逐渐向零趋近,最后到达零。则这时才会使输出与期望一致。故而神经网络的学习是消耗一定时期的,有的学习过程要重复很多次,甚至达万次级。原因在于神经网络的权系数W有很多分量W1,W2,----Wn;也即是一个多参数修改系统。系统的参数的调整就必定耗时耗量。目前,提高神经网络的学习速度,减少学习重复次数是十分重要的研究课题,也是实时控制中的关键问题。

二、感知器的学习算法

感知器是有单层计算单元的神经网络,由线性元件及阀值元件组成。感知器如图1-9所示。

图1-9   感知器结构

感知器的数学模型:

(1-12)

其中:f[.]是阶跃函数,并且有

(1-13)

θ是阀值。

感知器的最大作用就是可以对输入的样本分类,故它可作分类器,感知器对输入信号的分类如下:

(1-14)

即是,当感知器的输出为1时,输入样本称为A类;输出为-1时,输入样本称为B类。从上可知感知器的分类边界是:

(1-15)

在输入样本只有两个分量X1,X2时,则有分类边界条件:

(1-16)

W1X1+W2X2-θ=0       (1-17)

也可写成

(1-18)

这时的分类情况如固1—10所示。

感知器的学习算法目的在于找寻恰当的权系数w=(w1.w2,…,Wn),使系统对一个特 定的样本x=(xt,x2,…,xn)熊产生期望值d。当x分类为A类时,期望值d=1;X为B类 时,d=-1。为了方便说明感知器学习算法,把阀值θ并人权系数w中,同时,样本x也相应增加一 个分量xn+1。故令:

Wn+1=-θ,Xn+1=1      (1-19)

则感知器的输出可表示为:

(1-20)

感知器学习算法步骤如下:
1.对权系数w置初值
对权系数w=(W1.W2,…,Wn,Wn+1)的各个分量置一个较小的零随机值,但Wn+1
—g。并记为Wl(0),W2(0),…,Wn(0),同时有Wn+1(0)=-θ。这里Wi(t)为t时刻从第i个
输入上的权系数,i=1,2,…,n。Wn+1(t)为t时刻时的阀值。

图1-10 感知器的分类例子

2.输入一样本X=(X1,X2,…,Xn+1)以及它的期望输出d。

期望输出值d在样本的类属不同时取值不同。如果x是A类,则取d=1,如果x是B类,则取-1。期望输出d也即是教师信号。

3.计算实际输出值Y

4.根据实际输出求误差e

e=d—Y(t)       (1-21)

5.用误差e去修改权系数

i=1,2,…,n,n+1      (1-22)

其中,η称为权重变化率,0<η≤1

在式(1—22)中,η的取值不能太大.如果1取值太大则会影响wi(t)的稳定;的取值也不能太小,太小则会使Wi(t)的求取过程收敛速度太慢。

当实际输出和期望值d相同时有:

Wi(t+1)=Wi(t)

6.转到第2点,一直执行到一切样本均稳定为止。

从上面式(1—14)可知,感知器实质是一个分类器,它的这种分类是和二值逻辑相应的。因此,感知器可以用于实现逻辑函数。下面对感知器实现逻辑函数的情况作一些介绍。

例:用感知器实现逻辑函数X1VX2的真值:

 
X1 0011
X2 0101
X1 V X2 0111

以X1VX2=1为A类,以X1VX2=0为B类,则有方程组

(1-23)
即有:

(1-24)

从式(1—24)有:

W1≥θ,W2≥θ

令 W1=1,W2=2

则有:θ≤1

取   θ=0.5

则有:X1+X2-0.5=0,分类情况如图1—11所示。

图1-11  逻辑函数X1VX2的分类

1.2.2 神经网络学习的梯度算法

从感如器的学习算法可知,学习的目的是在于修改网络中的权系数,使到网络对于所输入的模式样本能正确分类。当学习结束时,也即神经网络能正确分类时,显然权系数就反映了同类输人模式样本的共同特征。换句话讲,权系数就是存储了的输人模式。由于权系数是分散存在的,故神经网络自然而然就有分布存储的特点。

前面的感知器的传递函数是阶跃函数,所以,它可以用作分类器。前面一节所讲的感知器学习算法因其传递函数的简单而存在局限性。

感知器学习算法相当简单,并且当函数线性可分时保证收敛。但它也存在问题:即函数不是线性可分时,则求不出结果;另外,不能推广到一般前馈网络中。

为了克服存在的问题,所以人们提出另一种算法——梯度算法(也即是LMS法)。

为了能实现梯度算法,故把神经元的激发函数改为可微分函数,例如Sigmoid函数,非对称Sigmoid函数为f(X)=1/(1+e-x),对称Sigmoid函数f(X)=(1-e-x)/(1+e-x);而不采用式(1—13)的阶跃函数。

对于给定的样本集Xi(i=1,2,,n),梯度法的目的是寻找权系数W*,使得f[W*.Xi]与期望输出Yi尽可能接近。

设误差e采用下式表示:

(1-25)

其中,Yi=f〔W*·Xi]是对应第i个样本Xi的实时输出

Yi是对应第i个样本Xi的期望输出。

要使误差e最小,可先求取e的梯度:

(1-26)

其中:

(1-27)

令  Uk=W.Xk,则有:

(1-28)

即有:

(1-29)

最后有按负梯度方向修改权系数W的修改规则:

(1-30)

也可写成:

(1-31)

在上式(1—30),式(1—31)中,μ是权重变化率,它视情况不同而取值不同,一般取0-1之间的小数。
很明显,梯度法比原来感知器的学习算法进了一大步。其关键在于两点:

1.神经元的传递函数采用连续的s型函数,而不是阶跃函数;

2.对权系数的修改采用误差的梯度去控制,而不是采用误差去控制。故而有更好的动态特能,即加强了收敛进程。

但是梯度法对于实际学习来说,仍然是感觉太慢;所以,这种算法仍然是不理想的。

1.2.3 反向传播学习的BP算法

反向传播算法也称BP算法。由于这种算法在本质上是一种神经网络学习的数学模型,所以,有时也称为BP模型。

BP算法是为了解决多层前向神经网络的权系数优化而提出来的;所以,BP算法也通常暗示着神经网络的拓扑结构是一种无反馈的多层前向网络。故而.有时也称无反馈多层前向网络为BP模型。

在这里,并不要求过于严格去争论和区分算法和模型两者的有关异同。感知机学习算法是一种单层网络的学习算法。在多层网络中.它只能改变最后权系数。因此,感知机学习算法不能用于多层神经网络的学习。1986年,Rumelhart提出了反向传播学习算法,即BP(backpropagation)算法。这种算法可以对网络中各层的权系数进行修正,故适用于多层网络的学习。BP算法是目前最广泛用的神经网络学习算法之一,在自动控制中是最有用的学习算法。

一、BP算法的原理

BP算法是用于前馈多层网络的学习算法,前馈多层网络的结构一般如图1—12所示

图1-12  网络学习结构

它含有输人层、输出层以及处于输入输出层之间的中间层。中间层有单层或多层,由于它们和外界没有直接的联系,故也称为隐层。在隐层中的神经元也称隐单元。隐层虽然和外界不连接.但是,它们的状态则影响输入输出之间的关系。这也是说,改变隐层的权系数,可以改变整个多层神经网络的性能。

设有一个m层的神经网络,并在输入层加有样本X;设第k层的i神经元的输入总和表示为Uik,输出Xik;从第k—1层的第j个神经元到第k层的第i个神经元的权系数为Wij各个神经元的激发函数为f,则各个变量的关系可用下面有关数学式表示:

Xik=f(Uik)   (1-32)
(1-33)

反向传播算法分二步进行,即正向传播和反向传播。这两个过程的工作简述如下。

1.正向传播

输入的样本从输入层经过隐单元一层一层进行处理,通过所有的隐层之后,则传向输出层;在逐层处理的过程中,每一层神经元的状态只对下一层神经元的状态产生影响。在输出层把现行输出和期望输出进行比较,如果现行输出不等于期望输出,则进入反向传播过程。

2.反向传播

反向传播时,把误差信号按原来正向传播的通路反向传回,并对每个隐层的各个神经元的权系数进行修改,以望误差信号趋向最小。

二、BP算法的数学表达

BP算法实质是求取误差函数的最小值问题。这种算法采用非线性规划中的最速下降方法,按误差函数的负梯度方向修改权系数。

为了说明BP算法,首先定义误差函数e。取期望输出和实际输出之差的平方和为误差函数,则有:

(1-34)

其中:Yi是输出单元的期望值;它也在这里用作教师信号;

Xim是实际输出;因为第m层是输出层。

由于BP算法按误差函数e的负梯度方向修改权系数,故权系数Wij的修改量Awij,和e

(1-35)
也可写成
(1-36)

其中:η为学习速率,即步长。

很明显,根据BP算法原则,求ae/aWij最关键的。下面求ae/aWij;有

(1-37)
由于
(1-38)
故而
(1-39)
从而有
(1-40)
(1-41)
则有学习公式:
(1-42)

其中:η为学习速率,即步长,一般取0-1间的数。

从上面可知,dik实际仍末给出明显的算法公式,下面求dik的计算公式。

(1-43)

从式(1-32)可知在式(1-43)中,有

(1-44)

为了方便进行求导,取f为连续函数。一般取非线性连续函数,例如Sigmoid函数。当取f为非对称Sigmoid函数时,有:

则有:f'(Uik)=f'(Uik)(1-f(Uik))
             =Xik(1-Xik)                (1-45)

再考虑式(1—43)中的偏微分项ae/aXik,有两种情况需考虑的:

如果k=m,则是输出层,这时有Yi是输出期望值,它是常数。从式(1-34)有

(1-46)
从而有   dim=Xim(1-Xim)(Xim-Yi) (1-47)
2.如果k<m,则该层是隐层.这时应考虑上一层对它的作用,故有:
(1-48)
从式(1—41)中,可知有:
(1-49)
从式(1—33)中,可知有:
(1-50)
故而有
(1-51)
最后有:
(1-52)

从上述过程可知:多层网络的训练方法是把一个样本加到输入层,并根据向前传播的规则:

Xik=f(Uik)

不断一层一层向输出层传递,最终在输出层可以得到输出Xim

把Xim和期望输出Yi进行比较.如果两者不等,则产生误差信号e,接着则按下面公式反向传播修改权系数:

(1-53)

其中

dim=Xim(1-Xim)(Xim-Yi)

上面公式中,求取本层dik时,要用到高一层的dik+1;可见,误差函数的求取是从输出层开始,到输入层的反向传播过程。在这个过程中不断进行递归求误差。

通过多个样本的反复训练,同时向误差渐渐减小的方向对权系数进行修正,以达最终消除误差。从上面公式也可以知道,如果网络的层数较多时,所用的计算量就相当可观,故而收敛速度不快。

为了加快收敛速度,一般考虑上一次的权系数,并以它作为本次修正的依据之一,故而有修正公式:

(1-54)

其中:η为学习速率,即步长,η=0.1—0.4左右

ɑ为权系数修正常数,取0.7—0.9左右。

在上面,式(1—53)也称为一般化的Delta法则。对于没有隐层的神经网络,可取

(1-55)

其中:,Yi为期望输出;

Xj为输出层的实际输出;

Xi为输入层的输入。

这显然是一种十分简单的情况,式(1—55)也称为简单Delta法则。

在实际应用中,只有一般化的Delta法则式(1—53)或式(1—54)才有意义。简单Delta法则式(1—55)只在理论推导上有用。

三、BP算法的执行步骤

在反向传播算法应用于前馈多层网络时,采用Sigmoid为激发面数时,可用下列步骤对网络的权系数Wij进行递归求取。注意对于每层有n个神经元的时候,即有i=1,2,…,n;j=1,2,…,n。对于第k层的第i个神经元,则有n个权系数Wi1,Wi2,…,Win,另外取多—个Win+1用于表示阀值θi;并且在输入样本X时,取x=(X1,X2,…,Xn,1)。

算法的执行的步骤如下:

1.对权系数Wij置初值。

对各层的权系数Wij置一个较小的非零随机数,但其中Wi,n+1=-θ。

2.输入一个样本X=(xl,x2,…,xn,1),以及对应期望输出Y=(Y1,Y2,…,Yn)。

3.计算各层的输出

对于第k层第i个神经元的输出Xik,有:

Xik=f(Uik)

4.求各层的学习误差dik

对于输出层有k=m,有

dim=Xim(1-Xim)(Xim-Yi)

对于其他各层,有

5.修正权系数Wij和阀值θ
用式(1—53)时有:

用式(1—54)时有:

其中:

6.当求出了各层各个权系数之后,可按给定品质指标判别是否满足要求。如果满足要求,则算法结束;如果未满足要求,则返回(3)执行。

这个学习过程,对于任一给定的样本Xp=(Xp1,Xp2,…Xpn,1)和期望输出Yp=(Yp1,Yp2,…,Ypn)都要执行,直到满足所有输入输出要求为止。

1.3 Hopfield模型

1982年,J.Hopfield提出了可用作联想存储器的互连网络,这个网络称为Hopfield网络模型,也称Hopfield模型。Hopfield神经网络模型是一种循环神经网络,从输出到输入有反馈连接。Hopfield网络有离散型和连续型两种。

反馈神经网络由于其输出端有反馈到其输入端;所以,Hopfield网络在输入的激励下,会产生不断的状态变化。当有输入之后,可以求取出Hopfield的输出,这个输出反馈到输入从而产生新的输出,这个反馈过程一直进行下去。如果Hopfield网络是一个能收敛的稳定网络,则这个反馈与迭代的计算过程所产生的变化越来越小,一旦到达了稳定平衡状态;那么Hopfield网络就会输出一个稳定的恒值。对于一个Hopfield网络来说,关键是在于确定它在稳定条件下的权系数。

应该指出:反馈网络有稳定的,也有不稳定的。对于Hopfield网络来说,还存在如何判别它是稳定网络,亦或是不稳定的问题;而判别依据是什么,也是需要确定的。

1.3.1 离散Hopfield网络

Hopfield最早提出的网络是二值神经网络,神经元的输出只取1和0这两个值,所以,也称离散Hopfield神经网络。在离散HopfieId网络中,所采用的神经元是二值神经元;故而,所输出的离散值1和0分别表示神经元处于激活和抑制状态。

首先考虑由三个神经元组成的离散Hopfield神经网络,其结构如图1—13中所示。

在图中,第0层仅仅是作为网络的输人,它不是实际神经元,所以无计算功能;而第一层是实际神经元,故而执行对输人信息和权系数乘积求累加和,并由非线性函数f处理后产生输出信息。f是一个简单的阀值函效,如果神经元的输出信息大于阀值θ,那么,神经元的输出就取值为1;小于阀值θ,则神经元的输出就取值为θ。

图1-13  三神经元组成的Hopfield网络

对于二值神经元,它的计算公式如下

其中:xi为外部输入。并且有:

Yi=1,当Ui≥θi

Yi=0,当Uii

对于一个离散的Hopfield网络,其网络状态是输出神经元信息的集合。对于一个输出层是n个神经元的网络,则其t时刻的状态为一个n维向量:

Y(t)=[Y1(t),Y2(t),...,Yn(t)]T

故而,网络状态有2n个状态;因为Yj(t)(j=1……n)可以取值为1或0;故n维向量Y(t)有2n种状态,即是网络状态。

对于三个神经元的离散Hopfield网络,它的输出层就是三位二进制数;每一个三位二进制数就是一种网络状态,从而共有8个网络状态。这些网络状态如图1—14中所示。在图中,立方体的每一个顶角表示一种网络状态。同理,对于n个神经元的输出层,它有2n个网络状态,也和一个n维超立方体的顶角相对应。

图1-14   三神经元输出层的网络状态

如果Hopfield网络是一个稳定网络,那么在网络的输入端加入一个输入向量,则网络的状态会产生变化,也就是从超立方体的一个顶角转移向另一个顶角,并且最终稳定于一个特定的顶角。

对于一个由n个神经元组成的离散Hopfield网络,则有n*n权系数矩阵w:

W={Wij} i=1,2,...,n  j=1,2,...,n

同时,有n维阀值向量θ:

θ=[θ12,...θn]T

一船而言,w和θ可以确定一个唯一的离散Hopfield网络。对于图1—13所示的三神经元组成的Hopfield网络,也可以改用图1—15所示的图形表示,这两个图形的意义是一样的。考虑离散Hopfield网络的一船节点状态;用Yj(t)表示第j个神经元,即节点j在时刻t的状态,则节点的下一个时刻(t+1)的状态可以求出如下:

当Wij在i=j时等于0,则说明一个神经元的输出并不会反馈到它自己的输入;这时,离教的HopfieId网络称为无自反馈网络。

当Wij在i=j时不等于0,则说明—个神经元的输出会反馈到它自己的输入;这时,离散的Hopfield网络称为有自反馈的网络。

图1-15 离散Hopfield网络的另外一种图示

1.串行(异步)方式

在时刻t时,只有某一个神经元j的状态产生变化,而其它n-1个神经元的状态不变这时称串行工作方式。并且有

Yi(t+1)=Yj(t)  i≠j

在不考虑外部输人时,则有

2.并行(同步)方式

在任一时刻t,所有的神经元的状态都产生了变化;则称并行工作方式。并且有

在不考虑外部输入时,则有

    j=1,2,...,n

对于一个网络来说,稳定性是一个重大的性能指标。

对于离散Hopfield网络,其状态为Y(t):

Y(t)=[Y1(t),Y2(t),...,Yn(t)]T

如果,对于任何△t>0.当神经网络从t=0开始,有初始状态Y(0);经过有限时刻t,有:

Y(t+△t)=Y(t)

则称网络是稳定的。

在串行方式下的稳定性称之为串行稳定性。同理,在并行方式的稳定性称之为并行稳定性。在神经网络稳定时,其状态称稳定状态。

从离散的Hopfield网络可以看出:它是一种多输入,含有阀值的二值非线性动力系统。在动力系统中,平衡稳定状态可以理解为系统的某种形式的能量函数在系统运动过程中,其能量值不断减小,最后处于最小值。

对Hopfield网络引入一个Lyapunov函数,即所谓能量函数:

即有:

离散Hopfield网络有二种不同的工作方式:

(1-46)
对于神经元j,其能量函数可表示为
(1-47)

也即是有

神经元j的能量变化量表示为△Ej

(1-48)
图1-19  协作——竞争网络交互模型

图1-22  2/3规则

二、ART模型的基本工作原理

在ART模型中,显然分为F1,F2两层神经网络。对于注意子系统,F1和F2这两层的作用可以用图1—23表示。

图1-23   F1和F2层的信息处理

Fl层接收输人模式I,则在F1中被转换成激活模式X,X由F1中的激活神经元表示,如图1—23中的长方形所示。这个模式x被短期存储在F1中。只有激活值足够高的神经元才能产生输出信号并通过连接传送到F2的神经元去。

在F1中,由x所产生的F1输出模式为S,S模式通过连接送到F2的神经元输入端。并在F2的神经元的输入端土产生一个和s不同的模式T。从s到T的转换称为自适应滤波。无论F1还是P2,其神经元是一般形式的神经元结构。一般而言,这些神经元的状态.输入和输出并不相同。

在F2层中.模式T经过F2神经元的相互作用会迅速地被转换。这个相互作用是对输入模式T的比较及除弱增强过程。其结果产生一个短期存储在F2中的模式Y,这也是F2的状态。

在一般情况时,从T到Y这个比较,除弱增强的转换会使多个神经元处于激活状态。这时,这种转换结果变由F2中的多个神经元群来表达。这个转换过程自动地把F1的输入模式I划分到不相交的各个识别聚类中去,每个类对应于F2中的某个特征神经元。在特殊情况时,从T到Y的比较、除弱增强过程就是在F2中选择一个与当前输入I相对应的而输出值最大的神经元的过程。所选择的神经元就是用于表示激活模式的唯一神经为了说明ART模型的有关工作基本原理,下面分五点进行介绍:

1.自下而上的自适应滤波和STM中的对比度增强过程。

输入信号I加到注意子系统的F1的输入端,经过F1的节点变换成激活模式X,这一过程起到特征检出作用。
在F1中,激活值较高的神经元就会有输出到F2的信号,并成为输出模式s.s经过F1到F2的连接通道时受到加权组合(LTM),变换成模式T后作用于F2的输入端。S到T的变换称为自适应滤波。F2接收到T后通过神经元间的相互作用迅速产生对比度增强了的激活模式Y,并且存储于F2中。如图1—24(a)所示。

这个阶段的学习是一个变换系列:I—X—S—T—Y

2.自上而下的学习期望匹配和对已学习编码的稳定。

一旦当自下而上的变换X—Y完成之后.Y就会产生自上而下的输出信号的模式u,并送向F1,只有激活值足够大的才会向反馈通道送出信号u。 u经加权组合变换成模式v。v称为自上而下的模板,或学习期望。

由于x和V这两个模式对F1输入,则它们的共同作用在F1中产生激活模式X*;—般而言,x*和只由输入信号产生的x模式不同。这时,F1的作用就是试图使v和I匹配,其匹配结果确定了以后的作用过程。
这时的情况如图1—24(b)所示。

3.注意子系统和取向子系统相互作用过程。

这个过程和输入I有关。在图1—24(a)中,在输入模式I产生x的同时,也会激活取向子系统A;只是在A产生输出之前,F1中的x对A所产生的输出端就起禁止作用。当F2的反馈模式v与P1的输入模式[失配时,就会大大减弱这一禁止作用,当减弱到一定的程度时,A就被激活。如图1—24(c)所示。

A被激活之后就向F2送出重置信号.并作用于F2的全部神经元,从而改变F2的状态.取消了原来的自上而下的学习期望V;终止了V和I的失配;于是输入I再次作用直到F2产生新的状态Y*。如图1—24(d)所示。

Y*会产生新的自上而下的学习期望v*,如果v*仍然和I失配,那么,取向子系统A继续起作用;这样.产生一个快速的一系列匹配与重置过程。这个过程控制LTM的搜索从调整了LW对外界环境的编码。这个过程一直执行下去,直到F2送出的模式v和输人I相互匹配为止。

图1-24  ART模型的工作过程

4.需考虑的一些特点

在注意子系统的增益控制及起动这一自上而下的学习期望匹配过程中,还应考虑一些有关特点。

例如在F1输出向下而上的作用之前,F2已被激活,这时F2就会产生自上而下的学习期望并作用于Fl;这时则F1也会被激活,并产生自下而上的作用过程。显然,需要对来自外部输入的激活以及来自F2的反馈激活进行区分。所以,设置一个辅助机构进行区分激活来源的工作。这个辅助机构称为注意增益控制。

为F2被激活时,注意起动机构会向F1选出学习期望信号,注意增益控制就会给出禁止作用,从而影响Fl对输入响应灵敏度,使得F1可以区分激活信号的来源。

5.匹配

采用2/3规则,以确定F1的输出。这实际上是把存储模式和输入模式进行匹配的规则。

三、ART模型的工作过程

在图1—21所示的ART结构中,F1可称为比较层,F2可称为识别层。

比较层F1接收输入模式I,初始时不作任何变动作为输出向量S送去识别层F2;此后,F1同时接受识别层输出的向量v和输人模式I,还有增益控制的输出,并按2/3规则产生输出。在初始时,增益控制的输出为I,而v设置为o,故有S等于输入I。

识别层F2是用作输入向量分类器的。在识别层中,只有一个神经元和输入的向量s最优匹配,这个神经元就会被激活,而其它神经元则被抑制。根据神经元的结构原理,最优匹配规则如下:

其中: S是输入F2的向量;s=(sl,s2,…,Sn);

w3是识别层中第j个神经元和比较层中神经元从F1一F2的权系数向量wj=(W1j,W2j......),

wc是识别层中最优匹配神经元c从FI—F2的权系数向量Wc=(W1c,W2c……)。

应该注意:最优匹配神经元c到比较层神经元有从F2一FI的权系数向量Wc’,Wr’=(Wc1,Wc2……)很明显,Wc和Wc’就组成了输入向量的类别样本;也即是权系数的形态表示一类模式。

在识别层中,为了使一个神经元有最大输出值并取得竞争的优胜,并抑制其它神经元。故而识别层有横向连接,每个神经元的输出和正的权系数相乘后作本神经元的一个输入,而其它神经元的输出和负权系数相乘后再作为本神经元的输入。这种作用等于加强自身,抑制其它。从而保证了只有一个神经元被激活。这种情况如图1—25所示。

图1-25 F2层的横向连接

增益控制有两部分,它们的作用功能不同。识别层F2的增益控制输出原则为:只要输入向量I有一个元素为1,则输出1。比较层F1的增益控制原则为:只要在I有一个元素为1,同时F2的输出向量U全部元素为0时,才输出1。

重置作用是在输入信号I和F1的输出s之间的匹配存在问题,差别大于某警戒值时.则发清零信号到F2。以便重新进行识别。

ART网络的学习分类分为三部,即识别,比较和搜索。下面作简要说明。

1.识别

初始化时,网络无输人信号,故I全部元素为0;识别层F2增益控制输出为0;识别层F2输出全部为0。在有模式I输入后,I必有元素为1,故F1增益控制、F2增益控制均输出1;比较层F1按2/3规则全部复制I作为输出;S=(s1,s2,…,Sn)。接着识别层F2的每个神经元j执行下面操作;从而求出最优匹配神经元C:

则神经元C输出1,其余输出U。这些输出送回比较层F1。F2输出的值为U=(U1,U2……)。找寻最优匹配神经元C的过程就是识别。

2.比较

从识别层F2反馈到Fl的向量U不再全部为0,故而,F1增益控制输出0。按2/3规则,只有输人向量I及反馈向量U的元素同时为1所激励的神经元才会被激活。从另一个角度讲.就是来自F2的反馈强迫输入向量I中那些不匹配存储模式u的S元素为0。

如果I与U不匹配,则产生的S只有少数元素为1,这也说明模式U不是所要寻找的I模式。取向子系统对I和s的相符程度进行判别,如果低于结定的警戒值,则发出重置信号,使识别层F2激活的神经元清零;这也说明该神经元失去竞争的资格。则到此这个阶段分类比较过程结束。如果I与U匹配,则输入模式I所属的类别已找到,分类结束。

3.搜索

在I与U不匹配时,为了找到较好的匹配必须对其余的模式进行搜索。重置信号把识别层F2的神经元全部清0,则F1增益控制又输出1,网络返回到初始状态。输入模式I再进行输入,识别层的另一个神经元会取得优胜,则反馈一个新的存储模式U送回比较层F1。接着又进行匹配比较,如不匹配,则又重置识别层……不断执行下去。

搜索过程直到产生下列情况之一才会停止:

(1)找到一个存储模式,在警戒值范围内和输入模式I匹配;则ART网络进入学习阶段。修正和匹配神经元C相关的权系数Wic和Wci

(2)搜索了全部模式后,没有一个模式能够和I相似匹配;则网络也进人学习阶段。把原来来分配模式的神经元j赋于输人模式I,构造相应的权系数Wij和Wji,并作为样本模式存储。

特别应指出的是:搜索过程是包含了识别和比较二个阶段的。搜索不过是识别—比较—识别—比较……的多次重复。

严格来说,ART应分成搜索和学习这两种最主要的过程和功能。

1.4.3ART模型的数学描述

在ART模型中,F1或F2中的神经元用Nk表示,神经元被激活后产生的激活值用Xk表示,从神经生理学的研究结果,可以知道神经元的激活值,即神经元未经s函数处理的输出Xk满足下面的微分方程:

(1-60)

其中:e是远小于1的正实数;

Jk+是送到神经元Nk的所有激励输入之和

Jk-是送到神经元Nh的所有抑制输入之和

A,B,C是非负常数;

Xk的取值范围为[-BC-1,A-1]

一、F1层的数学描述

用Ni表示F1的神经元,并且i=1,2,…,n,

则有

(1-61)

很明显,有F1的激活模式X

X={X1,X2,...Xn}

1.Ji+的形式

由于F1神经元Nt的激励输入Ji+是自下而上的输入Ii以及自上而下的输入vi之和,故而有

Ji+=Ii+Vi

其中Ii是一个n维输入向量;I={I1,I2,…In};

;这里,f(Xj)是F2中神经元Ni的输出,Wji是Nj到Ni的连接权系数;

D1是系数。

v={v1,v2,…,vn},也是n维间量。

2.Ji-的形式

对F1层,抑制输入Ji-是由注意子系统增益控制信号来控制,即

j=n+1,n+2,...,n+m

当且仅当F2的激活值很高时,Ji-=0,否则Ji->0。

二、F2层的数学描述

用Nj表示F2的神经元.并且j=n+1,n+2,…,n+m,则有:

(1-62)

则有F2的激活模式Y

Y={Xn+1,Xn+2,...Xn+m}

选择F2中的激活模式的输入和参数,使到F2中具有来自F1的最大输入的神经元取得竞争的胜利。故而对Jj+和Jj-考虑应有如下形式:

1.Jj+的形式

Jj+=g(Xj)+Tj

其中:g(xj)为Nj的自反馈信号;
Tj是从F1来的到F2的输入模式;,这里的h(xi)是F中神经元Ni的输出,D2是系数;

Wij是F1到F2的神经元的连接权系数。

2.Jj-的形式

对应于图1—24中的情况,可以看出向量S,T,U,V的关系,并且有

S={h(X1),h(X2),...,h(Xn)}

T={Tn+1,Tn+2,...,Tn+m}

U={f(Xn+1),f(Xn+2),...,h(Xn+m)}

V={V1,V2,...,Vn}

并且有   I={I1,I2,...,In}

(1-49)

其中:Ej为神经元j的能量;

△Ej为神经元j的能量变化;

Wij为神经元i到神经元j的权系数:

Yi为神经元j的输出;

Xj为神经元j的外部输入;

θj为神经元j的阀值;

△Yj为神经元j的输出变化。

如果,令

Uj=ΣWijYi+Xj

则△Ej可表示为:

考虑如下两种情况:

1.如果Uj≥θj,即神经元j的输入结果的值大于阀值,则Ujj≥0,则从二值神经元的计算公式知道:Yj的值保持为1,或者从0变到1。这说明Yj的变化△Yj只能是0或正值。这时很明显有△Ej

△Ej≤0

这说明Hopfield网络神经元的能量减少或不变。

2.如果Uj≤θj,即神经元j的输入结果的值小于阀值,则Ujj≥0,则从二值神经元的计算公式可知:Yj的值保持为0,或者从1变到0。这说明Yj的变化△Yj只能是零或负位。这时则有△Ej

△Ej≤0

这也说明Hopfield网络神经元的能量减少。

上面两点说明了Hopfield网络在权系数矩阵W的对角线元素为0,而且W矩阵元素对称时,Hopfield网络是稳定的。

Coben和Grossberg在1983年给出了关于Hopfield网络稳定的充分条件,他们指出:

如果Hopfield网络的权系数矩阵w是一个对称矩阵,并且,对角线元素为0.则这个网络是稳定的。即是说在权系数矩阵W中,如果

i=j时,Wij=0

i≠j时,Wij=Wji

则Hopfield网络是稳定的。

应该指出:这只是Hopfield网络稳定的充分条件.而不是必要条件。在实际中有很多稳定的Hopfield网络,但是它们并不满足权系数矩阵w是对称矩阵这一条件。

上面的分析可知:

无自反馈的权系数对称Hopfield网络是稳定的网络。它如图1—16,图1—17所示。

图1-16  对角线权系数为0的对称Hopfield网络

图1-17  对角线权系数为0的对称网另一图示

Hopfield网络的一个功能是可用于联想记忆,也即是联想存储器。这是人类的智能特点之一。人类的所谓“触景生情”就是见到一些类同过去接触的景物,容易产生对过去情景的回昧和思忆。对于Hopfield网络,用它作联想记忆时,首先通过一个学习训练过程确定网络中的权系数,使所记忆的信息在网络的n维超立方体的某一个顶角的能量最小。当网络的权系数确定之后,只要向网络给出输入向量,这个向量可能是局部数据.即不完全或部分不正确的数据,但是网络仍然产生所记忆的信息的完整输出。1984年Hopfield开发了一种用n维Hopfield网络作联想存储器的结构。在这个网络中,权系数的赋值规则为存储向量的外积存储规则(out product storage prescription),其原理如下:

设有m个样本存储向量x1,x2,…,xm

X1={X11,X21,...,Xm1}

X2={X12,X22,...,Xm2}

......

Xm={Xm1,Xm2,...,Xmm}

把这m个样本向量存储人Hopfield网络中,则在网络中第i,j两个节点之间权系数的值为:

其中:k为样本向量Xk的下标,k=1,2,…m;

i,j分别是样本向量Xk的第i,j分量Xi,Xj的下标;i,j=1,2,…n。

对联想存储器的联想检索过程如下:

给定一个向量X。进行联想检索求取在网络中的存储内容。这时,把向量

X={X1,X2,...Xn}

的各个分量x1,x2,…,xn赋于相对应的节点j,(j=1,2,…,n),则节点有相应的初始状态Yj(0),则有

Yj(0)=Xj,j=1,2,…,n

接着,在Hopfield网络中按动力学系统原则进行计算,得

Yj(t+1)=f[ΣWijYj(0)-θj]  , i,j=1,2,…,n

其中,f[·]是非线性函数,可取阶跃函数。

通过状态不断变化,最后状态会稳定下来.最终的状态是和给定向量x最接近的样本向量。所以,Hopfield网络的最终输出也就是给定向量联想检索结果。这个过程说明,即使给定向量并不完全或部分不正确,也能找到正确的结果。在本质上,它也有滤波功能。

1.3.2连续Hopfield网络

连续Hopfield网络的拓朴结构和离散Hopfield网络的结构相同。这种拓朴结构和生物的神经系统中大量存在的神经反馈回路是相一致的。在连续Hopfield网络中,和离散Hopfield网络一样,其稳定条件也要求Wij=Wji
连续Hopfield网络和离散Hopfield网络不同的地方在于其函数g不是阶跃函数,而是S形的连续函数。一般取

g(u)=1/(1+e-u)        (1-50)

连续Hopfield网络在时间上是连续的.所以,网络中各神经元是处于同步方式工作的。考虑对于一个神经细胞,即神经元j,其内部膜电位状态用uj表示.细胞膜输入电容为Cj,细胞膜的传递电阻为Rj,输出电压为Vj,外部输入电流用Ij表示,则连续Hopfield网络可用图1—18所示的电路表示。

(1-51)

其中:n是神经网络神经元的个数

vj(t)为输出电位;

Uj(t)为输入电位。

图1-18  连续Hopfield网络的电路形式

对于连续Hopfield网络,Hopfield给出如下稳定性定理:

给出能量函数E(t)

(1-52)

其中:g-1(v)是Vj(t)=gj(uj(t))的反函数。

如果连续Hopfield网络中神经元传递函数是单调增长的连续并有界函数,并且Wij=Wji,则有

当并且仅当

时,有

这个定理的意义可以解释如下:当网络神经元的传递函数是S函数,并且网络权系数矩阵对称;则随时间的变化网络的能量会下降或不变;而且仅当输出电位随时间变化不变时.网络的能量才会不变。换而言之,在上述条件下的网络是能量不变或下降的。

这个定理的证明过程如下:

对能量函数E(t)求时间的导数dE(t)/dt,则有

(1-53)

如果存在Wij=Wji,则上式可写为

(1-54)
从连续Hopfield网络的动态方程,有
(1-55)
故上面(1—54)式可写成
(1-56)
由于  Vj(t)=gj(Uj(t)) (1-57)
故而有  Uj(t)=gj-1(Vj(t)) (1-58)
从而有
(1-59)
从   g(u)=1/(1+exp(-u)) (1-60)

可知其反函数为单调升函数。因而对于dE(t)/dt中的gj-1(vj(t)),必有单调升的特点.则其导数必定大于0,即

[gj-1(vj(t))]'>0

同时容易知道

Cj>0

很明显,在dE(t)/dt时,必定有

而且当,仅当

至此,则定理证明完毕。

这个定理说明Hopfield网络的能量函数E(t)是单调下降的;如果E(t)有下界,即有确定的极小值;那么网络必定是稳定的。而且,可以知道稳定点对应于能量函数的下界,即极小值。

下一步工作,只需证明能量函数有下界,那么.就可以证明网络是稳定的。

可以证明,如果Hopfield网络的传递函数g是连续而且有界的,那么,能量函数E(t)是有界的。

最后,有如下结论:

当Hopfield网络的神经元传递函数g是连续且有界的,例如Sigmoid函数,并且网络的权系数矩阵对称,则这个连续Hopfield网络是稳定的。在实际应用中,任何一个系统,如果其优化问题可以用能量函数E(t)作为目标函数,那么,总可以用连续Hopfield网络对其进行求解。由于引入能量函数E(t),Hopfield使神经网络和问题优化直接对应;这种工作是具开拓性的。利用神经网络进行优化计算,就是在神经网络这一动力系统给出初始的估计点,即初始条件;然后随网络的运动传递而找到相应极小点。这样,大量的优化问题都可以用连续的Hopfield网来求解。这也是Hopfield网络用于神经计算的基本原因。

转载于:https://www.cnblogs.com/penglink/archive/2009/04/10/1433100.html

【z】数字神经网络系统相关推荐

  1. 神经网络系统理论与实践,神经网络系统理论基础

    神经网络算法原理 4.2.1概述人工神经网络的研究与计算机的研究几乎是同步发展的. 1943年心理学家McCulloch和数学家Pitts合作提出了形式神经元的数学模型,20世纪50年代末,Rosen ...

  2. 神经网络系统图片高清,神经网络系统图片结构

    如何简单形象又有趣地讲解神经网络是什么? 神经网络最重要的用途是分类,为了让大家对分类有个直观的认识,咱们先看几个例子:垃圾邮件识别:现在有一封电子邮件,把出现在里面的所有词汇提取出来,送进一个机器里 ...

  3. 神经网络系统的软件实现,人工智能神经网络系统

    人工神经网络的设计一般是运用什么样的软件?有没有不需要编程的软件 20 谷歌人工智能写作项目:神经网络伪原创 什么软件可分析人工神经网络 5 人工神经网络除了matlab还有什么软件 理论上编程语言都 ...

  4. 机器翻译Seq2Seq模型的启发-人工神经网络系统-诞生

    该模型采用了将信息通过某种编码 ,而后通过一个循环神经网络模型解码来实现语言的翻译, 那么我们如果把有的信息都看作是人类的信息,而机器训练需要的数据不是直接的信息,是神经网络的信息,也就是说某个模型的 ...

  5. TF之NN:利用神经网络系统自动学习散点(二次函数+noise+优化修正)输出结果可视化(matplotlib动态演示)

    TF之NN:利用神经网络系统自动学习散点(二次函数+noise+优化修正)输出结果可视化(matplotlib动态演示) 目录 输出结果 代码设计 输出结果 代码设计 import tensorflo ...

  6. Tensorflow实现简单的手写数字神经网络模型

    1.全连接层直接实现手写数字神经网络 import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_dat ...

  7. 神经网络系统技术是什么,神经网络系统技术应用

    神经网络是什么? 生物神经网络主要是指人脑的神经网络,它是人工神经网络的技术原型. 人脑是人类思维的物质基础,思维的功能定位在大脑皮层,后者含有大约10^11个神经元,每个神经元又通过神经突触与大约1 ...

  8. 一种利用NeuCube和动态视觉传感器对运动目标进行精确识别的视觉脉冲神经网络系统(译)

    原文题目为: A Retinotopic Spiking Neural Network System for Accurate of Moving Objects Using NeuCube and ...

  9. 阿里达摩院:超大规模图神经网络系统将赋予机器常识

    https://www.toutiao.com/a6650053814835479053/ 2019-01-24 21:25:21 看看你自己的生活,你的职业选择,你与配偶的邂逅,你被迫离开故土,你面 ...

最新文章

  1. C++100w个数中找出最大的前K个数
  2. 《梦断代码》读书笔记
  3. navigator对象介绍
  4. python的模拟登录原理_python---cookie模拟登陆和模拟session原理
  5. spark需要maven管理吗_使用Eclipse编写Spark应用程序(Scala+Maven)
  6. 如何调用Android隐藏API
  7. 跟人合作人工智能,方案没有,钱又不出,这怎么合作?
  8. D5M数据手册英文版
  9. CC1101/CC1100、CC2540/CC2541的比较
  10. SQL sever2008 r2安装闪退的解决办法
  11. jvm讲解-jvm内存结构详解
  12. shiro安全性框架
  13. 对创建的screen会话进行恢复时出现:There is no screen to be resumed matching XXX 解决办法
  14. 渗透测试——信息收集
  15. Internet的初步了解
  16. 工作几年,涨薪3K遭拒,后一天我就裸辞走了···
  17. java计算机毕业设计疆域特色农家乐系统MyBatis+系统+LW文档+源码+调试部署
  18. LINUX 下使用Address Sanitizer ,以及不能运行的问题
  19. 第三讲 信息化与信息系统(part3)【2021年软考-高级信息系统项目管理师】
  20. linux怎么还原bak文件,Linux系统restore命令:还原dump操作备份下的文件、目录或分区...

热门文章

  1. BloombergGPT(LLM大模型用于金融科技)
  2. ios IPad全局禁止横屏设置
  3. 制作一个简单HTML家乡网页(HTML+CSS)---家乡邢台 页面7个
  4. 如何做FLASH倒记时
  5. Kaggle 泰坦尼克号生存分析(数据概览和缺失值处理部分)
  6. psd转div+css,PSD转DIV+CSS的方法.doc
  7. android 根目录缓存,Android缓存策略和目录
  8. 《数据库原理与应用(第3版)》——第3章 关系数据库
  9. 成南动网络体验不给力
  10. 标签数据——如何全面科学地评估用户标签的质量?