神经网络深度神经网络,主流的神经网络的框架

有哪些深度神经网络模型

目前经常使用的深度神经网络模型主要有卷积神经网络(CNN)、递归神经网络(RNN)、深信度网络(DBN)、深度自动编码器(AutoEncoder)和生成对抗网络(GAN)等。

递归神经网络实际.上包含了两种神经网络。

一种是循环神经网络(RecurrentNeuralNetwork);另一种是结构递归神经网络(RecursiveNeuralNetwork)，它使用相似的网络结构递归形成更加复杂的深度网络。

RNN它们都可以处理有序列的问题，比如时间序列等且RNN有“记忆”能力，可以“模拟”数据间的依赖关系。卷积网络的精髓就是适合处理结构化数据。

关于深度神经网络模型的相关学习，推荐CDA数据师的相关课程，课程以项目调动学员数据挖掘实用能力的场景式教学为主，在讲师设计的业务场景下由讲师不断提出业务问题，再由学员循序渐进思考并操作解决问题的过程中，帮助学员掌握真正过硬的解决业务问题的数据挖掘能力。

这种教学方式能够引发学员的独立思考及主观能动性，学员掌握的技能知识可以快速转化为自身能够灵活应用的技能，在面对不同场景时能够自由发挥。

谷歌人工智能写作项目：小发猫

如何运用机器学习解决复杂系统的预测问题

现实生活中预测通常难做到精准，比如股市，自然灾害，长久的天气预测AI爱发猫。

在市场这种系统里，有两个关键要素，一个是个体和个体之间的互相作用（博弈），一个是系统与外部环境（地球资源）之间的相互作用（反馈），因此而形成复杂模式（Pattern），这种模式通常很难预测。

而这种类型的系统我们通常定义为复杂系统：由大量单元互相作用组成的系统，由于集体行为的非线性（总体不等于个体之和），而形成具备无数层级的复杂组织。或者称为涌现性。

复杂科学即研究复杂系统的一套联系不同尺度现象的数学方法。在人类试图理解那些和自身生存最相关的东西时，而经典物理学的还原论（把整体拆成部分）思维的却不适用。

物理预测的核心方法是动力学方法,即人们由实验出发抽象出引起运动改变的原因,把这些原因量化为变量，用微分方程来描述,从而取得对整个未来的精确解，如麦克斯韦方程组可以预测从光波的速度到磁线圈转动发电任何的电磁学现象。

而你却无法通过了解市场上每个人的特性就很好的预测整个市场走势。复杂系统难以预测的原理可以从以下几方面理解：1，高维诅咒:构成现实生活的系统往往被大量未知变量决定，比如生物由无数的细胞组成。

基因，是由无数独立的单元组成的，市场，由无数的交易者组成，这些用物理的描述方法来预测，就是极高维度空间的运动问题。维度，首先使得再简单的方程形式都十分复杂难解。

此处补充维度的科学定义：维度是一个系统里可以独立变化的变量个数，一个有非常多变量的系统，如复杂网络，假如每个变量不是互相独立，也可以是低维系统。

比如一个军营里的方阵，即使人数众多，也会因为大家都做着一模一样的动作，而只有一个独立变量，成为一维系统。

2，非线性诅咒：高维度系统的维度之间具有复杂的相互作用，导致我们不能把系统分解为单一维度然后做加法的方法研究。高维加上非线性我们将得到对初级极为敏感的混沌系统。

非线性的一个重要推论是组织的产生，因为非线性，1+1可以大于2或小于2，为组织的产生提供了理论基础。

3，反馈诅咒：复杂系统中反馈无处不在，即使是一个简单的一维系统，反馈也可以使得系统的特性很丰富，最典型的反馈是某种记忆效应，使得系统产生复杂的路径依赖，此刻你的现实与历史深刻关联，而关联方法导致复杂的模式产生。

反身性是一种由预测产生的特殊反馈，当你预测股市的价格，会引起你的交易策略变化从而影响你的预测，是为反身性。

4，随机诅咒:复杂系统往往含有不包含确定规律的随机噪声，加上这些噪声，系统的行为更加难预测，而很多时候，我们也无法区分一个系统里发现的模式是噪声导致还是由于元件之间的相互作用。

这四大诅咒是这些系统难以理解和预测的原因，而这个时候，复杂系统和机器学习的方法论可以作为一种非常有力的手段帮我们从复杂性中挖掘模式。

第一种方法叫模型驱动（Modelapproch），即想办法找到事物变化的原因，用一种降维的思路列出微分方程，即从非常繁复的要素中化简出最重要的一个或者两个，从而化繁琐为简单，不管三七二十一先抓住主要矛盾。

其中的范例便是非线性动力学。注：此处我们有两个基本假设让非线性动力学得到简化，一个是只讨论连续变量，另一个是不考虑系统内的随机性（无噪声项）。

1，如果一个系统可以化简到一维，那么你只需要研究其内部存在的反馈性质并描述它即可。负反馈导致稳定定点产生，正反馈导致不稳定性。很多事物多可以抽象为一维系统，包括简单环境下的人口增长问题。

2，如果一个系统可以化简到二维，那么你需要研究两个维度间的相互作用，最终可以互为负反馈而稳定下来，互为正反馈而爆发，或者产生此消彼长的周期轨道。

比如恋爱中的男女是个二维系统，互为负反馈就回到普通朋友，互为正反馈在爱欲中爆发-比如罗密欧与朱丽叶，此消彼长那是玩捉迷藏的周期游戏。3，如果一个系统是三维的，则混沌可能产生。

混沌即对初值极为敏感的运动体系。你一旦偏离既定轨道一点，即几乎无法回去。

4，如果一个系统大于三维，那么你需要用一个复杂网络描述它的运动，这个时候我们可以得到我们复杂系统的主角-collectivephenomena&emergence。

复杂网络的性质主要取决于单体间相互作用的方式，以及系统与外界交换能量的方法，这两者又息息相关。最终我们得到涌现。

复杂网络的动力学往往混沌难以预测，对于高维混沌系统，第一个方法也只能给出对事物定性的描述，而我们可以祭出我们的第二种方法:先不管数据背后错综复杂的动因，而是直接以数据驱动我们的预测。

这其中的哲学内涵即贝叶斯分析框架：即先不预测，而是列出所有可能的结果及根据以往知识和经验每种结果发生的可能性（先验概率），之后不停吸收新观测数据，调整每种可能结果的概率大小（后验概率），将想得到的结果概率最大化（MAP）最终做出决策。

如果你把贝叶斯分析的框架自动化，让电脑完成，你就得到机器学习的最基本框架。机器学习如果可以进入一个问题中，往往要具备三个条件：1，系统中可能存在模式2，这种模式不是一般解析手段可以猜测到的。

3，数据可以获取。如果三点有一点不符，都很难运用机器学习。机器学习的一个核心任务即模式识别，也可以看出它和刚才讲的复杂系统提到的模式的关系。

我们讲复杂系统难以通过其成分的分析对整体进行预测，然而由于复杂系统通常存在模式，我们通常可以模式识别来对系统进行归类，并预测各种可能的未来结果。

比如一个投行女因为工作压力过大而自杀了，那么在她之前的活动行为数据（比如点击手机的某些app的频率）里是否可能存在某种模式?这种模式是否可以判定她之后的行为类型？

并且这个过程可否通过历史数据由计算机学习？如果都可以，这就是一个机器学习问题。

刚才讲的几大诅咒，高维，非线性，复杂反馈，随机性也称为机器学习需要核心面对的几大困难，由此得到一系列机器学习的核心算法。

机器学习在现实生活中被用于非常多的方面，最常见的如商务洞察（分类，聚类，推荐算法），智能语音语义服务（时间序列处理，循环网络），各种自动鉴别系统如人脸识别，虹膜识别，癌症检测（深度卷积网络），阿尔法狗，机器人控制（深度强化学习算法）。

而由方法论分，又可以分成有监督学习，无监督学习，和强化学习。

在八月份的巡洋舰科技的《机器学习vs复杂系统特训课》中，我着重讲了几种机器学习的基本方法：1.贝叶斯决策的基本思想：你要让机器做决策，一个基本的思路是从统计之前数据挖掘已有的模式（pattern）入手，来掌握新的数据中蕴含的信息。

这个pattern在有监督学习的例子里，就是把某种数据结构和假设结论关联起来的过程，我们通常用条件概率描述。

那么让机器做决策，就是通过不停的通过新数据来调整这个数据结构（特征）与假设结果对应的条件概率。

通常我们要把我们预先对某领域的知识作为预设（prior），它是一个假设结果在数据收集前的概率密度函数，然后通过收集数据我们得到调整后的假设结果的概率密度函数，被称为后验概率（posterior），最终的目标是机器得到的概率密度函数与真实情况最匹配，即Maximumaposterior(MAP)，这是机器学习的最终目标。

2，朴素贝叶斯分类器到贝叶斯网络：分类，是决策的基础，商业中要根据收集客户的消费特征将客户分类从而精准营销。金融中你要根据一些交易行为的基本特征将交易者做分类。

从贝叶斯分析的基本思路出发我们可以迅速得到几种分类器。

首当其冲的朴素贝叶斯分类器，它是机器学习一个特别质朴而深刻的模型：当你要根据多个特征而非一个特征对数据进行分类的时候，我们可以假设这些特征相互独立（或者你先假设相互独立），然后利用条件概率乘法法则得到每一个分类的概率，然后选择概率最大的那个作为机器的判定。

图：朴素贝叶斯分类器的基本框架，c是类别，A是特征。如果你要根据做出分类的特征不是互相独立，而是互相具有复杂关联，这也是大部分时候我们面临问题的真相，我们需要更复杂的工具即贝叶斯网络。

比如你对某些病例的判定，咳嗽，发烧，喉咙肿痛都可以看做扁条体发炎的症候，而这些症候有些又互为因果，此时贝叶斯网络是做出此类判定的最好方法。

构建一个贝叶斯网络的关键是建立图模型，我们需要把所有特征间的因果联系用箭头连在一起，最后计算各个分类的概率。

图：贝叶斯网络对MetaStaticCancer的诊断，此处的特征具有复杂因果联系贝叶斯分析结合一些更强的假设，可以让我们得到一些经常使用的通用分类器，如逻辑斯提回归模型，这里我们用到了物理里的熵最大假设得到玻尔兹曼分布，因此之前简单贝叶斯的各个特征成立概率的乘积就可以转化为指数特征的加权平均。

这是我们日常最常用的分类器之一。更加神奇的是，这个东西形式上同单层神经网络。

图：logistic函数，数学形式通玻尔兹曼分布，物理里熵最大模型的体现3,贝叶斯时间序列分析之隐马模型：贝叶斯时间序列分析被用于挖掘存储于时间中的模式，时间序列值得是一组随时间变化的随机变量，比如玩牌的时候你对手先后撒出的牌即构成一个时间序列。

时间序列模式的预设setting即马尔科夫链，之前动力学模式里讲到反馈导致复杂历史路径依赖，当这种依赖的最简单模式是下一刻可能出现的状态只与此刻的状态有关而与历史无关，这时候我们得到马尔科夫链。

马尔科夫链虽然是贝叶斯时间序列分析的基准模型，然而现实生活中遇到的时间序列问题，通常不能归于马尔科夫链，却可以间接的与马尔科夫链关联起来，这就是隐马过程，所谓含有隐变量的马尔科夫过程。

图：隐马过程示意语音识别就是一类特别能利用隐马过程的应用，在这里语音可以看做一组可观测的时间序列，而背后的文字是与之关联的马尔科夫链，我们需要从可观测的量，按照一定的概率分布反推不可观测的量，并用马尔科夫链的观点对其建模，从而解决从语音到文字的反推过程。

当今的语音识别则用到下面紧接讲的深度学习模型。

4，深度学习刚刚讲的分类问题，只能根据我们已知的简单特征对事物进行分类，但假设我们手里的数据连需要提取的特征都不知道，我们如何能够对事物进行分类呢？

比如你要从照片识别人名，你都不知道选哪个特征和一个人关联起来。没关系，此时我们还有一个办法，就是让机器自发学习特征，因此祭出深度学习大法。

通常在这类问题里，特征本身构成一个复杂网络，下级的特征比较好确定，而最高层的特征，是由底层特征的组合确定的，连我们人类自己都不能抽象出它们。

深度学习即数据内涵的模式（特征）本身具备上述的多层级结构时候，我们的机器学习方法。从以毒攻毒的角度看，此时我们的机器学习机器也需要具有类似的多级结构，这就是大名鼎鼎的多层卷积神经网络。

深度学习最大的优势是具有更高级的对“结构”进行自动挖掘的能力，比如它不需要我们给出所有的特征，而是自发去寻找最合适对数据集进行描述的特征。

一个复杂模式-比如“人脸”事实上可以看做一个简单模式的层级叠加，从人脸上的轮廓纹理这种底层模式，到眼睛鼻子这样的中级模式，直到一个独特个体这样最高级的复杂模式，你只有能够识别底层模式，才有可能找到中级模式，而找到中级模式才方便找到高级模式，我们是不能从像素里一步到达这种复杂模式的。

而是需要学习这种从简单模式到复杂模式的结构，多层网络的结构应运而生。

图：从具体特征到抽象特征逐级深入的多级神经网络6，RNN和神经图灵机如果时间序列数据里的模式也包含复杂的多层级结构，这里和我之前说的复杂系统往往由于反馈导致复杂的时间依赖是一致的，那么要挖掘这种系统里的模式，我们通常的工具就是超级前卫的循环神经网络RNN，这种工具对处理高维具有复杂反馈的系统有神效，因为它本身就是一个高维具有复杂时间反馈的动力学系统。

图：循环神经网络，过去的信息可以通过循环存储在神经元之间当一个复杂时间序列的问题里面，每个时间点的信息都可以对未来以任何方式产生复杂影响，那么处理这种复杂性的一个办法就是用循环神经网络，让它自发学习这种复杂结构。

比如一个城市里的交通流，或者人与人之间的对话。神经图灵机是在多层卷积神经网络或递归网络基础上加上一个较长期的记忆单元，从而达到处理需要更复杂时间关联的任务，比如对话机器人。

而神经图灵机最厉害的地方在于他可以通过机器学习传统的梯度下降法反向破译一个程序，比如你写了一个python程序，你用很多不同的输入得到很多对应的输出，你可以把它给神经图灵机训练，最终本来对程序丝毫无所知的神经图灵机居然可以如同学会了这个程序。

深度学习，包括哪些？

作为人工智能最稀缺的人才之一，深度学习工程师面临近百万的缺口，成为了各大企业竞相争夺的香饽饽，月薪大都在30K-80K之间。越来越多的程序员、院校学生开始学习深度学习算法。

无论你是Python小白，还是初级算法工程师，亦或是技术骨干，甚至是技术总监，都建议你不要错过我们的《AI深度学习》。

01适合各阶段互联网人1）Python小白快速入门如果你马上面临毕业找工作，或者打算转到互联网IT行业，我们赠送的Python入门网课，可以让无Python编程基础的你迅速入门。

之后，高阶版的《AI深度学习》，可以让你系统地入门了解深度学习的前沿技术、应用成果，助你快速入行。

2）初级算法工程师的实操指南如果你是刚入行不到3年，还在打基础的初级算法工程师，《AI深度学习》会让你以企业级项目的实操开始，逐步提升能力。

课程由中科院专家亲自传授，可反复观看，让你随时随地查漏补缺，直面复杂的开发环境，比“百度一下”更精准。

3）技术骨干的进阶秘籍如果你是团队的技术骨干，《AI深度学习》可以帮助你系统梳理语音识别、图像识别、机器对话等前沿技术，搭建完整的技术体系；还能够帮你横向拓展相关领域知识，增强自身竞争力。

4）技术总监管理团队的神助攻如果你是指点技术江山的一把手，这个紧跟市场需求开发的课程，可以帮助你快速掌握市场技术动向。课程交流群的不同学员，也可以让你了解每个层级人的真实想法，管理起来更加得心应手。

毫不夸张地说，只要你的工作与人工智能有关，《AI深度学习》就会成为你求职、工作、管理团队过程中不可或缺的神助攻。

02 更系统更实用为了让每个学员都能用更短的时间学到更深的知识，我们将课程浓缩到5周、30课时，时间虽短，但内容更精。

6大实战项目、8大课程阶段，不论是课程的系统性还是实用性，《AI深度学习》绝对是目前最完美的存在。1）8大授课阶段8大授课阶段，循序渐进，以实操贯穿理论，避免纸上谈兵。

第一阶段：AI概述及前沿应用成果介绍第二阶段：神经网络原理及TensorFlow实战第三阶段：神经网络原理及TensorFlow实战第四阶段：生成式对抗网络原理及项目实战第五阶段：深度学习分布式处理项目实战第六阶段：深度强化学习及项目实战第七阶段：车牌识别项目实战第八阶段：深度学习前沿技术简介只有这样内容深入的课程，才能真正帮你快速建立、梳理相关知识体系，让你的成长更有方向、更高效。

2）严选6个项目实战对比市面上的同类型课程，大都是局限在某一品类的项目训练，项目数量控制在3个左右。《AI深度学习》有6大实战项目，都是来自于企业的项目实操。

学员在学习期间，直面复杂的开发环境，摆脱开源项目理想化开发，更加符合企业真实需求。

项目包含“手写数字识别”“文学作品文本特征向量化实战”“基于GAN生成人脸图片”“基于分布式GAN人脸图片生成”“基于深度强化学习的迷宫游戏”“企业级车牌识别”6个项目。

涵盖行业内75%技术要点，如语音识别（微信语音转文字、Siri、天猫精灵等）、图像识别（火车站人脸识别、人脸打卡、办卡人脸识别、健康码人脸识别、违章拍摄、百度识图、淘宝识图、有声绘本）、机器对话（微软小冰、同声翻译等）都有所掌握，满足各类就业需求。

此外，课程中的知识点，都经过中科院专家实操验证，任何一个知识点拿来就能用，真正助你职场升级，是一份实打实的深度学习「葵花宝典」。

3）中科院专家多轮打磨为了让内容更具系统性、实用性，课程全部由中科院专家亲自授课答疑。可以说，如果你想要提升技能，在专业领域更上一步，《AI深度学习》可以成为你当下的选择！

简述深度学习的基本方法。

深度学习，需要怎么做到？

最佳答案1、深度学习，首先要学会给自己定定目标（大、小、长、短），这样学习会有一个方向；然后要学会梳理自身学习情况，以课本为基础，结合自己做的笔记、试卷、掌握的薄弱环节、存在的问题等，合理的分配时间，有针对性、具体的去一点一点的去攻克、落实。

2、可以学习掌握速读记忆的能力，提高学习复习效率。速读记忆是一种高效的学习、复习方法，其训练原理就在于激活“脑、眼”潜能，培养形成眼脑直映式的阅读、学习方式。

速读记忆的练习见《精英特全脑速读记忆训练》，用软件练习，每天一个多小时，一个月的时间，可以把阅读速度提高5、6倍，记忆力、注意力、思维、理解力等也会得到相应的提高，最终提高学习、复习效率，取得好成绩。

如果你的阅读、学习效率低的话，可以好好的去练习一下。3、要学会整合知识点。把需要学习的信息、掌握的知识分类，做成思维导图或知识点卡片，会让你的大脑、思维条理清醒，方便记忆、温习、掌握。

同时，要学会把新知识和已学知识联系起来，不断糅合、完善你的知识体系。这样能够促进理解，加深记忆。4、做题的时候要学会反思、归类、整理出对应的解题思路。

遇到错的题（粗心做错也好、不会做也罢），最好能把这些错题收集起来，每个科目都建立一个独立的错题集（错题集要归类），当我们进行考前复习的时候，它们是重点复习对象，保证不再同样的问题上再出错、再丢分。

深度学习学什么？

深度学习主要学的有：神经网络、BP反向传播算法、TensorFlow深度学习工具等。

深度学习英文全称为：deeplearning，是机器学习的分支，主要是把人工神经网络当作构架，进而对数据进行表征学习的算法。

至今已有数种深度学习框架，如深度神经网络、卷积神经网络和深度置信网络和递归神经网络已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

另外，“深度学习”已成为类似术语，或者说是神经网络的品牌重塑。通过多层处理，逐渐将初始的“低层”特征表示转化为“高层”特征表示后，用“简单模型”即可完成复杂的分类等学习任务。

由此可将深度学习理解为进行“特征学习”或“表示学习”。以往在机器学习用于现实任务时，描述样本的特征通常需由人类专家来设计，这成为“特征工程”（featureengineering）。

众所周知，特征的好坏对泛化性能有至关重要的影响，人类专家设计出好特征也并非易事；特征学习（表征学习）则通过机器学习技术自身来产生好特征，这使机器学习向“全自动数据分析”又前进了一步。

而深度学习的主要应用场景为：语音识别微软研究人员通过与hinton合作，首先将RBM和DBN引入到语音识别声学模型训练中，并且在大词汇量语音识别系统中获得巨大成功，使得语音识别的错误率相对减低30%。

但是，DNN还没有有效的并行快速算法，很多研究机构都是在利用大规模数据语料通过GPU平台提高DNN声学模型的训练效率。

在国际上，IBM、google等公司都快速进行了DNN语音识别的研究，并且速度飞快。国内方面，阿里巴巴，科大讯飞、百度、中科院自动化所等公司或研究单位，也在进行深度学习在语音识别上的研究。

自然语言处理等其他领域很多机构在开展研究，2013年TomasMikolov,KaiChen,GregCorrado,JeffreyDean发表论文EfficientEstimationofWordRepresentationsinVectorSpace建立word2vector模型，与传统的词袋模型（bagofwords）相比，word2vector能够更好地表达语法信息。

深度学习在自然语言处理等领域主要应用于机器翻译以及语义挖掘等方面。

如何评价最新的深度学习框架cxxnet

这篇文章介绍的是关于并行深度神经网络的设计。在今年发布的两个机器学习项目中，cxxnet是最精彩的一个。

因为它包含了我们团队可以发挥到的机器学习和系统的各个方面的极致：除了前沿的深度学习之外，它的两个独到特点也是让我们在设计实现中最为享受的1)灵活的公式支持和极致的C++模板编程；深度神经网络的实现大致分两类：以python为主的编程效率派和以c++为核心的为代表的追逐性能派。

前者支持直接tensor的计算，而后者往往需要给每个神经网络的层和更新公式编写独立的cudakernel。编程效率派认为机器学习程序员应该是写公式来达到代码最大的可读性和易改写性。

而很多以C++为核心的代码之所以没有支持非常灵活的张量计算，是因为因为运算符重载和临时空间的分配会带来效率的降低。cxxnet的核心mshadow在这两者之间做了一个平衡。

使得我们在不损失效率的前提下可以通过模板编程技术允许开发者编写和matlab/numpy类似的代码，并且在编译时自动展开成优化的kernel。

其背后的expressiontemplate技术是我最喜欢的c++trick之一。非常值得最求效率抽象和优美的同学了解。

因为采用了mshadow作为核心，直接导致cxxnet的各种实现可以非常简单可读，编写一份代码就可以在GPU和CPU上面跑。使得其在代码简洁和可扩展上更加容易。

2)通用的并行参数共享和更新方案多卡和多机计算一直是大规模机器学习中一个让人兴奋的话题。提到神经网络并行，最让我头疼的是可以选择的方案很多，而都涉及到不同的hack。

单机多卡到底是用P2P，还是拷贝到内存，是用stream开始开多线程。分布式到底是用parameterserver，MPI还是自己写一个框架。可以选择的方法很多。

设计出一个分布式的代码不难，困难的是如何让并行的接口自然的独立出来，使得其不会影响其它部分的实现。经过不断地考虑，最终我决定采用了mshadow-ps这样一个统一的参数共享接口。

简单的说，mshadow-ps是一个GPU的异步parameterserver接口（应该也是目前为止唯一一个，因为GPU线程模型和CPU不同，原有的的ps库并不能直接用于GPU）。

异步通信对于神经网络的更新非常重要。在backprop算法中，我们很早就可以获得梯度并且进行梯度同步，而只有到下一次forward到对应层的时候才会需要这个weight。

我和limu合作设计了ps风格的三个接口来解决这样的同步问题，Push/PullReq和Pullwait。

当获backprop得梯度的时候直接调用push把梯度发送出去，并且调用pullreq请求结果。Push和Pullreq都是异步操作，背后会有单独的线程同时完成数据拷贝同步，以及拷回的操作。

而当我们需要weight之前在调用Pullwait来等待可能没有完成的操作。

这样简单的三个接口，使得我们可以经过很少的改动就可以设计出多卡和分布式的神经网络来，并且在调用这些接口的时候完全不需要关系同步的实现是什么。

值得一提的是，这样的编程模式把多GPU，分布式以及各个通信框架直接结合起来。mshadow-ps支持单机多卡的GPUPS，以及基于parameter-server的分布式PS实现。

同样的也可以很容易MPI来支持多机通信。使得一个统一的接口，可以完成从单机多卡到分布式各种后端实现的支持。

并且因为高效的异步通信，使得我们可以在alexnet上面达到linearspeedup(注：并行的难度在于计算和通信的时间比，weight少更加复杂的网络反而更加容易线性加速，而alexnet是非常困难的例子)。

经过团队里面大家不断地努力，cxxnet的V2终于可以和大家见面了。除了上述介绍的技术亮点之外，还有各种好玩的特性。

现在把特点总结如下：1.轻量而齐全的框架：我们尽力维持最小的依赖库实现最多的功能。推荐环境下仅需要CUDA,OpenCV,MKL或BLAS即可编译。

2.强大的统一的并行计算接口：基于mshadow-ps的并行计算接口采用了一份代码解决了多GPU，多机的异步同步。同步和计算重叠，在多份测试中均可以得到线性加速比。

3.易于扩展的代码结构：cxxnet计算核心由mshadow提供。Mshadow使用户可以编写numpy/matlab风格的代码，但仍具备手动优化cuda代码的灵活性。

CPU和GPU共享同一份代码，在编译期间通过模板自动翻译成CUDA/MKL调用。另外一些特性包括：4.CuDNN支持：Nvidia原生卷积支持，可加速计算30%！

5.及时更新的最新技术：我们将及时跟进学术界的动态，例如现在已经支持MSRA的ParametricRelu和Google的BatchNormalization6.Caffe模型转换：支持将训练好的Caffe模型直接转化为cxxnet模型（本周内上线！

）7.方便的语言接口：在Python中直接进行训练，方便可视化。Matlab也将很快提供我们相信可以通过最简洁清晰的代码来完成高效的C++深度神经网络实现。

我们也欢迎对于系统和机器学习有兴趣的同学加入到项目中来。

机器学习的基本框架体系是什么?并分模块进行阐述。

Boehm：运用现代科学技术知识来设计并构造计算机程序及为开发、运行和维护这些程序所必需的相关文件资料。

IEEE在软件工程术语汇编中的定义：软件工程是：1.将系统化的、严格约束的、可量化的方法应用于软件的开发、运行和维护，即将工程化应用于软件；2.在1中所述方法的研究FritzBauer在NATO会议上给出的定义：建立并使用完善的工程化原则，以较经济的手段获得能在实际机器上有效运行的可靠软件的一系列方法。

目前比较认可的一种定义认为：软件工程是研究和应用如何以系统性的、规范化的、可定量的过程化方法去开发和维护软件，以及如何把经过时间考验而证明正确的管理技术和当前能够得到的最好的技术方法结合起来。

《计算机科学技术百科全书》中的定义：软件工程是应用计算机科学、数学及管理科学等原理，开发软件的工程。软件工程借鉴传统工程的原则、方法，以提高质量、降低成本。

其中，计算机科学、数学用于构建模型与算法，工程科学用于制定规范、设计范型(paradigm)、评估成本及确定权衡，管理科学用于计划、资源、质量、成本等管理。

软件工程学的内容软件工程学的主要内容是软件开发技术和软件工程管理．软件开发技术包含软件工程方法学、软件工具和软件开发环境；软件工程管理学包含软件工程经济学和软件管理学。

软件工程基本原理著名软件工程专家B.Boehm综合有关专家和学者的意见并总结了多年来开发软件的经验，于1983年在一篇论文中提出了软件工程的七条基本原理。（1）用分阶段的生存周期计划进行严格的管理。

（2）坚持进行阶段评审。（3）实行严格的产品控制。（4）采用现代程序设计技术。（5）软件工程结果应能清楚地审查。（6）开发小组的人员应该少而精。（7）承认不断改进软件工程实践的必要性。

B.Boehm指出，遵循前六条基本原理，能够实现软件的工程化生产；按照第七条原理，不仅要积极主动地采纳新的软件技术，而且要注意不断总结经验。

软件工程(SoftWareEngineering)的框架可概括为：目标、过程和原则。(1)软件工程目标：生产具有正确性、可用性以及开销合宜的产品。正确性指软件产品达到预期功能的程度。

可用性指软件基本结构、实现及文档为用户可用的程度。开销合宜是指软件开发、运行的整个开销满足用户要求的程度。

这些目标的实现不论在理论上还是在实践中均存在很多待解决的问题，它们形成了对过程、过程模型及工程方法选取的约束。(2)软件工程过程：生产一个最终能满足需求且达到工程目标的软件产品所需要的步骤。

软件工程过程主要包括开发过程、运作过程、维护过程。它们覆盖了需求、设计、实现、确认以及维护等活动。需求活动包括问题分析和需求分析。问题分析获取需求定义，又称软件需求规约。需求分析生成功能规约。

设计活动一般包括概要设计和详细设计。概要设计建立整个软件系统结构，包括子系统、模块以及相关层次的说明、每一模块的接口定义。详细设计产生程序员可用的模块说明，包括每一模块中数据结构说明及加工描述。

实现活动把设计结果转换为可执行的程序代码。确认活动贯穿于整个开发过程，实现完成后的确认，保证最终产品满足用户的要求。维护活动包括使用过程中的扩充、修改与完善。

伴随以上过程，还有管理过程、支持过程、培训过程等。(3)软件工程的原则是指围绕工程设计、工程支持以及工程管理在软件开发过程中必须遵循的原则。

软件工程必须遵循什么原则围绕工程设计、工程支持以及工程管理已提出了以下四条基本原则：(1)选取适宜的开发模型该原则与系统设计有关。

在系统设计中，软件需求、硬件需求以及其它因素间是相互制约和影响的，经常需要权衡。因此，必需认识需求定义的易变性，采用适当的开发模型，保证软件产品满足用户的要求。

(2)采用合适的设计方法在软件设计中，通常需要考虑软件的模块化、抽象与信息隐蔽、局部化、一致性以及适应性等特征。合适的设计方法有助于这些特征的实现，以达到软件工程的目标。

(3)提供高质量的工程支撑工欲善其事，必先利其器。在软件工程中，软件工具与环境对软件过程的支持颇为重要。软件工程项目的质量与开销直接取决于对软件工程所提供的支撑质量和效用。

(4)重视软件工程的管理软件工程的管理直接影响可用资源的有效利用，生产满足目标的软件产品以及提高软件组织的生产能力等问题。因此，仅当软件过程予以有效管理时，才能实现有效的软件工程。

软件工程是指导计算机软件开发和维护的工程学科。采用工程的概念、原理、技术和方法来开发与维护软件，把经过时间考验而证明正确的管理技术和当前能够得到的最好的技术方法结合起来，这就是软件工程。