人工智能语言python培训

（报告出品方/作者：申万宏源，刘洋）

1. AI产业链：从算力到应用

1.1 AI行业产业链：工作流程视角

设计、实现、运行：算法设计环节：机器视觉、语音识别、自然语音处理、知识图谱；算法实现环节：深度学习框架，训练、推理部署，对模型的调参优化；算法运行环节：AI芯片和AIDC超算中心，提供硬件基础。

1.2 AI平台层：巨头必争之地

AI平台层：支撑AI大规模训练生产、部署的技术体系；包括训练框架、模型生产平台、推理部署框架、数据平台。训练、推理部署框架是核心：机器学习框架或深度学习框架：AI开发依赖的环境安装、部署、测试以及不断迭代改进准确性和性能调优，框架目的是为了简化、加速和优化这个过程。避免重复发明轮子，而专注于技术研究和产品创新。巨头竞争的核心点，各大厂建设算法模型数据库，将其封装为软件框架，为应用开发提供集成软件工具包，为上层应用提供了算法调用接口。

AI+安防、AI+金融是标配：智慧城市和安防仍然是AI机器视觉最成熟的落地场景；安防+金融合计收入在四小龙中占都在50%以上。云从科技：继续探索AI在社区、政务、金融更深层次全栈应用。 AI+手机仍然是最理想的收费场景：虹软、商汤、旷视该业务毛利率可能都在80%以上，纯SDK收费，理想的场景；但规模后续增长有限， AI+汽车、 AI+教育、AI+零售可能为新的增长空间：商汤科技：AI+汽车，探索机器视觉在L2+自动驾驶应用。旷视科技：探索AIoT在物流、智造等多行业的广泛应用。

2. AI平台层：何种训练模型可以脱颖而出？

2.1 AI平台：少量企业参与的AI高地之争

平台层：训练软件框架：实现深度学习训练算法的模块化封装。模型生产平台：实现模型的工业级生产。推理部署框架：实现模型生产完成后的工业级高效、自动的部署。数据平台：包括数据采集、数据标注、数据生产、数据存储等功能。

2.2 训练框架：调节参数，生成参数

训练框架是AI的重要基石，也是AI发展战略的制高点，当算法变成改造甚至颠覆软件行业的力量时，最后核心就是看这些AI的公司有没有平台化的能力，即“能够批量、高效、比竞争对手更及时地供应优质算法” 。

训练框架的功能：1、基于图（Graph）的张量计算引擎（基础的概率统计、线性代数的计算模块）。 2、大量的外围库（训练样本库、应用数据库、模型参数库、模型代码库） 3、大量的领域模型（以文字处理、语音识别、图像处理、目标识别等为主）。

软件框架是整个AI技术体系的核心，巨头以开源软件框架为核心打造生态：通过使用者和贡献者之间的良好互动和规模化效应，形成实质标准体系和生态; 除苹果等少数公司外，开源是主流。

2.3 从Theano到tensorflow

Theano：较早的Python深度学习框架，奠定计算图为框架核心、GPU加速理念

始于2007，最老牌和最稳定的库之一，第一个有较大影响力的Python深度学习框架；优点：作为早期深度学习框架，结合了CAS和优化编译器，优势明显，用于定义、优化和求值数学表达式，效率高，非常适用于多维数组。会对用符号式语言定义的程序进行编译，来高效运行于 GPU 或 CPU上。缺点：工程设计薄弱。Theano不支持分布式计算，在工程设计上有较大的缺陷，有难调试，构建图慢的缺点。2017年后不再维护。

Tensorflow：全工具支持的AI开源框架

2015年11月Google推出机器学习开源工具TensorFlow。TensorFlow和Theano设计理念相近：有很大一批共同的开发者，都是基于计算图实现自动微分系统。 TensorFlow 使用数据流图进行数值计算。基于计算图实现自动微分系统，使用数据流图进行数值计算，图中的节点代表数学运算，图中的线条则代表在这些节点之间传递的张量（多维数组）。主流编程工具基本全支持：支持Python、C++、Java、Go、R等。库可在ARM架构上编译和优化，用户可以在各种服务器和移动设备上部署自己的训练模型。背后Google巨大影响力：很多企业都在基于TensorFlow 开发自己的产品或将 TensorFlow整合到自己的产品中去，如Airbnb、Uber、Twitter、英特尔、高通、小米、京东等。

2.3.1 Tensorflow出现的问题

Tensorflow：过于复杂和全面的设计导致实际使用生产力低下；过于复杂的系统设计：TensorFlow在GitHub代码仓库的总代码量超过100万行，维护和学习难度极大；频繁变动的接口：TensorFlow的接口一直处于快速迭代之中，并且没有很好地考虑向后兼容性；接口设计过于晦涩难懂：创造了图、会话、命名空间、PlaceHolder等诸多抽象概念；文档混乱脱节：TensorFlow作为一个复杂的系统，文档和教程众多，但缺乏明显的条理和层次。（报告来源：未来智库）

2.3.2 从Caffe到PyTorch

Caffe：早期有较高完备性和易用性的框架；Convolutional Architecture for Fast Feature Embedding，用于特征提取的卷积架构；最初发起于 2013年9月，核心语言C++。作者贾扬清，曾参与过TensorFlow开发。优点：在于较为完备和易用性。代码和框架都比较简单，代码易于扩展，运行速度快，也适合深入学习分析。在Caffe之前，深度学习领域缺少一个完全公开所有的代码、算法和各种细节的框架。缺点：Caffe不支持分布式，不够灵活。套用原有模型很方便，但个性化就要读源代码，常常需要用 C++和 CUDA编程，Caffe网络结构都是以配置文件形式定义，缺乏以计算图为代表的相对自由灵活、可视化的算法表达。

随时间发展，对大型神经网络使用繁琐缺点显现。截止 2015 年，以 152 层的 ResNet 为代表的一些大型神经网络已经出现，而恰恰针对这种对于大型神经网络，Caffe 使用起来会变得十分繁琐。 Caffe2：针对工业界的轻量化、模块化深度学习算法框架；贾扬清在2016年2月加入Facebook，推出Caffe2go。2017年4月Facebook开源Caffe2。优点：定位于工业级、可跨平台部署，将AI生产工具标准化。Caffe2开发重点是性能和跨平台部署，更注重模块化，支持大规模的分布式计算，支持跨平台。

2.4 国内开源架构：百度Paddle、清华Jittor

PaddlePaddle：国内第一个开源神经网络框架；2016年8月，百度在Github上100%开源内部使用多年的深度学习平台PaddlePaddle；中文环境下较多的优势：1）能够应用于自然语言处理、图像识别、推荐引擎等多个领域，其优势在于开放的多个领先的预训练中文模型，适应中文环境。2）模型库丰富，来自百度各个业务部门贡献；3）较多企业级的包，可以直接在产业界落地使用；4）兼容大量国产AI芯片；整体来看反馈使用感受类似PT，我们对国产开源深度学习框架有极大期待！劣势：使用习惯、社区人群数、普及度和海外框架相比有差距，部分模型实现过程有优化空间。

2.5 开源框架的选择：规模效应与生态

四大顶级深度学习框架阵营可以满足绝大部分开发者要求；社区规模效应：维护力量、贡献人员决定了算法库扩展及时性、API水平，软件框架规模效应较强。科研和工程落地，前者需要有足够的灵活度和易用性，而后者需要的是部署和性能，PT和TF分别对应两种特性，可以满足绝大部分使用者要求。

目前深度学习框架发展趋势：1、增加对Python的支持，动态图应用； 2、支持分布式和移动端运行平台； 3、前端的编程接口更加灵活，设计需要兼容简单高效的命令式和逻辑清晰的声明式；4、训练速度不断提高：支持单机多卡/多机多卡等训练方式；对网络优化减枝以减小训练耗时的同时；提升底层计算硬件单元的计算能力。

3. AI大模型：为何更大的模型成为行业新趋势

3.1 行业更新热点在“大模型”

大规模预训练模型（大模型）成为AI算法领域的热点；Double Descent现象。传统机器学习里，模型过小则欠拟合，模型过大则过拟合。深度学习里 Double Descent现象在2018年揭示，随着模型参数变多，Test Error是先下降，再上升，然后第二次下降；原则上，在成本可接受的情况下，模型越大，准确率越好。大规模预训练：GPT(Generative Pre-Training)，是OpenAI在2018年提出的模型，利用Transformer 模型来解决各种自然语言问题，例如分类、推理、问答、相似度等应用的模型。GPT采用了Pretraining + Fine-tuning的训练模式，使得大量无标记的数据得以利用，大大提高了这些问题的效果。

3.2 OpenAI ：GPT-3

GPT-3：更少的领域数据、且不经过精调步骤去解决问题； GPT-2舍弃了模型Fine-Tuning过程，不再规定任务，转向容量更大、无监督训练、更加通用； GPT-3继续增加参数：具有1,750亿个参数的自然语言深度学习模型（GPT-2 100倍）。该模型经过了将近0.5万亿个单词的预训练，并且在不进行微调的情况下，可以在多个NLP基准上达到最先进的性能。 GPT-3 在许多 NLP 数据集上均具有出色的性能，包括翻译、问答和文本填空任务，这还包括一些需要即时推理或领域适应的任务，例如给一句话中的单词替换成同义词，或执行3位数的数学运算。（报告来源：未来智库）

3.3 微软和英伟达：MT-NLG

2021年10月微软和英伟达推出迄今为止训练最大最强的语言模型MT-NLG ； MT-NLG是最大最强的生成语言模型（Generative Language Model）；基础设施：英伟达 A100 Tensor Core GPU 和 HDR InfiniBand 网络支撑的 SOTA 超级计算集群；软件设计：使用来自 Megatron-LM 的 tensor-slicing 来扩展节点内的模型，并使用来自 DeepSpeed 的 pipeline 并行来跨节点扩展模型。擅长应用：完成预测（Completion prediction)；阅读理解（Reading comprehension)；常识推理（Commonsense reasoning）；自然语言推论（Natural language inferences）；词义消歧（Wordsense disambiguation）。

3.4 Google：Switch Transformers

1.6万亿参数的Switch Transformers；稀疏激活模型：此模型可以保证计算成本基本保持不变的同时允许网络拥有巨量的参数。谷歌改进了专家混合范式(MoE，Mixture-of-Experts)层；图：Switch Transformer编码块；通过简化MoE，得到了一个易于理解、易于训练的体系结构，该结构还比同等大小的密集模型具有更大的采样效率。

可扩展、高效的自然语言学习模型

预训练、微调和多任务训练表现出色。但是参数量和任务效果并非完全等比例扩大； Switch-Base是基于T5-Base的MoE稀疏扩展，参数规模是T5-Large的10倍，也就是说内存开销是T5的10倍，算力开销是T5-Large的29%；右表格的下游任务对比来看，在同样的算力开销下，Switch-Base的效果比T5-Base整体上要好，这个优势是通过33倍的内存开销换取的；但是同时，Switch-Base在参数量比T5-Large 大了10倍的情况下，效果比T5-Large要差一些。

4. AI明星：商汤、旷视自研平台亮点

4.1 商汤：Sense Core算力、平台、算法全覆盖

整体定位：高效率、低成本、规模化的新型人工智能基础设施；算力层：大型AI计算中心AIDC ；在上海临港建设大型人工智能计算中心（AIDC），预计能够产生每秒3.74百亿亿次浮点运算的总算力。平台层：SenseParrots，视觉算法训练框架。高效利用GPU集群算力，训练单个大模型时可以在一千块GPU上取得超过90%的加速效率，在业内处于领先水平; 算法层：超过22000个算法模型；与香港中文大学商汤联合实验室共同打造了算法开源计划OpenMMLab，开源算法训练及推理模型，与外部社区共同构建创新生态; GitHub上超40000颗星，亚洲星数最高，与国内其他开源框架总星数相当。

4.2 旷视：Brain++ AI生产力平台

深度学习天元MegEngine：特色是训练推理一体，静态图动态图都有优化； 2015年开始搭建，针对当年Caffe架构不足，旷视Brain++在一开始就确立了要以计算图的方式来进行框架搭建的思路，大思路正确；2020年3月开源MegEngine；2020年9月推出Brain++商业版。

优势：1）训练推理一体化，训练结果可直接进行用于产品推理、封装。部署时自动删除冗余代码；2）静态图性能高、占用资源少且易于部署、动态图简单灵活、方便调试且易于上手；3）具备Pythonic的 API，支持PyTorch Module，直接导入方便；在特定领域如机器视觉模型ResNet 18、ResNet50、 MobileNet v2和 ShuffleNet V2上优于其它主流框架。社区反馈问题：部分支持还不够完善，模型、数据集不够丰富。（报告来源：未来智库）

5. AI碎片化问题：软件公司应对的两种路径熟优？

5.1 AI落地和碎片化需求同时出现

业界在2015-2017年后开始发生变化，AI走出实验室和商业模式转变：工业场景更复杂的逻辑：编程模式从静态网络结构描述向动态计算过程转变； SDK商业模式可能无法在国内落地：早期试图复制海外SDK销售路线，但这一模式无法在国内复制；从单纯追求模型精度到平衡：不再不惜代价地追求大模型高精度，而是更多地关注性能和代价的平衡；并开始让AI去解决AI研发过程中的重复劳动；碎片化场景可能才是客户付费意愿关键点；以占AI上市公司收入重要（达到近50%）的政府场景为例：标准化人脸识别已经无法形成差异化，碎片化场景如：特殊的交通事故、道路塌陷及火灾等，伴随着极具体的要求，客户付费意愿显著提升；无论是安防还是银行，客户需要的不是单个模块或开发包，也不具备集成SDK的能力，而是一套定制化的解决方案。

5.2 物流：传统企业方案包含大量自研硬件

大华智慧物流优势：除了AI视觉外，传统RFID/工业面阵相机/OCR等传统机器视觉能力也有大量积累，有单独的机器视觉子公司华睿支持；通过软硬件一体化方案控制成本：方案宣传亮点：强调客户ROI角度投入产出，节约的人力等成本；以某纺织行业项目为例：在印染布转运劳动强度大，人工成本及库存成本高的问题场景下，公司通过部署34台防水式地牛AGV，基于 AGV智能调度平台与MES对接，完成了三个车间印染布室内外混合智能转运；减少了约54人工成本和2/3库存。同时，高端制造应用拉动了客户的订单增长，每年为客户创收超过500万元。

报告节选：

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）

C站（CSDN）能力认证中心