NVIDIA在2019年NVIDIA GPU技术会议（GTC）上宣布了Jetson纳米开发工具包，这是一款99美元的计算机，目前可供嵌入式设计师、研究人员和DIY制造商使用，在一个紧凑、易用的平台上，充分实现软件编程，为现代AI提供动力。Jetson Nano提供472个GFLOP的计算性能，四核64位ARM CPU和128核集成NVIDIA GPU。它还包括4GB LPDDR4内存，在一个高效的低功耗封装中，具有5W/10W电源模式和5V直流输入，如图1所示。

新发布的JetPack 4.2SDK为Jetson Nano提供了一个完整的桌面Linux环境，基于Ubuntu 18.04，并加速了图形，支持NVIDIA CUDA工具包10.0，以及cuDNN 7.3和TensorRT 5等库。SDK还包括本地安装流行的开源机器学习（ML）框架的能力，如TensorFlow、Pythrot、Caffe、Keras和MXNet，以及用于计算机视觉和机器人开发的框架，如OpenCV和ROS。

与这些框架和NVIDIA领先的AI平台的完全兼容性使将基于AI的推理工作负载部署到Jetson比以往任何时候都容易。Jetson Nano带来了实时的计算机视觉，并通过各种复杂的深神经网络模型进行推理。这些功能使多传感器自主机器人、具有智能边缘分析的物联网设备和先进的AI系统成为可能。甚至可以使用ML框架对Jetson Nano本地网络进行重新培训。

Jetson Nano开发包的占地面积仅为80x100mm，具有四个高速USB 3.0端口、MIPI CSI-2摄像头接口、HDMI 2.0和DisplayPort 1.3、千兆以太网、M.2 Key-E模块、MicroSD卡插槽和40针GPIO头。端口和GPIO头与各种流行的外围设备、传感器和现成的项目一起开箱即用，例如NVIDIA在GitHub上开源的3D可打印深度学习JetBot。

devkit从一个可移动MicroSD卡引导，该卡可以从任何带有SD卡适配器的PC机格式化和成像。devkit可以方便地通过Micro-USB端口或5V DC桶形插孔适配器供电。摄像头接口与价格合理的MIPI CSI传感器兼容，包括基于8MP IMX219的模块，可从Jetson生态系统合作伙伴处获得。同时支持的还有Raspberry Pi摄像头模块v2，其中包括JetPack中的驱动程序支持。表1显示了主要规格。

处理	…
CPU	64-bit Quad-core ARM A57 @ 1.43GHz
GPU	128-core NVIDIA Maxwell @ 921MHz
Memory	4GB 64-bit LPDDR4 @ 1600MHz
Video Encoder*	4Kp30
Video Decoder*	4Kp60

接口	…
USB	4x USB 3.0 A (Host)
Camera	MIPI CSI-2 x2 (15-position Flex Connector)
Display	HDMI / DisplayPort
Networking	Gigabit Ethernet (RJ45)
Wireless	M.2 Key-E with PCIe x1
Storage	MicroSD card (16GB UHS-1 recommended minimum)
Other	I/O (3x) I2C

表1. Jetson Nano 开发者套件技术规范。
*指示达到聚合吞吐量的最大并发流数。支持的视频编解码器：H.265、H.264、VP8、VP9（仅限VP9解码）

devkit是围绕260针SODIMM风格的模块上系统（SoM）构建的，如图2所示。SoM包含处理器、内存和电源管理电路。Jetson Nano compute模块为45x70mm，将于2019年6月开始发货，售价129美元（单位：1000美元），供嵌入式设计师集成到生产系统中。生产计算模块将包括16GB eMMC板载存储和增强的I/O，带有PCIe Gen2 x4/x2/x1、MIPI DSI、额外的GPIO和12通道MIPI CSI-2，用于连接最多3个x4摄像头或最多4个x4/x2配置摄像头。Jetson的统一内存子系统在CPU、GPU和多媒体引擎之间共享，提供了简化的零拷贝传感器接收和高效的处理管道。

Figure 2. 45x70mm Jetson Nano compute module with 260-pin edge connector

深度学习推理基准测试

Jetson Nano可以运行多种高级网络，包括全套本地版本的流行ML框架，如TensorFlow、Pythrot、Caffe/Caffe2、Keras、MXNet等。这些网络通过实现诸如图像识别、目标检测和定位、姿态估计、语义分割、视频增强和智能分析等鲁棒功能，可以构建自主机器和复杂的人工智能系统。

图3显示了跨在线流行模型的推断基准的结果。有关在Jetson Nano上运行这些基准的说明，请参见此处。该推断使用了批次尺寸1和FP16精度，使用了JetPack 4.2中包含的NVIDIA TensorRT加速器库。Jetson Nano在许多场景中都能获得实时性能，能够处理多个高清晰度视频流。

图3. 使用Jetson Nano和TensorRT，使用FP16精度和批量大小1的各种深度学习推理网络的性能

表2提供了完整的结果，包括Raspberry Pi 3、Intel Neural Compute Stick 2和Google Edge TPU Coral Dev Board等其他平台的性能：

表2。来自Jetson Nano、Raspberry Pi 3、Intel Neural Compute Stick 2和Google Edge TPU Coral开发板的推理性能结果

Model	Application	Framework	NVIDIA Jetson Nano	Raspberry Pi 3	Raspberry Pi 3 + Intel Neural Compute Stick 2	Google Edge TPU Dev Board
ResNet-50(224×224)	Classification	TensorFlow	36 FPS	1.4 FPS	16 FPS	DNR
MobileNet-v2(300×300)	Classification	TensorFlow	64 FPS	2.5 FPS	30 FPS	130 FPS
SSD ResNet-18 (960×544)	Object Detection	TensorFlow	5 FPS	DNR	DNR	DNR
SSD ResNet-18 (480×272)	Object Detection	TensorFlow	16 FPS	DNR	DNR	DNR
SSD ResNet-18 (300×300)	Object Detection	TensorFlow	18 FPS	DNR	DNR	DNR
SSD Mobilenet-V2 (960×544)	Object Detection	TensorFlow	8 FPS	DNR	1.8 FPS	DNR
SSD Mobilenet-V2 (480×272)	Object Detection	TensorFlow	27 FPS	DNR	7 FPS	DNR
SSD Mobilenet-V2(300×300)	Object Detection	TensorFlow	39 FPS	1 FPS	11 FPS	48 FPS
Inception V4(299×299)	Classification	PyTorch	11 FPS	DNR	DNR	9 FPS
Tiny YOLO V3(416×416)	Object Detection	Darknet	25 FPS	0.5 FPS	DNR	DNR
OpenPose(256×256)	Pose Estimation	Caffe	14 FPS	DNR	5 FPS	DNR
VGG-19 (224×224)	Classification	MXNet	10 FPS	0.5 FPS	5 FPS	DNR
Super Resolution (481×321)	Image Processing	PyTorch	15 FPS	DNR	0.6 FPS	DNR
Unet(1x512x512)	Segmentation	Caffe	18 FPS	DNR	5 FPS	DNR

表2.来自Jetson Nano、Raspberry Pi 3、Intel Neural Compute Stick 2和Google Edge TPU Coral开发板的推理性能结果

由于内存容量有限、不支持的网络层或硬件/软件限制，经常出现DNR（未运行）结果。固定功能神经网络加速器通常支持相对狭窄的用例集，硬件支持专用层操作，需要网络权重和激活以适应有限的片上缓存，以避免显著的数据传输惩罚。它们可能依赖于主机CPU来运行硬件中不支持的层，并且可能依赖于支持框架的缩减子集的模型编译器（例如TFLite）。

Jetson Nano灵活的软件和完整的框架支持、内存容量和统一的内存子系统，使其能够同时运行各种不同的网络，达到全高清分辨率，包括多个传感器流上的可变批量大小。这些基准测试代表了流行网络的一个样本，但是用户可以将各种各样的模型和定制的体系结构部署到Jetson Nano上，从而提高性能。而Jetson Nano不仅仅局限于DNN推断。它的CUDA架构可以用于计算机视觉和数字信号处理（DSP），使用包括FFTs、BLAS和LAPACK操作的算法，以及用户定义的CUDA内核。

多流视频分析

Jetson Nano可实时处理多达8个高清全动态视频流，并可部署为网络视频录像机（NVR）、智能摄像头和物联网网关的低功耗边缘智能视频分析平台。NVIDIA的DeepStream SDK使用ZeroCopy和TensorRT优化端到端推断管道，以在边缘和本地服务器上实现最终性能。下面的视频显示了Jetson Nano在8个1080p30流上同时执行目标检测，基于ResNet的模型以全分辨率运行，吞吐量为每秒5亿像素（MP/s）。

图4中的方框图显示了一个示例NVR体系结构，该结构使用Jetson Nano通过千兆以太网接收和处理多达8个数字流，并具有深度学习分析功能。该系统可以对500mp/s的H.264/H.265视频进行解码，对250mp/s的H.264/H.265视频进行编码。

图4。参考NVR系统架构，带有Jetson Nano和8x高清摄像头输入

Jetson Nano的DeepStream SDK支持计划于2019年第二季度发布。请加入DeepStream开发者计划以接收有关即将发布的通知。

JetBot

图5所示的nvidiajetbot是一个新的开源自主机器人工具包，它提供了构建一个人工智能驱动的深度学习机器人的所有软件和硬件计划，价格低于250美元。硬件材料包括Jetson Nano、IMX219 8MP摄像头、3D可打印底盘、电池组、电机、I2C电机驱动器和配件。

图5。NVIDIA JetBot基于Jetson Nano的开源深度学习自主机器人工具包，可构建成本低于250美元

该项目通过Jupyter笔记本向您提供简单易学的示例，介绍如何编写Python代码来控制电机、训练JetBot检测障碍物、跟踪人和家庭物体等对象，以及训练JetBot跟踪地板周围的路径。通过扩展代码和使用AI框架，可以为JetBot创建新的功能。

JetBot还提供ROS节点，为那些希望集成基于ROS的应用程序和功能（如SLAM和高级路径规划）的用户提供ROS Melodic支持。GitHub存储库包含JetBot的ROS节点，还包括Gazebo 3D机器人模拟器的模型，允许在部署到机器人之前在虚拟环境中开发和测试新的AI行为。Gazebo模拟器生成合成相机数据，并在Jetson Nano上运行。

Hello AI World

你好，人工智能世界提供了一个伟大的方式开始使用Jetson和体验人工智能的力量。在短短的几个小时内，您就可以在JetPack SDK和NVIDIA TensorRT的Jetson Nano Developer Kit上建立并运行一组深度学习推理演示，用于实时图像分类和目标检测（使用预先训练的模型）。本教程的重点是与计算机视觉相关的网络，并包括实时摄像机的使用。你还可以在C++中编写自己易于理解的识别程序。可用的深度学习ROS节点将这些识别、检测和分割推断功能与ROS集成到先进的机器人系统和平台中。这些实时推断节点可以很容易地放入现有的ROS应用程序中。图6突出显示了一些示例。

想要尝试训练自己模型的开发人员可以遵循完整的“两天演示”教程，其中包括图像分类、目标检测和语义分割模型的再训练和定制以及转移学习。转移学习可以微调特定数据集的模型权重，避免从头开始训练模型。迁移学习最有效的方法是在连接了NVIDIA离散GPU的PC或云实例上执行，因为训练比推断需要更多的计算资源和时间。

然而，由于Jetson Nano可以运行TensorFlow、PyTorch和Caffe等完整的培训框架，因此它还可以为那些可能无法使用其他专用培训机器并且愿意等待更长时间以获得结果的人重新进行转移学习培训。表3突出显示了从这两天到PyTorch演示教程的转移学习的一些初步结果，PyTorch使用Jetson Nano在200000图像、22.5GB ImageNet子集上培训Alexnet和ResNet-18：

Network	Batch Size	Time per Epoch	Images/sec
AlexNet	64	1.16 hours	45
ResNet-18	64	3.22 hours	16

表3. 使用Jetson Nano和转移学习在ImageNet数据集的200K图像/22.5GB子集上重新训练图像分类网络的结果

每个历元的时间是完全通过200K图像的训练数据集所需的时间。分类网络可能只需要2-5个历元就可以得到有用的结果，生产模型应该在一个离散的GPU系统上训练更多的历元，直到它们达到最大的精度。然而，Jetson Nano可以让你在一个低成本的平台上进行深度学习和人工智能的实验，让网络一夜之间重新训练。并非所有自定义数据集都像这里使用的22.5GB示例那样大。因此，每秒的图像表示Jetson Nano的训练性能，每个历元的时间随数据集大小、训练批量大小和网络复杂度而缩放。随着训练时间的增加，其他模型也可以在Jetson Nano上重新训练。

每个人都能使用 AI

Jetson Nano的计算性能、紧凑的占地面积和灵活性为开发人员创建AI驱动的设备和嵌入式系统带来了无限的可能性。从今天开始，Jetson Nano开发者工具包仅需99美元，将通过我们的主要全球分销商销售，也可以从maker Channel、Seeed Studio和SparkFun购买。访问我们的嵌入式开发者专区下载软件和文档，并浏览JetsonNano可用的开源项目。在Jetson DevTalk论坛上加入社区以获得支持，并确保分享您的项目。我们期待着看到你的创造！

关于 Dustin Franklin

Dustin是NVIDIA Jetson团队的开发人员传道者。Dustin拥有机器人和嵌入式系统的背景，喜欢在社区中提供帮助，并与Jetson合作项目。你可以在NVIDIA开发者论坛或GitHub上找到他。

查看他的全部文章>>

如果你觉得本文有帮助，敬请点赞、收藏、关注，谢谢！

英伟达 Nano 新手必读：Jetson Nano 深度学习算法模型基准性能测评相关推荐

不是Nvidia(英伟达)显卡可以安装CUDA跑深度学习算法吗？
不是Nvidia(英伟达)显卡可以安装CUDA跑深度学习算法吗? 答:不行! Cuda主要是面向Nvidia的GPU的.Intel和AMD的显示芯片都不能进行.所以,想要让cuda环境搭建在自己的Wi ...
英伟达TX2烧录系统_99美元AI计算机：英伟达推出嵌入式电脑Jetson Nano
3月19日,由英伟达举办的2019 GTC(GPU技术大会)在美国加州圣何塞举行,英伟达CEO黄仁勋发表主题演讲,正式发布了机器人开发者工具箱Jetson Nano,可以为机器人设计引入AI算力. 黄 ...
直播报名 | 小身材大能量！用英伟达智能小车Jetbot玩转深度学习
8 月 14 日(周三)下午,PaperWeekly 将携手 NVIDIA 英伟达在上海举办新一期线下沙龙. 针对具有基本 Python 编程技能的学生和开发者,本次线下沙龙将通过对市场售价 1880 ...
线下沙龙 | 小身材大能量！用英伟达智能小车Jetbot玩转深度学习
8 月 14 日(周日)下午,PaperWeekly 将携手 NVIDIA 英伟达在上海举办新一期线下沙龙. 针对具有基本 Python 编程技能的学生和开发者,本次线下沙龙将通过对市场售价 1880 ...
线下沙龙 × 上海 | 小身材大能量！用英伟达智能小车Jetbot玩转深度学习
8 月 14 日(周三)下午,PaperWeekly 将携手 NVIDIA 英伟达在上海举办新一期线下沙龙. 针对具有基本 Python 编程技能的学生和开发者,本次线下沙龙将通过对市场售价 1880 ...
英伟达新卡皇3090Ti：功耗飙至450W换来性能涨11%
行早发自凹非寺量子位报道 | 公众号 QbitAI 就在正在召开的CES 2022上,英伟达推出了比"性能猛兽"3090更强悍的新一代旗舰显卡GeForce RTX 309 ...
英伟达联手Arm CPU打造AI超算，百万兆级性能，主攻气候变化和核武建模
雷刚发自凹非寺量子位报道 | 公众号 QbitAI AI超算怎么搞?老黄祭出联谊招. 在国际超算大会上,英伟达宣布正式支持Arm CPU,为高性能计算行业开辟了一条全新途径,以构建具有极高能 ...
英伟达A100 Tensor Core GPU架构深度讲解
计算机视觉研究院专栏作者:Edison_G 现代云数据中心运行的计算密集型应用的多样性推动了NVIDIA GPU加速云计算的爆发.这种密集的应用包括人工智能深度学习训练和推理.数据分析.科学计算.基 ...
英伟达Jetson Nano的初步了解
前言:跑对比实验需要不同平台,所以需要采购一个Jetson nano,但看了一下有许多版本,不太了解,故简单调研一下. 采购平台:Jetson Nano B01 Jetson Nano b01国产开发 ...

英伟达 Nano 新手必读：Jetson Nano 深度学习算法模型基准性能测评