前言：这篇文章是深度学习和传统离散选择模型的融合。

机器学习在交通运输领域中越来越多地被应用，但 DCM（discrete choice model, 离散选择模型）和 DNN（deep neural network, 深度神经网络）这两种不同的模型长期以来一直被视为是相互矛盾的。一支麻省理工小组注意到了这种数据驱动的 ML 方法和经典理论驱动的方法之间的冲突，并尝试解决之：新加坡 - 麻省理工学院研究与技术联盟（Singapore-MIT Alliance for Research and Technology, 以下简称 “SMART”）的未来城市交通跨学科研究小组的研究人员，创建了一个称为基于理论的残差神经网络（theory-based residual neural network, 以下简称 TB-ResNet）的综合分析框架， 它结合了 DCM 和 DNN，以改善交通行为研究中使用的个人决策分析。他们的论文 Theory-based residual neural networks: A synergy of discrete choice models and deep neural networks，近期发表在交通领域顶级期刊《Transportation Research: Part B》上。SMART 的研究人员称，他们发明了 TB-ResNet 框架并证明 DCM 和 DNN 结合的有效性，这说明二者高度互补。

下面对这篇论文进行全文翻译。

基于理论的残差神经网络：离散选择模型与深度神经网络的协同

摘要：

在出行行为分析中，研究者通常将数据驱动模型和理论驱动模型视为两种完全不同甚至相互冲突的方法。然而，这两种方法是高度互补的，因为数据驱动的方法更具预测性，但解释性和鲁棒性较差，而理论驱动的方法更具解释性和鲁棒性，但预测性较差。利用它们的互补性，本研究设计了一个基于理论的残差神经网络（TB-ResNet）框架，该框架基于离散选择模型（DCMs）和深度神经网络（DNNs）的共享效用解释进行协同。TB ResNet框架很简单，因为它使用（δ，1-δ）权重来利用DCM的简单性和DNN的丰富性，并防止DCM的欠拟合和DNN的过拟合。该框架也是灵活的：基于多项logit模型（MNL-ResNets）、前景理论（PT-ResNets）和双曲线贴现（HD-ResNets）设计了三个TB-ResNets实例，并在三个数据集上进行了测试。与纯DCM相比，TB Resnet提供了更高的预测精度，并且由于TB Resnet中的DNN组件增强了效用函数，因此揭示了更丰富的行为机制。与纯DNN相比，TB RESNET可以适度改善预测，显著提高解释和稳健性，因为TB RESNET中的DCM组件稳定了效用函数和输入梯度。总的来说，这项研究表明，通过将DCMs和DNN的实用规范结合在TB ResNet框架下，使它们协同工作是可行和可取的。尽管仍存在一些局限性，但该TBResNet框架是在DCM和DNN之间为出行行为建模创造互利的重要第一步，在预测、解释和稳健性方面具有联合改进。

1.介绍

随着机器学习（ML）越来越多地应用于交通领域，我们观察到数据驱动的ML方法和经典理论驱动的方法之间的紧张关系。以出行行为研究为例：研究人员可以在随机效用最大化（RUM）框架下使用离散选择模型（DCM）或使用数据驱动方法（如ML分类器）来分析出行模式选择，而无需任何实质性的行为理解。这种紧张关系造成了选择一种方法而不是另一种方法的实际困难，并阻碍了学者在统一框架下解决出行行为问题。这种紧张甚至勾勒出交通研究界的一种党派路线：使用数据驱动方法的研究人员关注计算视角和预测准确性，而使用理论驱动方法的研究人员关注解释、经济信息和行为基础。

（从表1看出，DNNs具有高预测性、低可解释性、低稳健性；DCMs具有低预测性、高可解释性、高稳健性；而本文提出的方法TB-ResNets三方面均有优势）。

然而，仔细研究发现，这两种方法在预测、解释和稳健性方面是互补的，这促使我们思考如何将它们协同起来，而不是将它们视为完全不同甚至相互冲突的方法。如表1所示，深度神经网络（DNN）和DCM可以互补，因为前者更具预测性，但解释性和鲁棒性较差，而后者预测性较差，但解释性和鲁棒性较强。虽然DNN被广泛认为具有高度预测性（Kotsiantis等人，2007年；Karlaftis和Vlahogianni，2011年；Krizhevsky等人，2012年；LeCun等人，2015年；Glaeser等人，2018年），但研究人员经常认为DNN缺乏可解释性（Kotsiantis等人，2007年；Lipton，2016年；Doshi Velez和Kim，2017年），这对于分析个人行为至关重要，原因包括自动驾驶汽车的安全性、研究中的知识提炼和治理的透明度（Lipton，2016；Doshi Velez和Kim，2017；Freitas，2014）。还发现DNN缺乏稳健性，创建了易受小随机噪声或对抗攻击的脆弱系统。另一方面，人们认为简单而合理的DCM更具解释性和鲁棒性，尽管由于其错误指定，其预测能力可能较低。因此，这两种互补的方法是否可以协同使用以保持双方的优势似乎是一个自然的问题。然而，由于DNN和DCM来自两个不同的研究领域（计算机科学和经济学），因此尚不清楚这种协同作用是否可能，更不用说互利了。

为了应对上述挑战，本研究设计了一种基于理论的残差神经网络（TB-ResNet），将DNN和DCM协同起来，证明这种协同作用不仅可行，而且可取，导致预测、解释和稳健性的同时提高。本研究由三个主要部分组成。我们首先通过简要叙述McFadden（1974）和Wang等人（2020a），证明DNN与RUM框架一致。其次，我们提出了TB-ResNet框架，该框架将DNNs扩展为DCMs，从而用a（δ，1−δ）公式去拟合效用残差，这类似于标准残差网络（ResNet）的本质（He等人，2016）。该TB-ResNet框架从六个相互交织的角度进行了进一步阐述：体系结构设计、模型集成、梯度增强、正则化、灵活函数逼近和理论诊断。正则化观点通过使用最先进的统计学习理论正式证明，以说明DNN往往过于复杂而无法捕捉现实，而DCM往往过于简单而无法捕捉现实的直觉。然后，我们使用多项式logit模型（MNL-ResNet）、风险偏好的前景理论（PT-ResNet）和时间偏好的双曲线贴现（HD-ResNet）设计了三个TB-ResNet实例，表明简单的TB-ResNet框架可以包含作为效用最大化框架一部分的各种DCM。最后，我们使用实证测试来确定三个TB-ResNet实例在三个数据集中是否有效，一个在新加坡收集，两个来自Tanaka等人（2010年）。我们发现（除了一些例外）TB-ResNet的三个实例通常可以提高纯DCM和DNN的总体预测性、可解释性和健壮性。

下一节回顾相关研究。第3节介绍了TR-ResNet及其三个实例。第4节讨论了实验设计。第5节介绍了结果，第6节总结并讨论了我们的发现。

2.文献综述

个人决策一直是经济学、交通运输学、市场营销学等许多社会科学和工程领域的经典研究问题。DCM至少有三种主要类型：描述多个备选方案之间权衡的多项式logit（MNL）模型、分析风险和不确定性下决策的前景理论（PT）模型以及分析时间决策的双曲线贴现模型。McFadden（1974）开发了基于随机效用最大化的开创性MNL模型，并将该模型应用于出行行为分析（McFadden，1974）。在McFadden（1974）之后，几代研究人员通过结合异质性、内生性和更复杂的替代模式对MNL模型进行了改进（Train，1980年、2009年；Ben Akiva和Lerman，1985年）。在风险偏好方面，Neumann和Morgenstern（1944）创建了预期效用模型，以分析个人如何利用风险输入做出决策。Kahneman和Tversky（Kahneman和Tversky，1979年；Tversky和Kahneman，1992年）创立了前景理论（PT），该理论解决了初始预期效用模型无法解释的异常情况（Neumann和Morgenstern，1944年；Pratt，1964年；Arrow，1965年；Sydnor，2010年）。在过去二十年中，研究人员通过指定参考点的公式或增加属性和概率之间的更多交互作用，逐步改进了这些模型（Tanaka等人，2010年；Dhami，2016年；Koszegi和Rabin，2006年）。关于时间偏好，重要的模型包括指数贴现（Samuelson，1937）、双曲线贴现（HD）（Loewenstein和Prelec，1992）、准双曲线贴现（O'Donoghue和Rabin，1999）和许多其他模型。鉴于个人决策在众多领域的普遍存在，这三种理论已被广泛应用于分析出行行为、技术采用、燃油经济性、决策、保险费、拖延和自我控制（Camerer和Kunreuther，1989；Nicholson和Snyder，2012；Liu，2013；O'Donoghue和Rabin，2001；Kaur等人，2015）。

最近，研究人员开始使用DNN预测出行行为，证明DNN在预测准确性方面优于DCMs，尽管这些研究往往无法以更深入的方式将DNN与DCMs联系起来。由于目标变量通常是离散的，因此个人决策可以被视为一个ML分类任务。研究人员使用DNN预测出行模式选择（Cantarella和de Luca，2005年）、汽车拥有量（Paredes等人，2017年）、出行事故（Zhang等人，2018b）、旅行者决策规则（van Cranenburgh和Alwosheel，2019年）、驾驶行为（Huang等人，2018年）、出行分布（Mozolin等人，2000年），分层需求结构（Wu等人，2018a）、排队长度（Lee等人，2019）、停车占用率（Yang等人，2019）、地铁客流（Hao等人，2019）和交通流量（Polson和Sokolov，2017；Liu和Chen，2017；Wu等人，2018；Zhang等人，2018a；Do等人，2019；Ma等人，2020）。DNN还用于补充基于智能手机的调查（Xiao等人，2016年）、提高调查效率（Seo等人，2017年）、合成新群体（Borysov等人，2019年）和估算调查数据（Duan等人，2016年）。研究通常发现ML分类器，包括DNN、支持向量机、决策树和随机森林，可实现比经典DCM更高的预测性能（Pulugurta等人，2013年；Omrani，2015年；Sekhar和Madhu，2016年；Hagenauer和Helbich，2017年；Cantarella和de Luca，2005年）。然而，这些调查主要局限于比较的角度，隐含地加剧了数据驱动和理论驱动方法之间的紧张关系。虽然最近的几项研究开始探索DNN和DCM之间的相互作用（Wang等人，2018、2020a、2020c），但探索仍然不够充分。鉴于DCMs和DNN在出行建模中的主要用途，有必要演示如何采用DNN视角来分析超出预测范围的个人决策。

预测准确性不应该是唯一的焦点，因为可解释性和稳健性都是重要的标准（Lipton，2016；Freitas，2014；Doshi Velez和Kim，2017）。尽管最近的许多研究都集中在DNN解释上（Hinton等人，2015年；Ribeiro等人，2016年；Erhan等人，2009年；Baehrens等人，2010年；Szegedy等人，2014年），但DNN在很大程度上仍被视为缺乏可解释性（Kotsiantis等人，2007年）。这并不奇怪，因为DNN最初是为了最大化预测能力而设计的。正如Mullainathan和Spiess（2017）所说，DNN和DCM分别侧重于预测和解释，或同等地侧重于预测ˆy和估计ˆβ。在交通领域，只有少数研究涉及到DNN在选择建模中的可解释性问题。例如，研究人员从DNN中提取了完整的经济信息（Wang等人，2020b），对DNN输入变量的重要性进行了排名（Hagenauer和Helbich，2017），或可视化了输入-输出关系，以提高对DNN模型的理解（Bentz和Merunka，2000）。Lipton（2016）指出，分析模型可解释性的挑战部分是由其定义的模糊性造成的。例如，可解释性可以定义为“可模拟性”：研究人员是否可以在他们的头脑中轻松模拟模型。它也可以定义为近似选择建模上下文的真实概率行为机制的能力（Wang等人，2020b，2018）。本文工作采用后一种定义，认识到行为现实主义在需求建模中的重要性。

在选择建模环境中，稳健性代表了经济信息的局部稳定性和行为机制的规律性，其形式上由对随机噪声或对抗性攻击的预测不变性来衡量。当选择模型具有稳健性时，输入的小扰动（例如公交票价降低0.1美元）不会导致输出的显著变化，例如使用公共交通的选择概率的显著增加。虽然稳健性在经典需求建模框架中不是一个常见的主题，但对于高度参数化的DNN来说，稳健性变得越来越重要，它们更可能呈现不规则的局部模式，并被广泛批评为缺乏稳健性（Szegedy et al.，2014；Goodfelle et al.，2015；Wang et al.，2020b）。为了正式衡量稳健性，研究人员需要检查预测性能在随机噪声或对抗性攻击下是否显著降低。已经产生了许多对抗性攻击，包括快速梯度符号法（FGSM），一步目标梯度符号法（TGSM）和迭代最小可能类法（Szegedy等人，2014年；Goodfello等人，2015年；Papernot等人，2016a，b；Kurakin等人，2016年和2017年）。本研究将评估DCMs、DNN和TB-RESNET在随机噪声和对抗性攻击下的稳健性。

3.理论

第3.1节通过重新叙述McFadden（1974）和Wang等人（2020a）的结果，证明DNN具有隐含的效用解释。第3.2小节介绍了TB ResNet框架，并介绍了六个相关的ML和行为视角。第3.3小节正式阐述了规范化观点，以说明TB RESNET设计的基本原理。第3.4小节通过为三种选择场景创建三个实例来证实TB ResNet框架。

3.1. 深度神经网络与随机效用最大化

选择分析包括两种类型的输入：选择特定-变量 $x_{ik}$ ，个体特定-变量 $z_{i}$ ，i属于{1,2,...,N}表示个体下标，k属于{1,2,...,K}表示选择下标。令B={1,2,...,K}， $\widetilde{x_{i}}=[x_{i1}^{T},...,x_{iK}^{T}]^{T}$ 。输出yi是个体的选择， yi = [yi1, yi2, ...yiK ]，yik属于{0,1}，各个k的yik之和为1。

随机效用最大化：

vik是决策效用值，， $\varepsilon_{ik}$ 表示个体i选择k的随机效用。Vk是效用函数（由选择特定-变量和个体特定-变量一起决定），这里Pik表示个体i选择k的概率。假设 $\varepsilon_{ik}$ 在个人和备选方案中是独立且相同分布的，F表示其累计分布函数。

以下两个命题成立：

其中，transition complete property(转移完全性质)

命题1和命题2共同证明DNN具有隐含的RUM解释。具体而言，Softmax激活函数（几乎在所有DNN体系结构中用作最后一层）意味着RUM框架下具有Gumbel分布的随机效用项。当完全连接的前馈DNN应用于输入 $\widetilde{x^{^{i}}}$ 和zi时，隐式假设为RUM，其随机效用项服从Gumbel分布。因此，DNNs中Softmax激活功能的输入可以解释为备选方案的效用。Softmax函数本身就是一个比较效用分数的过程。Softmax函数之前的DNN转换是一个计算效用的过程。命题1可以在几乎所有的选择建模教科书中找到（Train，2009；Ben Akiva和Lerman，1985），命题2来自McFadden（1974）的引理2。通过利用DNN中的RUM解释，研究人员可以设计新颖的DNN体系结构来提高模型性能（Wang等人，2020a）。这两个命题的简要证明见附录A。

DNN和DCM共享效用最大化框架，但它们以不同的方式参数化其效用函数。由于复杂DNN模型族的强大逼近能力，DNN可以自动学习效用函数（Hornik等人，1989年；Hornik，1991年；Cybenko，1989年），而DCM依赖于更为简洁的参数假设。例如，DNNs（ $V_{DNN,k}$ ）的效用函数可以用数百万个参数来参数化，而DCMs（ $V_{T,i}$ ）的效用函数通常用不到十个参数来参数化。DNN和DCMs共享的类似效用解释使我们能够设计TB-ResNet框架，它们在模型复杂性上的差异也成为一个互补的机会。

3.2. 基于理论的残差神经网络

利用DCMs和DNNs中类似的效用解释，我们设计了TB-ResNet框架，该框架由DCM效用函数 $V_{T,k}(z_{i},\widetilde{x_{i}})$ 和DNN效用函数 $V_{DNN,k}(z_{i},\widetilde{x_{i}})$ 组成，加权δ和1-δ：

其中， $V_{T,k}(z_{i},\widetilde{x_{i}})$ 表示来自DCMs的效用函数， $V_{DNN,k}(z_{i},\widetilde{x_{i}})$ 表示来自DNN的效用函数，并且（δ，1-δ）调整它们之间的权重。TB-ResNet可以看作是两种效用函数的线性组合，由δ控制可变权重。公式5中前馈DNN的效用指定，可以参数化为：

其中m是DNN的层数，Wl表示层l的DNN参数，ReLU是激活函数（例如Tanh和Sigmoid）。这里多个g(.)是复合函数，层层嵌套。DCM效用指定可以通过各种实用理论参数化，我们将在第3.4节中讨论。

（TB-ResNet的体系结构。DCM和DNN都是灵活的：DNN块使用七层作为示例，但可以是任意深度或宽度；DCM块可以接受RUM框架下的任何效用指定。）

图1表示TB-ResNet的体系结构，由浅层（1−δ） DCM和深层 δ DNN块组成，用于联合指定确定性效用项。通常DCM块（1−δ） V_T,k可以用一个具有单层变换的浅层神经网络来表示，而DNN块 （δ） V_DNN，k 可以用一个能够自动学习的深层结构来表示。DCM和DNN块将输入 $(z_{i},\widetilde{x_{i}})$ 转换为确定性效用，这些确定性效用通过Softmax激活函数进一步转换为选择概率和输出。这个TB -ResNet框架可以从以下六个相互交织的ML和行为角度来理解。

（1）首先也是最直观的一点是，这个TB-ResNet可以看作是一个新的DNN体系结构，因为TB- ResNet中的DCM部分代表一个浅层神经网络，而DNN部分代表一个深层神经网络。事实上，TB- ResNet的名称由标准ResNet体系结构而生，包括一致特征映射（ identity feature mapping）和前馈DNN体系结构：

当真实模型接近线性时，ResNet可以比标准前馈DNN更好地逼近真实模型。这种推理同样适用于TB-Resnet。当1−δ接近于1，TB-ResNet由一个 主要DCM部件 和一个 小DNN部件 组成，去拟合效用残差，这类似于标准ResNet体系结构的本质。

（2）第二，TB ResNet框架具有（δ，1−δ）加权可以看作是DCMs和DNN的集成的模型，并进行比例调整。权重由比率控制，这个比率可以跨越对数尺度下所有可能的正值，其中δ∈ （0，1）。当δ→ 0，如δ=10^(−5)，效用比收敛于+∞; 当δ→ 1，如δ=1− 10^(−5)，收敛于0；当δ=0.5时，等于1。因此，这个（δ，1−δ）加权使我们能够探索DCM和DNN的所有可能效用比。事实上，灵活缩放与经典选择模型中的随机性讨论密切相关。例如，为了结合显示的和陈述的偏好数据（to combine revealed and stated preference data），研究人员需要调整比例因子，以反映两类数据集的不同随机性（Wang等人，2020c；Hensher和Bradley，1993；Bradley和Daly，1997）。

（3）第三，TB ResNet框架与梯度提升法（ gradient boosting method）（Friedman，2001）相似，但仍存在差异。它们是相似的，因为两者都试图通过添加多个模型来实现更高的性能；特别是，具有顺序训练过程的TB-ResNets 类似于具有多个阶段的boosting方法。然而，它们也不同，因为梯度提升通常用于组合多个弱分类器，而TB-Resnet则组合相对弱分类器（DCMs）和强分类器（DNNs）。因此，用δ实现正则化的视角在TB-resnet中变得至关重要，特别是当δ很小时。此外，TB Resnet通过共享效用解释将DCM和DNN结合起来，而boosting方法通过损失函数的多阶段优化将多个分类器连接起来。TB RESNET中的共享效用解释不仅有助于降低预测损失，而且有助于提高局部规律性、稳健性和基于效用的经济解释。尽管如此，在模型集成、梯度提升和我们的TB ResNet框架之间只存在一条直线（a fine line）。将来还可以通过合并其他两种观点来改进TB ResNet框架（哪两种观点？）。

（4）第四，当δ→ 0时，TB ResNet由DCM组件控制，DCM组件成为一个主导的效用函数（ skeleton utility function），用于局部化和稳定TB ResNet系统，较小的δ使复杂DNN组件正则化，以解决过拟合问题。对于较小的δ，模型复杂度介于（1−δ） VT，k和 δ VDNN，k 之间是更平衡的，因为DNN分量通常比DCM分量复杂度高得多。直观地说，当δ变小时，TB ResNet框架逐渐局限于DCM组件周围，DNN的训练类似于围绕DCM的小邻域进行搜索。当简单的DCM能够成功地捕获大部分真实的行为机制时，一个小的δ是最有效的。事实上，当DCM组件能够完美地捕获真实的行为机制时，最佳δ应该接近于零。（我的理解：若真的存在这样的DCM，那DCM也应该能准确预测，用 DCM+DNN 就没意义了吧？）

（5）第五，当δ→ 1，TB ResNet主要由DNN组件控制，这使TB ResNet系统能够利用DNN出色的近似能力来近似真实的数据生成过程，超越DCMs的理论限制。当δ接近1时，它倾向于围绕一个小的（1−δ） DCM组件大邻域搜索 δDNN。当简单的DCM捕获很少的决策机制信息时，较大的δ是最有效的。在最坏的情况下，当DCM捕获零信息时，TB ResNet将简化为DNN模型。

（6）因此，最佳δ值成为诊断DCMs完整性的指标。一个小且最佳的δ表明当前的DCM是非常有效的，因为只需要一小部分DNN分量来填充效用残差。一个较大且最佳的δ表明当前DCM远未完成，因为TB ResNet主要使用DNN组件来描述真实行为。因此，最佳δ值可以作为诊断DCMs完整性的工具。然而，最佳δ值只能通过经验确定，因为建模者无法先验地评估理论的完整性。结果部分将比较我们三个实例的最佳δ值，这有助于说明MNL、PT和HD模型的理论完整性。

（7）总之，简单的DCM往往不适合真正的行为机制，而丰富的DNN往往过于拟合。TB ResNet是用灵活的（δ，1−δ）表示加权，利用DCM的简单性和DNN的丰富性，并避免了双方存在的缺点。较大的δ使DNN分量能够利用DCM分量的效用残差，来解决DCM的欠拟合问题；较小的δ控制DNN分量的规模，作为解决过拟合问题的正则化工具。这是TB Resnet设计的关键直觉。

3.3 DCMs和DNNs的平衡逼近与估计误差

通常情况下，欠拟合和过拟合问题可以被视为平衡 近似和估计误差 的挑战。本小节将使用最先进的统计学习理论来说明δ项在平衡DCM和DNN之间的模型复杂性方面的重要性。

TB RESNET在样本外的性能可以分解为近似误差和估计误差，对估计误差的分析说明了控制模型复杂性的重要性。设F1和F2表示DCM和DNN的模型族。经验风险最小化（ERM）用于模型训练：

其中，xi是向量，表示替代特定输入x_ik 和个体特定输入zi。让f∗ 表示真实的数据生成过程。超出误差（Excess error ）的定义和分解如下：

其中，是期望损失函数，S表示样本；是函数族F中的最佳函数，F=（1−δ） F1+δF2 近似f∗。超出误差度量估计函数和真实模型f之间在样本外性能的平均差异。超出误差被分解为估计误差和近似误差。近似误差是确定性的，因此与训练过程无关，因此本研究不详细讨论近似误差。简单模型族（如DCMs）通常比复杂模型族（如DNN）更接近真实数据生成过程，这也可以从DNN的通用近似器定理中推断出来（Hornik et al.，1989）。主要的上界是估计误差，这是使用统计学习理论中的Rademacher复杂性提供的。

定义1：函数族F的经验Rademacher复杂性定义为：

$\varepsilon_{i}$ 是Rademacher随机变量，等概率取值为{−1，+1}。

Proposition 3：估计器ˆf的估计误差可由F的Rademacher复杂度限定。

定义1和命题3共同提供了一种直觉，即任何估计值ˆf的估计误差的上界可以通过模型族F的复杂性来近似。请注意，定义1中的ˆRn（F|S）度量模型族F的复杂性，命题3右侧的平均Rademacher复杂度是估计误差的上界。换句话说，重要的是限制模型族F的复杂性，以获得估计误差的严格上界。命题3的证明可以在Wang等人（2018）中找到，关键技术是Wainwright（2019）中的对称化引理。

对于TB Resnet，F设计为（1−δ） F1+δ F2。以下三个命题提供了δ加权为何重要的直觉：

Proposition 4：TB ResNet估计器ˆf的估计误差可由F1和F2的加权Rademacher复杂度限定。

Proposition 5：DCM模型族F1的Rademacher复杂性可由以下公式限定：

其中v为函数类F1的VC维，N为样本量。

Proposition 6：DNN模型族F2的Rademacher复杂度可由以下公式限定：

其中D表示DNN的深度，| | xi | |表示输入变量的范数，MF（j）是参数矩阵Wj的Frobenius范数的上界。在这里，DNN模型使用ReLU激活函数。

命题4、命题5和命题6证明了使用δ来平衡F1和F2之间的估计误差的重要性。由于DNN模型族F2比DCM模型族F1复杂得多，因此需要对DNN模型族F2施加强正则化，以确保复杂性在和之间平衡。具体而言，如命题6所示，DNN复杂性在深度D中是指数的（对数？），并且还取决于输入变量xi的大小。另一方面，DCM模型F1仅取决于VC维度，该维度通常与参数数量呈线性关系。因此，DNN复杂度通常远大于DCM复杂度。在这种情况下，DNN部分的小δ权重可以限制TB resnet的总复杂性（（1−δ） F1+δF2），从而提高了模型性能。命题5的证明见Wang等人（2020b），命题6的证明见Golowich等人（2017）。我们在附录D中提供了命题4的草图证明。

3.3 三个TB-ResNets实例

3.4.1. 基于多项logit的残差神经网络（MNL-ResNets）

3.4.2. 基于前景理论的残差神经网络（PT-ResNets）

3.4.3. 基于双曲线贴现的残差神经网络（HD-ResNets）

4. 实验设置

4.1 数据集

实验对这三个实例使用了三个数据集。第一个数据集（SG）是作者于2017年在新加坡收集的一项公开偏好调查，重点关注步行、公交车、共乘、驾驶和自动驾驶车辆之间的出行模式选择。第二个和第三个数据集是从Tanaka et al.（2010）收集的陈述偏好调查，重点关注两种货币替代方案的风险和时间偏好。

附录B中提供了三个数据集的汇总统计数据。与典型的出行行为调查类似，三个数据集的样本量分别为8418、6335和5340。三组数据中的选择都是平衡的：即使在最不平衡的情况下，选择在新加坡步行的受访者中所占比例最小的是10.38%。SG数据集中的属性采用标准正交试验设计，基于新加坡的平均出行时间和出行替代方案成本。PT和HD数据集中的属性是通过基于PT和HD理论的仿真设计的。SG数据集的调查是在在线公司Qualtrics的帮助下进行的；PT和HD数据集的调查是在当地官员的帮助下通过访谈收集的。关于三个数据集的数据收集细节，读者可以参考Wang和Zhao（2019）以及Tanaka等人（2010）。

4.2 训练

参考：

麻省理工团队新突破，弥补深度学习在交通领域上的关键欠缺|交通领域|麻省理工|研究|城市|模型|方法|-健康界

Theory-based residual neural networks: A synergy of discrete choice models and deep neural networks

离散选择模型（DCM）和深度神经网络（DNN）结合相关推荐

深度神经网络DNN的多GPU数据并行框架及其在语音识别的应用
http://www.csdn.net/article/2014-07-11/2820628-DNN 深度神经网络(Deep Neural Networks, 简称DNN)是近年来机器学习领域中的研究 ...
理解深度神经网络——DNN(Deep Neural Networks)
深度神经网络--DNN 是深度学习的基础. 要理解DNN最好先搞清楚它的模型.本篇博文主要对DNN的模型与前向传播算法做一个易于理解的总结. 1.从感知机到神经网络的理解. 感知机是这么一种模型:一个 ...
深度神经网络DNN的理解
1.从感知机到神经网络上图是一个感知机模型,有若干个输入和一个输出(输出的结果只可以是1或-1) 输入和输出有一个线性关系: 神经元激活函数:(二分类) 由于这个简单的感知机只可以进行二分类,则对于 ...
dnn神经网络_OpenCV3.3深度神经网络(DNN)模块
今天,甜菇凉整理了一下电脑里面OpenCV深度神经网络(DNN)模块-应用视频教程,这个是贾志刚老师的视频,学习视觉的同学应该都知道贾志刚老师吧,他的视频很适合想要入门计算机视觉图像处理的小白学习,那 ...
TensorFlow2.0(四)--Keras构建深度神经网络(DNN)
Keras构建深度神经网络(DNN) 1. 深度神经网络简介 2. Kerase搭建DNN模型 2.1 导入相应的库 2.2 数据加载与归一化 2.3 网络模型的构建 2.4 批归一化,dropout ...
讯飞输入法将深度神经网络DNN技术应用于语音识别达到业界领先水平
10月20日,以"语见更好的我们"为主题的"讯飞输入法10周年 A.I.输入沙龙"在北京举办.记者从活动现场了解到,自2010年10月上线至今,讯飞输入法的日语 ...
非期望产出的sbm模型_线性模型 vs. Logistic模型——离散选择模型之二
前言:为什么因变量是分类变量的时候,我们会选择Logistic模型.而非最常见的线性回归模型?或者,换个说法:线性回归模型的劣势是什么?Logistic模型的优势又是什么?--针对这些问题,本文为您详 ...
logit模型应用实例_最大似然估计（上）——离散选择模型之十
原创文章,如需转载请联系作者! 希望这篇文章能讲清楚什么是"最大似然估计". 通过前文的推理,我们已经得到了二项Probit和二项Logit的模型表达式.在二项Probit模型中, ...
logit回归模型_你们要的二项Logit模型在这里——离散选择模型之八
前言:本文主要介绍如何以效用最大化理论为基础,推导出二项 Logit(Binary Logit)模型. 本文为系列离散选择模型(Discrete Choice Model, DCM)系列文章的第8篇. ...

离散选择模型（DCM）和深度神经网络（DNN）结合