AMiner 会议论文推荐第十三期

AMiner平台由清华大学计算机系研发，拥有我国完全自主知识产权。平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱，提供学者评价、专家发现、智能指派、学术地图等科技情报专业化服务。系统2006年上线，吸引了全球220个国家/地区1000多万独立IP访问，数据下载量230万次，年度访问量超过1100万，成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

图像（Image captioning）描述旨在用简洁，准确和有趣的句子描述图像。为了构建这样的自动神经描述器，传统的模型将生成的单词与许多带有人工注释的句子对接，以模仿类似于人类的描述。但是，来自人群的注释不可避免地会带来数据质量问题，例如语法错误、视觉对象的错误识别和句子重点不理想。在模型训练期间，现有方法将同等对待所有注释，而不考虑数据质量。
在这项工作中，作者明确地让人类共识参与进来，提前衡量ground truth描述的质量，并直接鼓励模型优先学习高质量的描述。因此，所提出的面向共识的方法可以加速训练过程，并在仅受监督的目标的情况下获得优异的性能，而无需耗时的强化学习。新的共识损失可以在大多数现有技术中实施，与传统的交叉熵损失相比，其BLEU-4性能最高可提高12.47％。在MS-COCO图像描述数据集上进行了广泛的实验，证明了所提出的面向人类共识的训练方法可以显着提高训练效率和模型有效性。

论文链接：https://www.aminer.cn/pub/5ef96b048806af6ef2772038?conf=ijcai2020

Reward Prediction Error as an Exploration Objective in Deep RL

增强学习的一个主要挑战是探索，当局部抖动方法（如epsilon-greedy采样）不足以解决给定任务时，就需要探索。许多最近的方法已经提出来内在地激励代理寻求新的状态，从而驱动代理发现改善的奖励。然而，虽然状态新颖性探索方法适用于新颖观察与改进奖励相关性较好的任务，但在两者相关性不高的环境中，它们的探索效率可能不如epsilon-greedy方法。
在本文中，作者区分了寻求新状态有助于发现新奖励的探索任务和不寻求新状态的探索任务，例如目标条件任务和逃避局部奖励最大值。作者提出了一个新的探索目标，即最大化一个被训练为预测外部奖励的价值函数的奖励预测误差（RPE）。然后，作者提出了一种深度强化学习方法QXplore，该方法利用Q函数的时差误差来解决高维MDP中的困难探索任务。
作者展示了QXplore在几个OpenAI Gym MuJoCo任务和Atari游戏中的探索行为，并观察到在所有情况下QXplore都与基线状态创新方法相当或优于基线状态创新方法，在状态新颖性与改善奖励相关性不高的任务上表现优于基线。

论文链接：https://www.aminer.cn/pub/5ef96b048806af6ef2772170?conf=ijcai2020

Knowledge Hypergraphs: Prediction Beyond Binary Relations

知识图使用两个实体之间的关系存储事实。
在这项工作中，作者解决了知识超图（hypergraph）中的链接预测问题，在知识超图中，关系被定义在任何数量的实体上。尽管存在将非二进制关系转换为二进制关系的技术（如，reification），但作者表明，当前基于嵌入的知识图完成方法不适用于通过这些技术获得的知识图。
为了克服这个问题，作者引入了HSimplE和HypE，这两种直接基于知识超图的基于嵌入的方法。在这两种模型中，预测是关系嵌入、实体嵌入及其在关系中的对应位置的函数。作者还开发了用于超图预测的公共数据集、基准和基线，并通过实验证明了所提出的模型比基线更有效。

论文链接：https://www.aminer.cn/pub/5ef96b048806af6ef2772134?conf=ijcai2020

NeurIPS 2020 论文推荐

Computing Valid p-value for Optimal Changepoint by Selective Inference using Dynamic Programming

有大量有关检测变更点（CP）方法的文献。但是，人们很少关注评估检测到的CP的统计可靠性。
在本文中，作者介绍了一种新的方法，可以通过基于动态编程（DP）的最佳CP检测算法对CP的重要性进行统计推断。基于选择性推断（SI）框架，作者提出了一种精确的（非渐近）方法来计算有效的p值，以测试CP的重要性。尽管众所周知，SI由于过度条件化而导致统计能力低下，但作者通过引入参数编程技术来解决此缺点。然后，作者提出了一种以最少的条件量进行SI的有效方法，从而提高了统计能力。
在合成数据集和真实数据集上的实验结果表明，作者所提方法比现有方法更强大，在计算效率方面具有不错的性能，并在许多实际应用中提供了良好的结果。

论文链接：https://www.aminer.cn/pub/5e539eca3a55ac4db70a52e0?conf=neurips2020

A Group-Theoretic Framework for Data Augmentation

训练深度神经网络时，数据增强是一种广泛使用的技巧：除了原始数据之外，正确转换的数据也将添加到训练集中。但是，据作者所知，尚没有一个清晰的数学框架来解释数据增强的性能优势。
在本文中，作者开发了这样一个理论框架。作者表明，数据增强等效于对某组轨道进行平均运算，从而使数据分布近似不变。作者证明这能导致方差减少。作者研究了经验风险最小化，以及指数族、线性回归和某些两层神经网络的例子。作者还讨论了如何在其他方法普遍存在的对称性问题中使用数据增强，例如在冷冻电子显微镜（cryo-EM）中。

论文链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397a37?conf=neurips2020

Calibrating Deep Neural Networks using Focal Loss

深层神经网络（DNN）的误校准（Miscalibration）— 模型的置信度和正确性之间不匹配，使得其预测难以依赖。理想情况下，我们希望网络准确，经过校准且充满信心。
作者表明，相对于标准的交叉熵损失，焦点损失（focal loss）使我们能够学习已经被很好地校准的模型。与温度标度结合使用时，在保持精度的同时，还可以提供最新的校准模型。作者对导致失准的因素进行了全面的分析，并利用他们从中收集到的见解来证明焦距损失在经验上的优异性能。为了便于在实践中使用焦点损失，作者还提供了一种原则方法来自动选择损失函数中涉及的超参数。
作者在各种计算机视觉和NLP数据集上进行了广泛的实验，并使用各种网络架构，结果表明，作者的方法在几乎所有情况下都达到了最先进的精度和校准。

论文链接：https://www.aminer.cn/pub/5e539eca3a55ac4db70a5411?conf=neurips2020

术语“translationese” 一直被用来描述翻译文本中存在的异常特征。
在本文中，作者详细分析了翻译语言对机器翻译评估结果的不利影响。作者的分析表明，有证据支持相对于翻译文本而言，以给定语言编写的原始文本存在差异，这可能会对机器翻译评估的准确性产生负面影响。因此，作者建议在以后的机器翻译测试集中省略反向创建的测试数据。此外，作者提供了对过去声称MT的human-parity的高知名度机器翻译评估的重新评估，以及对它的自重新评估的分析。作者找到了提高过去所有三个评估的可靠性的潜在方法。
以前未考虑的一个重要问题是在过去的评估中应用的显着性检验的统计能力，该评估旨在调查MT的human-parity。由于此类评估的目的是揭示人与MT系统之间的合理联系，因此功率分析尤为重要，在这种情况下，低功率可能导致声称与人类对等的事实，而实际上仅与II型错误相对应。因此，作者提供了在此类评估中使用的测试的详细功率分析，以表明此类研究的适当最小翻译样本量。
随后，由于过去没有旨在调查human parity要求的评估同时达到准确性和可靠性，因此作者重新运行对声称具有human parity的系统的评估。最后，作者为将来的机器翻译评估提供了全面的检查清单。

论文链接：https://www.aminer.cn/pub/5d1eb9cdda562961f0b08048?conf=emnlp2020

Improving Event Duration Prediction via Time-aware Pre-training

常识推理(commonsense reasoning)里预测事件的定量属性值（quantitative attribute value）是一件困难的事情，因为往往缺少针对每个定量属性的人工标注训练集，而事件的compositional nature又导致精准预测需要大量的标注训练集。
在这项工作中，作者以持续时间（duration）为例创造性地提出可以在web corpus里自动收集大量的训练数据，并在McTACO数据集上说明仅使用自动收集的数据训练的效果比使用人工标注数据训练的效果高了10.24 F1 score和9.68 Exact Match score。

论文链接：https://www.aminer.cn/pub/5fa519dd91e011ea3290c51c?conf=emnlp2020

A Bilingual Generative Transformer for Semantic Sentence Embedding

语义句子嵌入模型将自然语言句子编码为向量，从而使嵌入空间中的紧密度指示句子之间语义上的紧密度。双语数据为学习这种嵌入提供了一个有用的信号：翻译对中两个句子共享的属性可能是语义的，而分歧属性可能是风格或特定于语言的。
作者提出了一个深度潜变量模型，该模型试图对并行句子执行源分离，将它们在潜在语义向量中的共同点隔离开，并解释特定于语言的潜在向量剩下的内容。作者提出的方法与以前在语义句子编码方面的工作有两个方面的不同。首先，通过使用变分概率框架，作者引入了鼓励源分离的先验，并且可以使用模型的后验来预测测试时单语数据的句子嵌入。其次，作者将高容量的转换器用作数据生成分布和推理网络，这与以往大多数关于句子嵌入的工作形成了鲜明的对比。
在实验中，作者的方法在无监督语义相似性评估的标准评估中明显优于最新技术。此外，作者证明了该方法在这些评估的更困难子集上获得了最大收益，其中简单的单词重叠并不是相似性的良好指标。

论文链接：https://www.aminer.cn/pub/5dca89783a55ac77dcb01f30?conf=emnlp2020

想要查看更多精彩会议论文合集，请移步AMiner顶会

AMiner 会议论文推荐第十三期相关推荐

AMiner 会议论文推荐第十八期
AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权.平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价.专家发现.智能指派.学术地图等科技情报专业化服务.系统2 ...
AMiner 会议论文推荐第十一期
AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权.平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价.专家发现.智能指派.学术地图等科技情报专业化服务.系统2 ...
AMiner 会议论文推荐第十期
AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权.平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价.专家发现.智能指派.学术地图等科技情报专业化服务.系统2 ...
AMiner 会议论文推荐第十二期
AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权.平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价.专家发现.智能指派.学术地图等科技情报专业化服务.系统2 ...
AMiner会议论文推荐第二十六期
AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权.平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价.专家发现.智能指派.学术地图等科技情报专业化服务.系统2 ...
AMiner会议论文推荐第三十五期
AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权.平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价.专家发现.智能指派.学术地图等科技情报专业化服务.系统2 ...
AMiner会议论文推荐第五十一期
AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权.平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价.专家发现.智能指派.学术地图等科技情报专业化服务.系统2 ...
AMiner 会议论文推荐第六期
AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权.平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价.专家发现.智能指派.学术地图等科技情报专业化服务.系统2 ...
AMiner 会议论文推荐第一期
AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权.平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价.专家发现.智能指派.学术地图等科技情报专业化服务.系统2 ...

AMiner 会议论文推荐第十三期

IJCAI 2020 论文推荐

NeurIPS 2020 论文推荐

EMNLP 2020 论文推荐

AMiner 会议论文推荐第十三期相关推荐

最新文章

热门文章