本文利用self-attention的方式去学习句子的embedding,表示为二维矩阵,而不是一个向量,矩阵中的每一行都表示句子中的不同部分。模型中使用了self-attention机制和一个特殊的regularization term

总结

以往论文中常用的句子表示为一维向量,但是这只能表达句子的一部分信息,为此作者提处一种self-attentive机制,并基于此机制,将句子表示为一个2维矩阵,使得句子的信息尽可能多的得到保留,同时为了使得句子的信息尽可能多的保留,即行与行之间尽可能差异化,作者使用了Frobenius范数惩罚项

参考连接:

https://www.jianshu.com/p/87108d836c63

https://blog.csdn.net/john_xyz/article/details/80650677

https://blog.csdn.net/guoyuhaoaaa/article/details/78701768

A Self-Attention Setentence Embedding 阅读笔记相关推荐

  1. DeepWeak: Reasoning Common Software Weaknesses via Knowledge Graph Embedding 阅读笔记

    DeepWeak: Reasoning Common Software Weaknesses via Knowledge Graph Embedding 阅读笔记 Article Background ...

  2. Small Object Detection using Context and Attention(论文阅读笔记)

    Small Object Detection using Context and Attention 论文阅读笔记 出处:2021 International Conference on Artifi ...

  3. Serialized Multi-Layer Multi-Head Attention for Neural Speaker Embedding阅读笔记

    主要看模型方法 Abstract 提出一个串行多层多头注意力针对neural speaker embedding,之前是将一帧的特征聚集起来进行表示.我们提出利用堆叠式的self-attention机 ...

  4. BiNE: Bipartite Network Embedding 阅读笔记

    论文传送门 作者 华东师范大学: 高明 周傲英 Leihui Chen 中国科学技术大学: 何向南 摘要 传统的学习图数据的节点表示的方法大都聚焦于一般的同构网络,忽略了二部图的特殊性质.因此这些方法 ...

  5. GAT原论文阅读笔记

    <GRAPH ATTENTION NETWORKS>阅读笔记 本文记录阅读GAT原论文<GRAPH ATTENTION NETWORKS>的笔记,方便后续查阅. 论文地址:&l ...

  6. 论文Is Space-Time Attention All You Need for Video Understanding?阅读笔记

    目录 写在前面: 1.Introduction 2.TimeSformer  model 2.1Joint Space-Time 2.2Divided Space-Time 2.3Other mode ...

  7. 论文阅读笔记:MGAT: Multi-view Graph Attention Networks

    论文阅读笔记:MGAT: Multi-view Graph Attention Networks 文章目录 论文阅读笔记:MGAT: Multi-view Graph Attention Networ ...

  8. 文献阅读笔记----TieNet: Text-Image Embedding Network

    文献阅读笔记----TieNet: Text-Image Embedding Network for Common Thorax Disease Classification and Reportin ...

  9. (CTC损失)Hybrid CTC/Attention Architecture for End-to-End Speech Recognition阅读笔记

    ASR-R (CTC损失)Hybrid CTC/Attention Architecture for End-to-End Speech Recognition阅读笔记 文章目录 ASR-R (CTC ...

最新文章

  1. 电大最全计算机应用技术基础答案,电大最新最全计算机应用技术基础答案100%通过率...
  2. 详解C中volatile关键字
  3. 科大星云诗社动态20210503
  4. java代码示例(6-3)
  5. 使用@Autowired注入RedisTemplate时报java.lang.NullPointerException
  6. 机器人编程与python语言的区别_儿童编程和机器人编程有啥区别?
  7. 火币生态链项目SuperNova与Poly Network达成战略合作
  8. LOJ6031 「雅礼集训 2017 Day1」字符串 SAM、根号分治
  9. matlab 求obb,obb包围盒代码
  10. 省市区县街道四级联动下拉菜单
  11. idea 设置全局豆沙绿
  12. 从麻将到“农药”,细数 AI 攻占的游戏领域
  13. 表单的 9 种设计技巧【上】
  14. 隐马尔科夫模型 python 实现简单拼音输入法
  15. oracle start with connect by order siblings by用法
  16. 搞懂redux一篇就够了
  17. HelloChart框架动态加载数据
  18. 一个hin秀的小学三年级奥数题 [hin秀]
  19. mysql之数据库引擎
  20. Mac终端关于ld: library not found for -lnetcdff错误的解决办法

热门文章

  1. iTerm的安装以及配置Oh My Zsh
  2. 09Mybatis_入门程序——删除用户以及更新用户
  3. Android 开源框架Universal-Image-Loader完全解析(一)--- 基本介绍及使用
  4. 如何将文件复制到虚拟机中
  5. 理解SQL Server中的锁
  6. 人如其名(退了51CTO的群)
  7. 如何利用python dbus来发送一个信号
  8. cpp遇到问题:include重复包含导致的redefinition
  9. 剑指offer:从上往下打印二叉树
  10. SNMP功能开发简介 二 net-snmp源码分析报文处理流程图