案例来源:@安和林
案例地址: https://yq.aliyun.com/articles/376139
(以下为案例的简要概述,便于之后能快速检索到相关内容。部分文字与图片可能直接来自原文,如有侵权请告知,谢谢)
1. 背景:word2vec技术考虑的是英文文本,单个英文字母不包含语义,而中文由笔画组成,笔画顺序已经包含了语义信息,如“笔”字由“竹字头”和“毛”两个部分组成
2. 目标:将中文笔画包含的信息也纳入word2vec中,得到更好的中文词向量表示
3. 过程:
1)将中文词语分解为笔画,然后用滑动窗口的方式将笔画映射到数字编号(图中窗口为3、4、5)
2)定义相似性函数, q 为n元笔画向量, c 为上下文词语的词向量(注意这里上下文不拆解笔画)
3)定义基于n元笔画的损失函数
4. 示例:如图,以“治理雾霾刻不容缓”为例,将“雾霾”分解为黄色部分的n元笔画,上下文为“治理
”与“刻不容缓”的词向量。计算每一个n元笔画和上下文词语的相似度,然后根据定义的损失函数更新上下文的词向量和n元笔画向量
5. 结果:在中文语料数据集中,在命名实体识别、文本分类等任务中较业界几个优秀的词向量算法效果更好

【笔记】蚂蚁金服公开基于笔画的中文词向量算法相关推荐

  1. AAAI 2018 论文 | 蚂蚁金服公开最新基于笔画的中文词向量算法

    导读:词向量算法是自然语言处理领域的基础算法,在序列标注.问答系统和机器翻译等诸多任务中都发挥了重要作用.词向量算法最早由谷歌在2013年提出的word2vec,在接下来的几年里,该算法也经历不断的改 ...

  2. 词向量算法—【AAAI2018】蚂蚁金服公开的基于笔画的中文词向量算法

    词向量算法是自然语言处理领域的基础算法,在序列标注.问答系统和机器翻译等诸多任务中都发挥了重要作用.词向量算法最早由谷歌在2013年提出的word2vec,在接下来的几年里.该算法也经历了不断的改进, ...

  3. cw2vec:蚂蚁金服公开最新基于笔画的中文词向量算法

    向AI转型的程序员都关注了这个号

  4. 蚂蚁金服核心技术:百亿特征实时推荐算法揭秘

    小叽导读:文章提出一整套创新算法与架构,通过对TensorFlow底层的弹性改造,解决了在线学习的弹性特征伸缩和稳定性问题,并以GroupLasso和特征在线频次过滤等自研算法优化了模型稀疏性.在支付 ...

  5. 基于word2vec的中文词向量训练

    基于word2vec的中文词向量训练 使用katex解析的数学公式,csdn好像不支持 word2vec来源 Google开源 可以在百万数量级的词典和上亿的数据集上进行高效地训练 该工具得到的训练结 ...

  6. 云原生时代,蚂蚁金服公开了新的金融混合云架构

    蚂蚁金服在过去十五年重塑支付改变生活,为全球超过十二亿人提供服务,这些背后离不开技术的支撑.在 2019 杭州云栖大会上,蚂蚁金服将十五年来的技术沉淀,以及面向未来的金融技术创新和参会者分享.我们将其 ...

  7. 蚂蚁金服开源 ——基于 SOFABoot 进行模块化开发

    SOFA 中间件是蚂蚁金服自主研发的金融级分布式中间件,包含了构建金融级云原生架构所需的各个组件,包括微服务研发框架,RPC 框架,服务注册中心,分布式定时任务,限流/熔断框架,动态配置推送,分布式链 ...

  8. 北京/上海/杭州 | 蚂蚁金服智能引擎技术事业部招聘知识图谱算法工程师

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 蚂蚁金服 这里有来自国内外 TOP 互联网公司的资深从业者,也有多位近年阿 ...

  9. 蚂蚁金服:超大规模分布式计算系统 + 超大规模分布式优化算法

             人工智能大数据与深度学习  公众号: weic2c 近年来,随着"大"数据及"大"模型的出现,学术界和工业界对分布式机器学习算法引起了广泛关注 ...

最新文章

  1. 数字图像处理——第六章 彩色图像处理
  2. zabbix监控实践解析(历史记录附近乱码、图表显示乱码)
  3. django Admin
  4. 有关Struts2a的ction直接使用response异步问题
  5. MongoDB基本管理命令
  6. python 制定识别图片的某些区域_python批量识别图片指定区域文字内容
  7. java的text函数,excel text函数以及相关的函数使用方法
  8. pytorch tensor操作:tensor与numpy转换
  9. 贵州省NPP净初级生产力数据/NDVI数据
  10. ZigBee学习之——ZStack API解读
  11. oracle建表语句 货币,Oracle建表语句是什么
  12. linux系统 删除文件命令
  13. 7教程统计意义_AMOS进行问卷分析效度分析之验证因子分析—杏花开生物医药统计...
  14. C++文件操作之写文件
  15. 判断丑数python_263. 丑数(Python)
  16. 公司知识库的搭建步骤
  17. 组块(chunking)-nltkspacy
  18. 喜欢NBA的朋友快来这里看第一阶段的全明星投票结果!!!(更新到第二阶段、第三阶段)
  19. php在线解密工具,zend5.2,zend5.3,zend5.4,支持ioncube,魔方,sourceguardian,goto,微擎加密,混淆eval等解密
  20. 千兆手持式以太网测试仪

热门文章

  1. SQL注入检测模块开源项目DRUID-SQL-WALL学习小结
  2. 在阿里云centos7.4上配置nginx免费的https证书,支持泛解析
  3. Python代码风格指南编程规范
  4. AndroidStudio目录结构 APP构建流程 Jenkins持续集成构建 Gradle介绍 Proguard混淆
  5. app上线前加固打渠道包
  6. 设置iPhone书签图标
  7. 旁路缓存(Cache-aside)
  8. ubuntu Wine war3.exe
  9. Android 9.0横屏旋转开机动画显示不全的解决方案
  10. Spring5框架-学习总结(结合个人理解)