实习周报 | 3rd week | 2021.4.19 - 4.23 | 文本摘要,ES语义搜索,SOTA SA
完成
ES语义搜索dense vector⽅法可行性进一步测试
- 新数据集:https://www.kaggle.com/asd336655/ccf2019news-so
- 新闻评论等,筛选出评论⻓长于50字的材料料
- 数据量量:7356
- 备注:⽹网络评论,脏数据很多,包括很多特殊符号甚⾄至乱码
- 截图展示:
- text2vec
- 概述:可⽤用于中⽂文的Python库。【有更更多求得句句⼦子向量量的⽅方法但适⽤用于英⽂文,具体可以参考⽂文档:http://text2vec.org/api.html
- 了解原理:根据已有的词向量,通过求句⼦中所有单词嵌⼊的平均值计算得到。
- 词向量:
- 腾讯词向量量完整版:
https://ai.tencent.com/ailab/nlp/zh/embedding.html
:
~/.text2vec/datasets/Tencent_AILab_ChineseEmbedding.txt
- 腾讯词向量量完整版:
- 腾讯轻量量版(tawe):
https://pan.baidu.com/share/init?surl=La4U4XNFe8s5BJqxPQpeiQ
:~/.text2vec/datasets/light_Tencent_AILab_ChineseEmbedding.bin
- 腾讯轻量量版(tawe):
- 关键词提取与概要⽣成结果展示
- 由于考虑语料较长,担⼼无关语句对嵌入的影响,因此尝试了对语料做关键词提取和概要生成的⽅法
- 原语料:
近3年来,九江市紧紧围绕“⼈本教育、公平教育、优质教育、幸福教育”的⽬标,努⼒办好人民满意教育,促进了义务教育均衡发展,农村贫困地区办学条件改善。⽬前,该市特⾊教育学校有70所,⻘青少年校园足球水平领跑全省。该市⼤力推进义务教育均衡发展,素质教育成果丰硕。公办幼儿园占比为34.59%,普惠性幼⼉园覆盖率达到70.88%,学前三年⽑⼊园率达85.76%,“⼊园难”“入园贵”得到有效缓解。浔阳区等9个县(市、区)顺利通过义务教育发展基本均衡县国家认定。去年11月,九江⼀中获评全国未成年人思想道德建设⼯作先进单位,同⽂中学、双峰⼩学和九江⼩小学获评第⼀一届全国⽂文明校园。该市切实改善义务教育学校特别是农村学校办学条件,努⼒缩小城乡教育差距。近3年,累计投⼊资金近40亿元,新建、改建扩建校舍⾯面积共170多万平⽅米,农村办学条件明显改善。同时,引进教师5634名,培训教师4.2万⼈次,较好解决了城乡师资结构性缺编、教师老龄化、术科教师缺乏等问题。为消除中职学校“散、⼩、弱”办学现象,该市率先启动职业教育资源整合改革试点工作,采取撤销、合并、转型、共建等措施,对不符合达标条件的中职学校进⾏整合。目前,全市原有的40所中职学校已整合为24所,达标中职学校有11所。同时,⼤力开展产教融合、校企对接等⼯作,年均为企业输送技能型⼈才8000多⼈。(记者何深宝)
- 概要:
- 概要:
- 关键词
- 关键词
- 相似度:比较summary生成向量与key word⽣成均值向量的相似度,以求能够对doc生成向量之间的程度和区别有⼀定认知。进⼀步随机测试了20个⽂文档用keyword和summary的相似度,得到mean为88%,从结果来看相似度较高。所以结论为:在⽂档质量较好的情况下(这次任务因为是政府公文应该质量较好),keyword和summary相似度较高,选择任意的都可以,可优先选择计算量/所需算⼒较小的。
- 相似度:比较summary生成向量与key word⽣成均值向量的相似度,以求能够对doc生成向量之间的程度和区别有⼀定认知。进⼀步随机测试了20个⽂文档用keyword和summary的相似度,得到mean为88%,从结果来看相似度较高。所以结论为:在⽂档质量较好的情况下(这次任务因为是政府公文应该质量较好),keyword和summary相似度较高,选择任意的都可以,可优先选择计算量/所需算⼒较小的。
- ES搜索结果:搜索“拉⾯”
- 在keyword嵌入的keyword_dense_vector的field内搜索:可以看到返回结果可能不含拉⾯但均与食物有关
- 在keyword嵌入的keyword_dense_vector的field内搜索:可以看到返回结果可能不含拉⾯但均与食物有关
- 在summary嵌入的summary_dense_vector的field内搜索:可以看到返回结果可能不含拉面但均与食物有关
- 在summary嵌入的summary_dense_vector的field内搜索:可以看到返回结果可能不含拉面但均与食物有关
- 实验发现,由于text2vec的⽅方法基于词向量,因此在词向量字典较小时,对原文去停用词+正则去掉数字等后仍然会存在词典中keyword不存在的现象,在词向量词典新增自⼰的词/根据语料库训练自⼰的词向量词典值得被尝试。再将语料料转为dense vector及导⼊入es中时采⽤用了了try+except,即可能因为key error及其他原因报错,下表为采⽤不同⽅式导入时能够成功导⼊的数量。从结果上看,由于keyword的成功率高且keyword与summary后的相似度较高,在实际中可以优先考虑将语料料提取keyword的形式
keyword | summary | 原文 |
---|---|---|
3549 | 1921 | 499 |
- doc2vec
- 概述:gensim库中调用,原理是分布记忆的段落向量(Distributed Memory Model of Paragraph Vectors , PV-DM),可参考 https://zhuanlan.zhihu.com/p/136096645
- 流程:doc2vec允许直接对自⼰的现有⽂本做训练⽣成embedding模型,较为便利的解决了text2vec中keyword不存在词向量的dict中⽽造成的报错。如果使⽤doc2vec,流程可以为:以现有语料库为训练集训练embedding model,对现有语料料库做关键词提取/概要,通过model得到向量量存入es doc中,对于用户搜索词做embedding,利⽤es做dense vector语义搜索。
- 对原语料进⾏了关键词提取、概要、原⽂后分别的向量化
- ES测试结果
- 嵌⼊入模型训练
- 嵌⼊入模型训练
- 模型测试结果:搜索“拉⾯”,期待看到相关结果,但结果差
- 模型1
- 模型1
- 模型2
- 模型2
- 模型3
- 模型3
- 模型4
- 模型4
- 结论:Doc2Vec在处理⼤量数据时效果更好。⼤多数据在数万到数百万个⽂档上进行的,每个⽂档都有⼏十到⼏千个单词,这⾥doc2vec效果不不好的原因可能在于数据量不够导致的模型欠拟合。
百度SKEP模型
- 在以word2vec为代表的词嵌入模型后,有工作在其中加入情感知识,然后将融合情感知识的词嵌⼊应⽤到情感分类中。相对的,SKEP研究了在BERT模型的预训练过程中加入情感先验知识。
- 情感先验知识的获得
- 定义情感先验知识有两种:情感词和属性词 - 情感词对
- 情感词的获得
- ⼈工定义/选取⼀部分的情感词,然后用PMI作为指标进行扩展,得到最终的情感词集合
- ⼈工定义/选取⼀部分的情感词,然后用PMI作为指标进行扩展,得到最终的情感词集合
- 属性词 - 情感词对
- 和情感词相距不超过3的名词,即为对应的属性词。The maximum distance between the aspect word and the sentiment word of a pair is empirically limited to no more than 3 tokens.
- Mask:为训练准备数据
- Aspect-sentiment Pair Masking:遮盖属性词-情感词对,一个句子中随机遮盖,最多遮盖两对。
- Sentiment Word Masking:遮盖情感词,被遮盖的情感词数量不能超过当前句子总词数的10%。
- Common Token Masking:在遮盖情感词这步中如果遮盖数量少于10%,则进行通用词遮盖,随机抽取句子中的词遮盖,和RoBERTa的⽅法一致。
- 预训练
- 目标函数
- 由三部分构成:情感词⽬目标函数 Sentiment Word Objectives(LswL_{sw}Lsw )、情感极性词目标函数 Word Polarity Objectives(LwpL_{wp}Lwp )和属性词-情感词对⽬标函数 Aspect sentiment Pair Objectives(LapL_{ap}Lap)。
- L=Lsw+Lwp+LapL = L_{sw}+L_{wp}+L_{ap}L=Lsw+Lwp+Lap
- 情感词目标函数
- 情感词目标函数
- 情感极性词⽬标函数:和情感词⽬标函数类似,情感词⽬标函数中的任务在预测被遮盖的词,这⾥在预测被遮盖词的极性
- 属性词-情感词对目标函数
- 属性词-情感词对目标函数
- 实验结果和数据集
- 下载地址:https://github.com/baidu/Senta
- 下载地址:https://github.com/baidu/Senta
需要的帮助
- 如何评价doc embedding的好坏:我了解到对于词向量有些例如analog:“女人+国王-男⼈人=皇后”之类的评价⽅法,但 1. 需要相应有标签的数据集,2. 可能不能直接适用doc embedding
- 如何在上线前判定搜索返回结果的好坏:从⽂件上了解到我们会通过⽤用户是否选取推荐语料的点击量来衡量模型的好坏,但在模型上线接触到用户前要如何选出较好的模型/方法。
- doc2vec⽅法的效果不好很可能在于数据量过小,是否能/有必要用在服务器上测试大数据集
实习周报 | 3rd week | 2021.4.19 - 4.23 | 文本摘要,ES语义搜索,SOTA SA相关推荐
- java实习第一周周报,大学生实习周报
无论学习什么专业,从事什么职业,我们都需要提前实习啦,把理论知识结合起来运用到实践当中去.下面是由出国留学网小编为大家整理的"大学生幼儿园实习周报十周",仅供参考,欢迎大家阅读. ...
- 职教平台粉笔科技递交港股IPO招股书:2021年1-9月营收26.3亿
2月28日晚间消息,职业教育平台粉笔科技向香港联交所递交IPO招股书,正式启动上市计划,中金.花旗.美银证券为联席保荐人. 招股书显示,粉笔科技主营业务为成人职业教育服务,在线培训.线下培训以及教材. ...
- 如何当好硬软件助理工程师——实习周报(一)
如何当好硬软件助理工程师--实习周报 如何当好硬软件助理工程师--实习周报(一) 文章目录 如何当好硬软件助理工程师--实习周报 前言 一.问题积累 1.git 指令 2.Coding的使用 3.代码 ...
- 2021年1-9月墨天轮最受欢迎的20篇技术文章
自墨天轮社区成立以来,众多的的数据库相关从业者们在此相聚,大家技术专业.热爱分享.乐于交流,将自己日常的工作经验.技术雷区.学习笔记分享于此. 这些来自数据库系统架构.中间件.性能优化.交付等等不同岗 ...
- 一个女生物联人的自学单片机笔记2021.1.19(单片机---准备阶段)
Hello!宝宝们,今天是2021.1.19,这里是甜小姐的后花园. 这是我的第一篇博客,以后这里就是我的秘密基地啦!我会在这里分享自己的心得和学习到的知识和体会,嘀嘀嘀,同时呢也会分享我自己的心情, ...
- 太原理工大学软件学院19级数据库实验三(2021.4.19)
太原理工大学数据库实验三(2021.4.19) 以下代码需按步骤复制到查询控制台 博主用的软件是DataGrip,与SQL Server Management Studio在操作上有些差别 1.以Wi ...
- 2021.3.19两场面试总结
2021.3.19两场面试总结 第一场:10:30 java实习生 第二场 14:00 java实习生 第一场:10:30 java实习生 ①简单的自己介绍 ②根据所做项目提问语言.框架.前端.后端等 ...
- 尚硅谷——谷粒商城项目开发记录——2021.11.19
尚硅谷--谷粒商城项目开发记录--2021.11.19 出现错误 1.SpringBoot测试类出现Could not autowire. No beans of 'BrandService' typ ...
- 2021年11月23日对自己的一次鼓励
2021年11月23日 author:陈镇坤27 创建时间:2021年11月23日15:23:31 ------------------------------ 学习犹如逆水行舟,不进则退 从今年7月 ...
最新文章
- 什么是事务的传播_这么漂亮的Spring事务管理详解,你不来看看?
- 8.6亿个人信息被偷 网络安全团队曝光交易内幕
- Powershell指令集_2
- 1git命令的使用,查看git仓库状态,添加文件到git跟踪,git提交,查看git分支,查看git仓库日志信息,切换git分支,解决git分支合并后出现冲突的问题
- WordPress打开速度很慢的解决方法
- 一种简单定义FourCC常量的方法 (C/C++)
- linux 如何获得后缀_Bugku:杂项 linux
- burpsuite全套使用教程
- gcc的简单使用教程
- Swin Transformer V2!MSRA原班人马提出了30亿参数版本的Swin Transformer!
- redhat 7 oracle 11,redhat7 搭建oracle 11g RAC 问题与处理
- 转Windows 2003服务器安全配置终极技巧
- Delicious Apples
- 代数数、超越数、代数函数、超越函数
- python numpy读取数据_numpy中以文本的方式存储以及读取数据方法
- Perl操作excel2007的模块
- 2022年第十四届蓝桥杯模拟赛【核酸日期】C语言详解
- 常见的数据可视化方式
- 无线地磁传感器更适合路边停车系统
- 身份证OCR识别是什么?