11/22 购置了华为云服务器,将学校服务器上的所有内容转到了新服务器上,并复制了原数据库。经调试后所有功能启动,原服务器暂停运行,作为应急备份。

11/24 在谈话中明确了算法的方向。XiaoHu曾经走过概率化和规则化两种意图识别的方式,在尝试过两种方案后,我得到了概率化惨不忍睹的结果。于是我投入规则的怀抱,利用表达式的思想搞了句式拟合算法。当时我只知道这种方法在XiaoHu的环境里表现良好,但并没有过多总结。今天终于知道是因为我的数据量太少才导致无法用训练的方式得出模型,一般的神经网络模型少则需要104的数量级,而我每个技能的语料也就是101的数量级,这103的差异导致网络会把数据中的误差无限放大,因为增大数据量才能使误差变小,而现在的结果是网络把误差总结为了规律。而规则化的方法则在少量语料的环境中表现良好,所以我才使用了句式拟合。但是规则算法的最大短板是它非常依赖于规则的合理性,如果两个规则中出现了交集,那么就会出现识别出多个意图的情况,还需要搞出对应的分数来确定到底选哪个意图,现在我用的是体积分数。

所以现在如果想做大数据量的学习,只能把从其他网上开放的语料改一下,做数据迁移,但是网上都是打车、客服等语料,谁会搞学生查课查成绩的语料?大规模学习难如登天。

剩下的一条路线是对规则的改进。我总结出出现意图混淆的原因是纯基于名词、动词排列的意图判断是没有较高判别性的,如果要提高判别性,只有把句子中其他的词汇也利用上,但是也不能让语料中的所有词性都在用户语句中全部出现,所以我之前计划采用一个分数的设定,名词动词具有较高分数,介词副词具有中等分数,其他词汇分数较低,形容词则忽略。对于每个技能都要指定不及格的阈值和确定意图的阈值,而且每个技能下每个词性的权值都要单独确定。我可以对于权值采取拟合式的措施,但是人工拟合还是机器拟合?还需要判断。

另外我还发现可以直接用句式拟合实现槽填充。一句话来说,只需要把对应的slot理解为一个名词。这里的slot可看做相同性质entity的集合,一个entity由若干有表示度的word来表示。在匹配时它们自下而上互相决定,这个思想我在给服装设计俱乐部开发的机器人里有体现。

11/28 和孙老师进行谈话。确定了XiaoHu与垃圾分类的合作方向,包括对于某种物体的垃圾归属查询,一些其他细碎的功能并入校园百事通。

12/1 发现了一个比原来用的苏州的垃圾分类网站更好的北京的垃圾分类网站。它在我校园场景下的测试里表现良好。我通过小爬虫爬取上面的数据来为我所用,为了应付用户有时的长短语查询如“苏格兰奶茶”,我在整体查询失败后,会分词并对每个分出来的词来查询,在有查询结果的子词中挑取体积最大的。

我还在一篇blog上看到了一个新颖的思路:识图垃圾分类。具体逻辑就是通过对物体图像的识别确定物体的种类如“纸张”,然后再把这个结果套进数据库里。这样其实是让数据库的输入更加稳定,像之前的课表查询一样把输入确定在某一集合之内,是方便我维护的,而且这个想法也很酷。

12/2 想好业务逻辑后,开始动手实现垃圾分类。全程没有什么阻碍,两个小时把两个功能全部实现,测试体验良好。晚上回家完成了内部用户机制,垃圾分类作为体验功能开放,为所有有体验权限的粉丝团员分配了只能生效一次的激活码来激活权限。

晚上时收到一名粉丝的反馈,她发现iphone在用微信里的拍照给XiaoHu拍摄照片时XiaoHu经常有“出现故障”的问题。我在后台进行观察调试后,发现出现故障是因为后台的处理时间超过了5s,而耗费最多时间的是图像识别的部分,推理得出图像识别时间与图像文件大小正相关。所以我计划通过压缩的方式减少图像大小,使用PIL.image的quality来控制。我本以为这个过程会很好写,谁知道我却深陷在base64,byte,二进制文件和image间的互相转化泥潭里。在折腾两个小时后,我最终选择生成两个缓存文件来保存压缩前图片和压缩后图片,用完即删。但调试完测试时,我发现不加压缩时的微信拍照小虎也是不会出现故障的,生产环境的代码没有改,相当于自变量只有时间,也就是折腾一晚上后我发现我什么作用也没有起到。

12/3 XiaoHu在没有查询到一个物体的查询结果后,会把这个物体记入数据库以便我来处理这些没有被照顾到的数据,我对数据库进行了整体并加了去重。在测试时我发现生产环境里的XiaoHu竟然在处理普通照片时都会花费很长的时间,甚至超时。我在测试环境里测试时,XiaoHu压缩图片后的图像识别速度明显变快。最终我把图像压缩更新到了生产环境里,测试时表现良好。我设定了300kb是图像处理是否超时的阈值,XiaoHu的图像压缩最多只能到原大小的10%,所以我让XiaoHu在接受到3mb以上图像时就拒绝处理,这种情况一般是用户发了“原图”。所以我昨天的一晚上还是有很大作用的,至于为什么出现两天两次测试结果的差异状况,我认为是我测试用的iphone型号太老,摄像头拍摄的照片本身就在300k以内,而我的手机拍摄的照片偏大,微信压缩后有的照片都超过了300k,导致了XiaoHu的超时。

XiaoHu日志 11/22~12/3相关推荐

  1. 最强工程项目进度计划管理系统Oracle Primavera P6软件最新版本 22.12发布啦,新特征介绍

    目录 一:前言 二:P6 22.12 新特征(EN) 三:P6 22.12 新特征(CN) 一:前言 近日,甲骨文(Oracle)公司发布了最新版本Primavea P6 2022版,最新版本号 22 ...

  2. Oracle P6 Professional专业版 22.12 中的热门新功能

    目录 一:特色功能 1.1 并排查看项目 1.2 在复制与 WBS 元素的关系时具有更大的灵活性 1.3 更轻松地确定要分配的正确基线 1.4 复制并粘贴电子表格中的单元格区域 二 其他新功能 2.1 ...

  3. [svc]linux常用手头命令-md版-2017年11月12日 12:31:56

    相关代码 curl命令-网站如果3次不是200或301则报警 curl -o /dev/null -s -w "%{http_code}" baidu.com -k/--insec ...

  4. 【云周刊】第146期:史上最大规模人机协同的双11,12位技术大V揭秘背后黑科技...

    摘要: 史上最大规模人机协同的双11,12位技术大V揭秘背后黑科技,INTERSPEECH 2017系列 | 语音识别之语言模型技术,机器学习初学者必须知道的十大算法,云数据库SQL Server 2 ...

  5. [18/11/22] 将点分十进制的IP地址化成二进制输出

    1 #include <stdio.h> 2 void binary(int d){ 3 int i=0,j,n,b[8]={0}; 4 while(d>0){ 5 n=d%2; 6 ...

  6. 分享Silverlight/WPF/Windows Phone一周学习导读(11月6日-11月12日)

    分享Silverlight/WPF/Windows Phone一周学习导读(11月6日-11月12日) 本周Silverlight学习资源更新 [Silverlight]关于对Canvas.ZInde ...

  7. 修11代12代希捷坏道

    当前很多7200.11,12的盘都要过保了,返厂保修期长,客户不愿等,于是自己根据网上的指点,试着去修这些盘,发现用小写的m指令很管用,在不要数据的前提下,3~4小时就能修好一片坏道盘.好了不多说了: ...

  8. 探讨关于Flash Player的更多线索(22.12.28更新)

    Flash即将在2020年底停止支持.如果仍然有一些业内业务需要Flash我們应该如何应对,这里找到了更多的线索. 22.12.28更新:小花仙和赛尔号的微端下载链接都已经更换.本文相应的下载链接也已 ...

  9. Jenkins持续集成学习笔记(2020.11.22)

    Jenkins持续集成学习笔记(2020.11.22) 前言: (官网) 以前很久学习过Jenkins持续集成进行快速部署项目进行测试, 最近换工作了, 发现新公司有用到, 现在来复习一下 官网介绍: ...

最新文章

  1. mysql if countif_关于EXCEL IF COUNTIF 在查找数据的用法
  2. 深度学习必备:随机梯度下降(SGD)优化算法及可视化
  3. java二进制转十进制代码_二进制转十进制java代码
  4. 设计模式---组合模式
  5. 仅用10个月!中国高中生拿下Kaggle Master,怎么做到的?
  6. Elasticsearch单机安装
  7. 分布式服务框架XXL-RPC
  8. [2018.07.14 T3] B君的第六题
  9. 脱库站库分离渗透解决MySQL禁止外连
  10. 豆丁网免费下载软件(冰点非常好用)
  11. 如何实现 1 小时内完成千万级数据运算
  12. 单片机进阶---PCB开发之照葫芦画瓢(一)
  13. 面试经历【平安科技】
  14. __FILE__显示全路径的问题
  15. og标签对SEO的作用及用法
  16. 缓冲区溢出攻击(含示例)
  17. 趣图丨阿里p6大概啥水平?是不是不行?
  18. c语言 生化危机游戏,生化危机6佣兵全人物+服装解锁
  19. LXMERT:从Transformers学习跨模态编码器表示LXMERT: Learning Cross-Modality Encoder Representations from Transfors
  20. 金融信贷业务-贷前整理

热门文章

  1. About Dfc environment
  2. 配置计算机名和工作组,TCP/IP地址配置,网络连通性测
  3. python的self.boardx -= 5 什么意思_python小白求帮助
  4. Caused by: java.io.IOException: APR error: -730053
  5. uniapp中使用lodop打印控件实现app广域、局域网打印功能,亲测可用
  6. 图片头顶距离顶部百分比怎么修改_ps如何修改图片文字 ps怎么修改文字
  7. Mask R-CNN学习笔记
  8. notepad++使用NppExec插件找不到或无法加载主类(java)
  9. 2021美赛Latex排版美化 完整代码2
  10. adb命令行打开Android settings