应该说参加这个比赛很累,完全低估了自然语言处理的难度和复杂性。不过经过这个比赛,熟悉了自然语言处理的分词ICTCLAS和句法分析Stanford Parser建立句法树进行处理的流程,同时也写了海量的正则表达式用来问题分类,还有就是理解了自然语言处理是多么的难。

首先,讲一下我对问题的理解。我的理解可以将问题划分为 问题分类,问题关键词匹配和 问题语义理解三部分。

首先说一下问题分类,问题分类,我们将问题拿过来,首先想到的就是问题的所在的领域。

第一次尝试:  我们参考了一些国内的和国外的问题分类模型和文章,将问题按照领域分类,人物类、历史类、电影、汽车呀、娱乐呀等等的,其实也想跑到搜狗的细胞词库下载了海量的分类词库词库过来使用。不过后来发现这种方法效果不好的,因为首先百度比赛的时候每对句子之间的相似度其实是挺高的,而且只是句子的表达和句法不同而已,基本上每个句子都是属于同一个领域的。

第二次尝试: 我们按照问题的疑问词和问题的内容对问题进行分类,即对问问题的目标(典型的例子:1 人民大学在哪里?(地点类)人民大学怎么样(评价类)?人民大学的校长是谁(人物类)?)。因为标记的数据只有800条,就这800条,也标注很累的了。如果使用统计的方法,很容易就可以确定特征值提取和选取正则表达式进行分类的。现在我们因为缺乏语料库,只能人工手动标注了这800条数据,还是很少了。对着这800条数据,编写了好多好多的正则表达式来方便对问题进行分类。这个就是导致我编写了超过80条以上(如果包含使用|,区分的表达式数目)的正则表达式 ~ ~ 。

第三次尝试:这个时候就是用ICTCLAS分词程序对句子进行分词。分词之后,直接比对A句子中的词语和B句子中的词语的重复出现的数目了。典型的就是A中的词语在B句子中出现的,然后呢B句子中不在A句子中出现的词语的数目要很少。当然这一步的副作用就是,我们需要编写海量的同义词库。人工手动的编写了测试数据集中的同义词库,耗时2人*天。这一步结果算出来之后呢,效果还行吧,反正就是从一开始毫无希望,让我们看到了一丝希望。具体的就是A中的名词、动词等一定要在B中出现,

第四次尝试:以失败而告终。第一名此时最后一点一直优化,F值已经达到了0.66了。我们的还在0.52进行徘徊的。这次尝试是希望使用句法树来进行语义解析的。首先这一步最好的并且最优的我觉得就是,首先使用正则表达式将句子分类为很多很多的类,然后对每个小类再识别句子的主题词和重要的位置。比如 你为什么吃西瓜。按照”为什么“,前后的词语重要性就是  你,西瓜   很重要的。对这个问题希望提取出重要的主题词为 你,西瓜。  但是这个方法由于到最后已经十分耗时了,而且我们的精力有限毕竟没有最终实现的。最后的结果就停留在0.511左右了。但是小伙伴们我们已经尽力了,期间因为这些不靠谱的比赛,哎不说了。我很想解释计算机方向的比赛其实都很难的,特别是热门方向上。特别是NLP这个人工智能最难得问题,哎。

最后的总结就是,自然语言处理不是直接就能搞的。这个需要长时间的积累,如果我们在一个搞自然语言处理的实验室,有语料库和具体的分析应该会好很多的,还有就是人数太少,两个人标注数据基本也不够的。还有一个就是这里用户的问题都是口语化的,这个对分词系统也带来了很大的挑战,很多词语,“咋能” ”咋样能“,没有最坑只有更坑。还有比如 “色戒里面男主角杀了女主角么?”  “色戒里面梁朝伟杀了那个女主角么?”,诸如此类的种种,真实没有办法分析的。

后面根据我和面试官的聊天发现我以后应该更加专注于一个小点上,我希望可以适用一句话来介绍我自己的研究方向和学习的方向的。自然语言处理这个比赛只能说是过来打打酱油的了。不过中途看了一些文章,了解了自然语言处理的分词和句法树的技术。而且从现在来看我们的自然语言处理的解决方案写的还是太简单了的,无比基础,虽然中文自然语言处理技术确实比较难。没有语义语料是硬伤,最近看了LSI的模型觉得隐语义模型是对这个比较好的一个方向。

还有最不爽的就是遇到了360的面试官,他说你做这个干什么,你本身又不是做自然言语言处理的。其实仔细想一想也对,我一定要找好自己的职业发展方向,在一个点上发力。这样才是最好的。

教训:

我想想我之前看过什么书哈,看过C++,看过linux操作系统,看过java开发,搞过Android开发,搞过算法,搞过数据挖掘,搞过自然语言处理,这样太乱了,不行的。一定要找一个自己擅长的方向,并且一句话就能概括你这个人的技术特长的,一定要有技术特长。术业有专攻的。

失败原因总结,NLP太复杂,没有相关的语料积累,对于语义理解不熟悉。我看了一篇learning to understand the meaning of sentence,觉得我们还是做的太简单了。以后有时间,我也会看一些NLP的知识的,补充过来。

参考文献:

某牛人写的自然语言处理的简介文章:http://www.matrix67.com/blog/archives/4212

漫话中文自动分词和语义识别(下):句法结构和语义结构: http://www.matrix67.com/blog/archives/4870

我爱自然语言处理,自然语言处理傲慢与偏见:http://www.52nlp.cn/

LSF随机句法分析http://wenku.baidu.com/view/4032ecd4195f312b3169a535.html

PS:大赛网址:http://openresearch.baidu.com/topic/52.jspx

百度Q-T语义一致性比未获奖 (总结)相关推荐

  1. C#调用百度地图API入门解决BMap未定义问题

    本文主要是最近帮助好友研究JavaScript的百度地图API,同时显示到C# Winform界面.同时遇到了BMap未定义的错误(BMap is not defined)及解决方法.以前写过基于An ...

  2. 百度AI语音语义一体化技术 识别的同时进行语义分析

    7月4日,百度AI开发者大会(Baidu Create 2018)盛大召开,在下午的百度大脑论坛上,百度语音技术部总监高亮公布了百度基于远场的语音语义一体化技术的三项重大突破,包括基于远场的语音语义一 ...

  3. 百度统计网站流量出现“代码未生效”的应对情况

    解决"代码未生效" 你可能像我一样,使用百度统计来统计网站的访问情况,但是我在按照官方给的方法添加入我的js统计代码时,在百度统计管理台检查显示"代码未生效". ...

  4. win7升级Win10之360百度等升级助手均因系统未激活不可升级

    上个月,每天开机还有win10升级推送消息,因为傲娇就是木有装.现在想在2015年最后几天免费升级个正版win10,忽然发现更新推送消息木有啦.... 然后问度娘,据说百度啊,360啊啥啥的,都联手微 ...

  5. 陆奇交还百度COO权杖背后:功未成 身已退!

    ▼ 点击上方蓝字 关注网易智能 为你解读AI领域大公司大事件,新观点新应用 2018年5月18日,在百度奋战了整整16个月的陆奇退出一线. 百度公告称,百度集团总裁兼COO陆奇由于个人和家庭原因,无法 ...

  6. 百度云域名解析如何添加? - [未完待续]

    百度云域名解析如何添加 百度教程: 点击前往查看 从没发现,百度云这么坑爹,买了个服务器,控制中心操作一头雾水(相关服务器域名管理的东东查起来真真是乱的一笔糟!!!),搞起来这么麻烦. 一. 域名实名 ...

  7. Android App后台、锁屏运行,百度定位不实时定位。未解问题,求大神指教?

    细节描述: 功能需要实现:App 一直给后台上传经纬度.(正常运行,后台运行,锁屏运行) 问题描述:红米Note 5A. 在A点,App 锁屏,走到B 点,然而在A---B之间一直上传的是A点锁屏前的 ...

  8. 网盘用户分享独播剧链接 百度未及时封禁一审被判赔偿百万余元

    [TechWeb]12月22日消息,据海淀法院官方微信发布的消息,近日,海淀法院宣判了原告优酷网络技术(北京)有限公司诉被告北京百度网讯科技有限公司侵害作品信息网络传播权纠纷一案.法院判决百度公司赔偿 ...

  9. 死链提交为什么不能提交 html文件,百度提交网站后死链一直未处理掉的原因有哪些?...

    上次成都SEO的网站出现死链接之后,按照处理方式处理后,但是还是没有处理掉,柴叔分析了一下其主要原因有以下几点:百度提交网站死链一直未处理掉的原因有哪些?分享给各位希望后面用得上: 1.站点质量因素: ...

最新文章

  1. 阿里云的一些奇怪问题及服务器配置
  2. 人脸识别简史与近期进展
  3. avcodec_decode_video2 第三个参数 got_picture_ptr 的含义
  4. Python3 字符串format使用代码示例
  5. Linux学习笔记03
  6. 530并行日:用超算更省心
  7. rabbitmq安装centos7
  8. 停止计算机sql服务,“本地计算机上的SQLSERVER服务启动后又停止了”解决方法
  9. php表格列宽拖拽,JavaScript_JQuery拖动表头边框线调整表格列宽效果代码,类似于桌面程序中的表格拖动 - phpStudy...
  10. 关于ArcObjects图层编辑的读写编辑锁
  11. apiDoc之api接口文档生成
  12. 极光不支持html5推送,Flutter 使用极光推送进行api和本地定时推送
  13. 英文标题中的字母大写规则
  14. linux调整tmp目录,linux – 如何将默认/ tmp更改为/ home / user / tmp
  15. 我们怎么保证软件开发的质量?
  16. 重磅!22张深度学习精炼图笔记总结!
  17. 基于android的电子词典设计_基于Android平台下的电子词典的设计与实现
  18. Linux查看系统资源信息
  19. GitHub 仓库与域名绑定
  20. Linux驱动开发 / fbtft源码速读

热门文章

  1. 【数据结构与算法】数据结构+算法=程序
  2. 原画师一般用什么软件画画?原画师需要用到什么工具?
  3. html5悬浮圆圈背景动画特效,html5圆圈浮动背景动画特效
  4. 远程连接linux虚拟机和破解虚拟机密码
  5. 电子产品电池使用年限计算
  6. emui11升级成鸿蒙os,华为EMUI11正式发布,今年12月可升级为鸿蒙OS2.0国产操作系统...
  7. NLPIR-ICTCLA2018分词用户大会线上抢票报名开始
  8. git add .卡住不动
  9. 枸杞功效多,这样吃效果翻倍
  10. 这款国产工具,让我电脑里的PS、XD都落灰了