http://www.ailab.cn/view/201605172793.html

按:做语义分析的工资雷锋网接触得不算少,但说要从“哲学层面”解决语义分析问题的,LSK是第一个,雷锋网感到很好奇,于是找到陈严他是LSK深度人工智能的联合发起人,另一位发起人陈峰常驻甘肃。

陈严:LSK是一套基于认知的语义识别方案。LSK分别对应Language、Semantic、Knowledge。

Google的语义分析是这么做的,最早它是用关键词来匹配,从数据库里区匹配最接近的结果;后来开始理解语法,梳理主谓动宾状的语法树,这就涉及分词。英语的句法结构是比较规整的,而且词和词之间有空格,不需要分词,但汉语不一样,"我吃了一个苹果",是把"我吃"当成一个单位,还是"吃了"当成一个单位呢?我记得Google后来是和一家叫海量分词的公司和合作,做了大量的分词,但这个也只能解决一部分问题。

Google翻译的结果其实是不那么令人满意的,我们随手输入“苹果红了”,它翻译成“red ”,其实是不准确的。

人对事物的识别建立在一套认知系统上,语言只是一种表现形式。我们决定从认知层面去着手,首先我们要建立一套知识体系,比如“吃”这个字说起吃,我们头脑里会想到吃了什么、谁吃了、在哪里吃的、吃了还是没吃是一套复杂的认知体系,LSK是建立在这套认知系统上的语义识别。

语义的表现形式多种多样,但内核其实都是类似的,如果机器“知道”这个词什么意思,就不会被语音的表现形式迷惑,“吃了吗你”、“你吃了吗”,系统会得出相同的翻译结果。我们的系统学一个词就是一个词,它把“吃”学透,学习的词汇越多,就越准确。

雷锋网:团队的技术背景大多是怎样的?

陈严:技术背景不重要,核心人物才是最重要的,爱因斯坦写相对论的时候是一个人写的,不是找了一堆人写的。这类问题能想清楚的只是一个人,最多两个人,世界上所有的发现都是这样的。

雷锋网:咱们团队里面那个人是谁?

陈严:陈峰,山峰的峰。

我和他都是甘肃电信的,我们被派到北京三年,后来电信整改等等一些原因,我们离开电信系统回了甘肃,开始做LSK。同时我们也有别的事情在做。

他学地质出身,17岁开始搞计算机,我们一起经历了很多事情。发明创造都是有机缘巧合的,经历了很多事情之后,突然有一天他就想通(语义分析)这个问题了,就像那个苹果砸到牛顿头上,突然想通了万有引力。

图为在国家知识产权局主管的中国及多国专利审查信息查询系统中输入“统一对象标识技术”的结果,显示没有匹配的结果。

雷锋网:但是这样的人只适合一些学术研究、发论文,真正要做产品,还是要很多人去做一些工程性的工作吧?

陈严:我们还没有开始融资,也没有产品化,只要开始落地,技术合格的人容易招。陈峰这样的人凤毛麟角。

雷锋网:这类型的人才,院校里面应该很多。

陈严:院校里面都是基于算法去做一些事情,其实算法是第二位的,第一位的是结构。神经网络是也是算法。

雷锋网:神经网络是算法的话,那它对应的结构是什么?

陈严:对应的结构……神经网络我还真不是很懂,我感觉它是模拟人脑的结构,可能更偏重学习。

按照Google的关键词匹配的方法,它只能解释库里有的,遇到系统里没有的事物就没办法。但所有的未知知识都是由已知知识去描述的,在我们的体系里面可以做到这一点。

我们上升到哲学层面去解决这个问题,世界上的事物之间的关系归根结底都可以由拥有、属于、时间、空间等等一些基本词汇来描述,“苹果红了”,是苹果拥有红色,还是苹果属于红色?空间和时间的定义,都可以由这些基本词汇去描述,这些词汇只有11个,全世界的知识都逃不出这11个词。

理论上是这样的,但实际的系统实现遇到的难题很多。

雷锋网:这个有点超乎我的认知。

陈严:比如社会关系学,就是人与人之间的关系,人与人之间的关系可以由一些词去描绘,这些特定的词可以抽象出来一定要抽象到最高级也就是最底层的东西。自然语言认知的层次:关键字、语法层、逻辑层、哲学层、抽象层,一共五层,我们给微软顶多看到第二层,它就已经很吃惊了;科大讯飞看到我们的技术文档,只说了一句话:“这根本做不出来”;跟薛蛮子也谈了,他感兴趣,但是又不投钱。2012年,我们谈了不少投资人,总觉得对不上。

当时自己状态也不好,不知道在哪里落地,应答、舆情分析、翻译,具体产品的方向没有确定,拿去做语音导航似乎又体现不出优势,加上自己还有一些国土资源方向的项目在做,融资的事就放下了,但技术一直在进展。陈峰这几年全职在做这个事情前些年做国土项目有一些积累,足够他只专心在这一件事情上。

现在我们更完善了,原先可以理解句子,现在可以理解100字左右的长句子。我可以讲解一下它是怎么推理的,比如“陈严借给林总一本书”,LSK可以推断“林总需要还给陈严一本书”,这是它自己产生的,已经具备逻辑思维了。

雷锋网(搜索“雷锋网”公众号关注):过去6年,LSK的技术团队主要在做什么工作?

陈严:没有团队,就他一个人,就陈峰一个人。过去6年,他就在研究哲学问题,然后把它转化成知识性的东西。

陈严给雷锋网演示了一个DEMO,显示LSK是如何工作的。做NLP的读者可以看看,是否能看出端倪。

遗憾的是,陈严的手机上没有装APK(他说并没有开发安装包),而陈峰远在甘肃。除了这个视频,雷锋网并没有获得其他测试产品的机会。对于这个产品以及陈严描述的原理,雷锋网有一肚子的问号。

当雷锋网向一位同是做机器翻译(并且已经成规模,有稳定的商业模式)的表达疑问,说感觉有些“民科”,他隔了三四个小时给我回了一段话:

“似乎确凿就是民科。刚刚去找来"LSK理论"著作拜读了一下,通篇没有任何形式化定义。至少以目前的计算机原理来说,这是不可计算的。”

懂行的朋友出来说个究竟?

附注:雷锋网将于8月12、13日在深圳举办全球人工智能与机器人创新大会,会议召开的同时我们将颁发Top25人工智能创业项目的榜单。目前我们正准备遍访机器人、人工智能、无人机及自动驾驶相关的创业项目,有杀错,没放过,如果觉得自己是这个行当的顶尖企业,欢迎发邮件到 1020@leiphone.com 自荐。

做自然语言的LSK 说要从哲学层面去解决语义分析问题相关推荐

  1. 如何用深度学习做自然语言处理?这里有份最佳实践清单

    如何用深度学习做自然语言处理?这里有份最佳实践清单 By 机器之心2017年7月26日 14:16 对于如何使用深度学习进行自然语言处理,本文作者 Sebastian Ruder 给出了一份详细的最佳 ...

  2. 从哲学层面浅谈计算机学习方法论

    这篇文章会从更高的形而上的角度来审视自己的学习.其中的思想来源比较复杂,主要是受了老子.王东岳.李善长.古典文学和计算机科学等的影响,不知其所踪. 学什么? 抽象模型 庄子说过吾生有崖,知无涯.以有限 ...

  3. OSChina 周日乱弹 —— 做一只舔狗,开心时就去舔她,不开心时就舔自己

    2019独角兽企业重金招聘Python工程师标准>>> Osc乱弹歌单(2019)请戳(这里) [今日歌曲] @温家成 :分享连诗雅的单曲<水星逆行> <水星逆行& ...

  4. python学到什么程度可以做兼职-Python学到什么程度才可以去找工作?掌握这4点足够了!...

    大家在学习Python的时候,有人会问"Python要学到什么程度才能出去找工作",对于在Python培训机构学习Python的同学来说这都不是问题,因为按照Python课程大纲来 ...

  5. 如何做会议直播,要是卡顿了该怎样解决

    线上直播形式多样化,直播的花样也挺多,一场好的线上直播需要策划加特,现场直播团队执行支持,才能做一场完美的线上直播活动.医疗学术会议,线上培训会议,还是传统的论坛峰会,今年都统统的搬到了线上,很多线下 ...

  6. 【日照百度推广seo】想要转行做SEO?《SEO面试指南》拿去!

    [ 日照百度推广seo]想要转行做SEO?<SEO面试指南>拿去!又到了一年一度的毕业季,不少同学发现学了四年的专业特别不好找工作,怎么办?当然是换换换专业,不换专业难道要等着毕业即失业吗 ...

  7. 用飞桨做自然语言处理:神经网络语言模型应用实例

    允中 发自 凹非寺  量子位 报道 | 公众号 QbitAI 编者按: 语言模型的身影遍布在NLP研究中的各个角落,想要了解NLP领域,就不能不知道语言模型. 想要让模型能落地奔跑,就需借助深度学习框 ...

  8. 手把手教你做自然语言理解智能对话的微信小程序【核心源码】

    闲聊-智能对话:微信小程序详解 重要提醒:第三方私人语音接口已关闭,现已更新至官方语音接口,如有问题请联系博主 重要更新!!!! 现在"智能聊"小程序支持语音输入了!!!!! 完整 ...

  9. 用Python做自然语言处理必知的八个工具【转载】

    Python以其清晰简洁的语法.易用和可扩展性以及丰富庞大的库深受广大开发者喜爱.其内置的非常强大的机器学习代码库和数学库,使Python理所当然成为自然语言处理的开发利器. 那么使用Python进行 ...

最新文章

  1. 安装 Windows 7 64位系统 相关注意事项
  2. [密码学] 密钥分发
  3. 对PostgreSQL中后台进程内存挂载的初步学习
  4. 成为优秀的Java程序员要具备哪些技能?
  5. 【Java】探究Java方法的参数传递是值传递还是引用传递
  6. 算法高级(9)-线程池的实现方式
  7. @configurationproperties注解的使用_徒手使用SpringBoot自定义Starter启动器
  8. linnux 流量控制模块tc_FS4008-40-08-CV-A气体质量流量计【汉川仪器】阿坝资讯
  9. 引用当前网站集下的样式文件
  10. Linux文件导出到Windows乱码的问题
  11. oem10g grid control
  12. mac safari java插件_如果提示您信任或更新 Mac 上 Safari 浏览器中的插件
  13. 键盘上所有特殊符号的英文读法
  14. Microsoft Excel 教程:如何在 Excel 中创建图表?
  15. docker部署jpress详细版本
  16. Android 通过FTP方式下载服务器文件
  17. 中国海上风电行业十四五运维策略及供需形势分析报告2021-2027年
  18. 《Python开发 - Python杂记》Python与C/C++混合编程
  19. 携职教育:为什么要考中级会计证?落户补贴、职场进阶…
  20. 大话设计模式之爱你一万年:第二十三章 行为模式:解释器模式:在也不用担心工资计算错误了:1.解释器模式

热门文章

  1. RTP 发送PS流工具(已经开源)
  2. 数字统计之统计页码数字出现的次数
  3. 【JS】console.log()打印出五彩斑斓的黑
  4. 弘辽科技:网店点击率低怎么办?点击率多少正常?
  5. pdf转换器免费版哪种好用:Aiseesoft PDF Converter Ultimate | 无损转word转Excel转PPT转图片啥都行!!!
  6. fontsquirrel字体安装(特殊字体 @font-face)
  7. 硬件基础:嵌入式软件可靠性设计要注意的问题
  8. 理解计算机如何开平方 二分法收敛 Excel演示
  9. 数据挖掘——决策树和K近邻
  10. 华为云图像标签使用之智慧相册