人工智能或许是人类最美好的梦想之一。追溯到公元前仰望星空的古希腊人,当亚里士多德为了解释人类大脑的运行规律而提出了联想主义心理学的时候,他恐怕不会想到,两千多年后的今天,人们正在利用联想主义心理学衍化而来的人工神经网络,构建的超级人工智能成为最能接近梦想的圣境,并一次又一次地挑战人类大脑认知的极限。

在以大数据、云计算为背景的技术框架支撑下,互联网发展极为迅速,过去一个技术或者行业热点从诞生到消亡需要几年乃至更长的时间,但是最近几年,其生命周期在不断缩短,大多数的热点从产生到消亡只需要1-2年,有些仅仅是半年甚至几个月的时间。互联网行业越来越凸显出快鱼吃慢鱼的特点。从技术本身也有体现,比如2012-2014年是移动互联网的热潮,安卓和ios APP开发工程师当时非常流行。随后,2015大数据、云计算之年,2016年后大数据时代,2017年被称为人工智能元年,2018年炒得最火的是区块链和币圈。在互联网以这种迅雷不及掩耳之势的发展速度下,作为初学者就很容易被各种技术概念迷惑,找不到自己想要的突破口和深入的领域,即便是计算机从业者有时候也分不清到底如何定位自己未来的技术方向。

下面,我们先从中国互联网的发展历程说起。

从1994诞生(加入国际互联网)到现在才短短的24年,就在这24年里,我们经历了4次非同凡响、一次比一次更彻底的发展大高潮。

第一次互联网大浪潮(1994年—2000年),以四大门户和搜索为代表,能做网站的工程师就可以被称为技术牛人;第二次互联网大浪潮(2001年—2008年),从搜索到PC端社交化网络的发展,我们的社交形态发生了根本的变化,从线下交流正转变为线上交流,大量的数据开始生成;第三次互联网大浪潮(2009年—2014年)PC端互联网到移动互联网,此时各种APP如雨后春笋般的冒出来,尽管后来有很多APP都死了,但是移动互联网几乎颠覆了整个中国老百姓个人生活和商业形态,改变着我们每一个人的生活、消费、社交、出行方式等。

那第四次是什么呢?没错,第四次互联网大浪潮(2015—至今),是在前3次发展基础上,以大数据、云计算为背景发展起来的人工智能技术革命,分布式计算让大数据处理提速,而昔日陨落的巨星深度学习此刻再次被唤醒,并很快在图像和语音方面取得重大突破,但在自然语言方面却显得有些暗淡,突破并不是很大。尽管有很多人都去从事计算机视觉、语音等方面的工作,但随着AI的继续发展,在NLP方向显得越来越重要。

接着,我们总结一下数据领域成就和挑战

有一个不可否认的事实,当前从事互联网的人们已经制造出了海量的数据,未来还将继续持续,其中包括结构化数据、半结构化和非结构化数据。笔者发现,对于结构化数据而言,在大数据、云计算技术“上下齐心”的大力整合下,其技术基本趋向成熟和稳定,比如关系型数据库以及基于Hadoop的HDFS分布式文件系统、Hive数据仓库和非关系型数据库Hbase,以及Elasticsearch集群等数据存储的关系数据库或者NoSql,可以用来管理和存储数据;基于MapReduce、Spark和Storm、Flink等大数据处理框架可以分别处理离线和实时数据等。而半结构化、非结构化的数据,除了以ELK为代表的日志处理流程,过去在其它限定领域基于规则和知识库也取得了一定的成果,因其自身的复杂性,未来更多领域应用都具有很大的困难和挑战。

最后,我们看看国内外人工智能领域的工业现状

今年5月19日有幸在北京国家会议中心参加了2018全球人工智能技术大会(GAITC)。在大会上,从中国科学院院士姚期智提出人工智能的新思维开始,其重点讲述了人工神经网络为代表的深度学习以及量子计算机将是未来发展的新思维;紧接着中国工程院院士李德毅分享了路测的学问-无人驾驶的后图灵测试,提出未来无人驾驶挑战应该是让无人驾驶具有司机的认知、思维和情感,而不是当前以GPS定位和动力学方面解决无人驾驶的问题;接下来微软全球资深副总裁王永东向我们展示的微软小冰,大家一起见证了微软小冰在社交互动、唱歌、作诗、节目主持和情感方面不凡的表现,而本人也真实测试了一下,小冰现在的表现已经非常优秀了,可以作诗、唱歌、聊天、节目主持等。然而要达到一个成年自然人的水平,在某些方面还不能完全表现出人的特性。下面这幅图是微软小冰的个人介绍,有兴趣可以在微信公众号关注小冰,进行体验。

人工智能产业的快速发展,资本市场大量资金涌入,促使中国人工智能领域投融资热度快速升温。充分表明资本市场对于人工智能发展前景的认可。《2018年人工智能行业创新企业Top100》发布,据榜单显示:进入2018年人工智能行业创新企业前十名的企业分别是:百度、阿里云、美图秀秀、华大基因、科大讯飞、微鲸科技、华云数据、爱驰亿维、青云、七牛云。作为人工智能的一个重要组成部分,自然语言处理(NLP)的研究对象是计算机和人类语言的交互,其任务是理解人类语言并将其转换为机器语言。在目前的商业场中,NLP技术用于分析源自邮件、音频、文件、网页、论坛、社交媒体中的大量半结构化和非结构化数据,市场前景巨大。

为什么说未来数据领域的珠穆朗玛峰是中文自然语言处理?

正是基于上面对中国互联网发展的总结,对当前数据领域所面临的挑战以及资本市场对人工智能的认可分析,未来数据领域的重点是自然语言处理技术及其在智能问答、情感分析、语义理解、知识图谱等应用方面的突破。对于我们国内中文来说,如何更好的把前面所说的应用在中文处理上,显得更为重要和急迫,所以笔者认为未来数据领域的珠穆朗玛峰是中文自然语言处理 。

作为初学者,我们目前面又临这样的尴尬,网上大部分自然语言处理内容都是英文为基础,大多数人先是学好了英语的处理,回头来再处理中文,却发现有很大的不同,这样不仅让中文自然语言处理学习者走了弯路,也浪费了大量时间和精力。中文的处理比英文复杂的多,网上中文相关资料少之又少,国内纯中文自然语言处理书籍只有理论方面的,却在实战方面比较空缺,这让中文自然语言处理的研究开发工作感到举步维艰,很难下笔。

未来数据领域的珠穆朗玛峰之中文自然语言处理相关推荐

  1. 开篇词:中文自然语言处理——未来数据领域的珠穆朗玛峰

    人工智能或许是人类最美好的梦想之一.追溯到公元前仰望星空的古希腊人,当亚里士多德为了解释人类大脑的运行规律而提出了联想主义心理学的时候,他恐怕不会想到,两千多年后的今天,人们正在利用联想主义心理学衍化 ...

  2. 为什么说 NLP 将是未来数据领域的珠峰?

    作者简介 宿永杰,现就职于某知名互联网公司担任数据挖掘工程师,PC 端全栈开发工程师,擅长 Java 大数据开发 .Python.SQL 数据挖掘等,参与过客户画像.流量预测以及自然语言处理等项目的开 ...

  3. 面向中文自然语言处理的60余类系统开源实践项目与工业探索索引

    项目介绍 面向中文自然语言处理的六十余类实践项目及学习索引,涵盖语言资源构建.社会计算.自然语言处理组件.知识图谱.事理图谱.知识抽取.情感分析.深度学习等几个学习主题.包括作者个人简介.学习心得.语 ...

  4. 中文自然语言处理语言资源项目(ChineseNLPcorpus)

    ChineseNLPcorpus An collection of Chinese nlp corpus including basic Chinese syntactic wordset, sema ...

  5. 如何进入大数据领域,学习路线是什么?

    目录 大数据时代的出现简单的讲是海量数据同完美计算能力结合的结果,确切的说是移动互联网.物联网产生了海量的数据,大数据计算技术完美地解决了海量数据的收集.存储.计算.分析的问题.当我们最初谈大数据的时 ...

  6. 中文自然语言处理可能是 NLP 中最难的?

    现如今,在更多情况下,我们通过传感器和字节来与机器获得交流,而不是依靠交换情感,那如何让超级智能机器能够和人类正常交流沟通呢? 在人工智能背景技术下,自然语言处理(NLP)技术被越来越多的人看好,并受 ...

  7. NKCorpus:利用海量网络数据构建大型高质量中文数据集

    摘要 [目的]大规模.高质量的中文数据集对于大型中文预训练语言模型及其他自然语言处理模型的训练至关重要,因此需要设计并完善一种可以构建大规模中文数据集的框架.[方法]利用语言提取.文本清洗.数据去重等 ...

  8. 大数据领域75个核心术语讲解!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 选自:DataConomy,来源:机器之心 近日,Ramesh Dont ...

  9. 预见未来 | 数据智能的现在与未来

    编者按:自1998年成立以来,微软亚洲研究院一直致力于推动计算机科学领域的前沿技术发展.在建院20周年之际,我们特别邀请微软亚洲研究院不同领域的专家共同撰写"预见未来"系列文章,以 ...

最新文章

  1. 用Javascript为DropDownList添加一个Item至定义索引位置
  2. nonlocal python3_Python3中 对local和nonlocal 关键字的认识
  3. 最常用的决策树算法(二)Random Forest、Adaboost、GBDT 算法
  4. javaSE基础之记事本编程
  5. Fork_Join - Java多线程编程
  6. 如何将两个虚拟机ping通?如何让虚拟机连网?
  7. android奔溃日志手机查看
  8. Python标准库socketserver实现UDP协议时间服务器
  9. nginx 访问控制之 document_uri
  10. JMeter详细使用教程及实际案例
  11. 【git】结合Gerrit 代码审查工具的操作流程,工作流程
  12. xboxone硬盘坏的表现_移动硬盘打不开认不到以后的数据恢复所需要涉及到知识与恢复过程...
  13. 前端开发IDE---VSCode前端开发环境配置
  14. 毕业论文页眉页脚页码插入
  15. 【CXY】JAVA基础 之 Runtime
  16. Python--几种set集合去重的方法
  17. switch()的参数类型
  18. ICMP timestamp 协议原理和实现
  19. 大金空调HBS协议破解
  20. 用BI报表来做预算,更有说服力

热门文章

  1. 1001 A+B Format (20分)——12行代码AC
  2. 简介明了——map+multimap头文件函数详解
  3. 中国剩余定理(孙子定理)(精华详细版!)
  4. mac VMware Fusion 虚拟机键盘可以使用,鼠标无法使用排查思路及解决方法
  5. java socket参数详解:OOBInline和UrgentData .
  6. 幼儿园 php,input.php
  7. rust游戏解封了吗_柚子君宾馆爬墙听隔壁声,潇天傲解封不罢休!继续专场嘲讽散打哥...
  8. element表格固定某一行_WPS表格快捷键讲解大全1(区域选取)!
  9. oracle临时表的优点,详解Oracle临时表的几种用法和意义
  10. 连接maven_Maven系列——超简单入门级教程