北京大学计算机科学技术研究所研究员万小军:机器写稿技术与应用 | CCF-GAIR 2017...
雷锋网(公众号:雷锋网)消息,7月8日,CCF-GAIR全球人工智能与机器人峰会进入第二天,CCF-GAIR由中国计算机学会(CCF)主办,雷锋网与香港中文大学(深圳)承办。在AI+专场,北京大学计算机科学技术研究所研究员万小军,作为AI+专场的开场嘉宾,为我们带来了主题为《机器写稿技术与应用》的演讲。
机器写稿的背景与现状
在国外,已经有三家著名的提供机器写稿技术的公司,包括ARRIA、AI、 NARRATIVESCIENCE,为美联社等多家知名媒体写了数千万篇稿件,当然这是面向英文或者是西方的语言。
随着人工智能技术的发展,国内的机器写稿也逐渐受到关注,有很多的媒体在和一些学术机构进行合作,推出一些写稿机器人;另外是互联网巨头,包括微软、百度、腾讯、今日头条,也在研发机器写稿技术。写稿的内容主要侧重在体育、财经、民生领域。
以新华社写稿机器人快笔小新撰写的财报新闻为例,其技术流程为:数据采集 - 数据加工 - 自动写稿 - 编辑签发,它的写作方式还是比较死板的。
对于原创新闻和二次创作,前者指直接从数据生成原始稿件,比如天气预报,年报财报;后者指基于已有稿件内容创作新稿件,两种稿件涉及到不同的技术:第一种是自然语言处理技术,即从我语义的表达生成自然语言;第二种是自动摘要,从已有的文字素材去给它摘要,生成一个新的稿件。
还有一些其他相关的技术,包括文本信息推荐技术,文本复述技术,前者指自动为你插入你想引用的唐诗宋词、名人名言等,后者指在保持同样的语义的前提下,自动使用不同的语言表达,以规避版权问题。这里有一个例子是说“梅西获得了5座金球奖”,你可以改为“梅西是五届金球奖得主”,也可以改写为“金球奖5次颁给了梅西”。
对于更受关注的写稿机器人与记者的关系:目前为止应该是一种分工协作的关系,就是说机器人现在可能不具有逻辑思维的能力,也不具有深度总结的能力,它只能去把一个基本的新闻事实描述清楚,但是我们记者就可以写深度报道。
我们在机器写稿方面的技术研究
我们做了很多的基础技术性的研究,包括基础的自动文摘、自然语言生成等等,另外也做了很多的应用研究,包括新闻资讯生成、综述生成以及用户评论自动生成。我们介绍几个代表性的结果。
除了根据结构化数据和素材生成的新闻简讯,我们还可以生成体育赛事的长篇报道。怎么生成呢?我们发现有一个很重要的素材,就是体育的直播文字。我们经常发现一个很著名的体育比赛下面都有文字直播,或者是通过视频直播转成文字直播,这个文字直播中通常包含主持人对这样一个比赛的精彩细节的描述,我们通过机器学习的手段,能够把这些精彩的描述挑选出来,放到我们最终的报道中,这个报道就写得比较长,可以达到上千字以上。
这是一个生成长篇报道的过程,首先对直播文字进行语句的智能排序,再进行智能选择,这都是借助机器学习的手段,最后生成一个平均长度超过1000字的赛事的报道。
另外,在娱乐新闻和自动生成评论上,我们也有不错的成果。
目前,我们分别和今日头条、南方都市报及广州日报合作推出了小明、小南和阿同机器人。
未来的趋势展望
机器写稿不光是在媒体行业,现在也在跟一些游戏行业和情报行业合作。未来,只要什么时候你需要写这样一些报告,比如一些行业报告,或者写一些稿件,都会用到机器写稿,不光是媒体,其它的行业也会用到。
第二个方向,我们现在写的稿件还主要侧重对客观事实的描写,还没有加入太多的态度和立场,因此显得人性化方面不太理想,下一步会让我们的稿件自己具有一定的立场。
第三点也是最难的一点,就是让机器学会推理和归纳,写出真正的深度报道,比如说我们报道一场足球比赛以后,我们要分析一下为什么是这样的结果,把这个原因进行推理总结出来,这样的报道就是真正的智能的,这是下一步要研究的目标。
本文作者:蒋鸿昌
本文转自雷锋网禁止二次转载,原文链接
北京大学计算机科学技术研究所研究员万小军:机器写稿技术与应用 | CCF-GAIR 2017...相关推荐
- 计算机科学研究工作,近三年研究工作小结 - 北京大学计算机科学技术研究所.pdf...
近三年研究工作小结 - 北京大学计算机科学技术研究所 近三年研究工作小结 孙薇薇 计算机科学技术研究所 北京大学 2015年4月23 日 1 of 36 主要 内容 研究 目标 语义依存分析 汉语分析 ...
- 北京大学计算机科学李丰,中文智能问答系统作业解析-北京大学计算机科学技术研究所.PDF...
中文智能问答系统作业解析-北京大学计算机科学技术研究所 中文智能问答系统作业解析 互联网数据挖掘 北京大学计算机研究所 语言计算与互联网挖掘研究室 封闭测试结果排序 队伍 封闭测试 开放测试 1200 ...
- 如何用计算机做字库,如何自己制作字体:手写体中文字体自动生成系统(来自北京大学计算机科学技术研究所)...
日期 : 2020-07-02 21:27:00作者 : 中原锦绣 如果你想自己制作字体的话,可以用这个系统,注册登录之后会有详细的说明,其实自己做字体也不是很难,就是需要下的功夫比较多,如果时间多的 ...
- 北京计算机科学技术研究所,北京大学计算机科学技术研究所
亲爱的校友们: 在北京大学建校120 周年之际,北大计算机所也迎来了建所35周年华诞,2018年5月3日,我们将举行北大计算机所35周年庆祝活动.在此,我们欢迎所有关心支持计算机所发展的校友们回所参加 ...
- 陈跃国教授计算机,海量rdf数据管理-北京大学计算机科学技术研究所.pdf
海量rdf数据管理-北京大学计算机科学技术研究所 专题 第 8 卷 第 11 期 2012 年 11 月 海量RDF数据管理* 1 2 邹 磊 陈跃国 1北京大学 关键词 :RDF数据管理 关键词 ...
- 北京大学计算机科学技术研究所党委书记,北京大学
中国新闻网 2018年04月28日 中新网北京4月28日电(记者 周锐)伴随着中国经济进入新时代,如何进一步提升中国科技水平和创新能力引发各方关注,北京大学计算机研究所所长郭宗明接受采访时表示,要进一 ...
- 计算机科学技术.院士,北大计算机科学技术研究所2014招聘信息
北京大学计算机科学技术研究所是一个以计算机科学技术理论为基础.以信息技术的研究应用开发为主导的综合类计算机应用技术研究所,是计算机应用技术国家重点学科之一.原所长为已故中科院院士.中国工程院院士.第三 ...
- 科研实习 | 北京大学万小军老师课题组招收NLP方向实习生和访问学生
合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 北京大学 北京大学语言计算与互联网挖掘实验室隶属于北京大学王选计算机研究所 ...
- 科研实习 | 北京大学万小军教授招收NLP方向本科实习生和硕博访问学生
合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 北京大学 北京大学语言计算与互联网挖掘实验室隶属于北京大学王选计算机研究所 ...
最新文章
- 认清智能化战争的制胜根本
- UML图系列——建模和面向对象
- boost::hana::greater用法的测试程序
- springMVC参数的传递方式(1.通过@PathVariabl获取路径参数,2.@ModelAttribute获取数据,3.HttpServletRequest取参,4@RequestParam)
- Partitioning Strategies
- 关于MQTT协议的说明
- jquery.formValidator表单验证语法
- JavaScript算法(实例三)数组排序--冒泡排序 / sort() / reverse() / 比较函数
- 带括号多项式版四则运算
- Makefile:GCC CFLAGS变量和LDFLAGS变量
- pythonpandas无列名数据合并_python – Pandas:合并多个数据帧和控制列名?
- 组合数学引论部分习题答案
- Java中String、StringBuffer 、StringBuilder
- 唐宇迪学习笔记12:sklearn构造决策树
- Protobuf版本下载地址
- ET7.0+HybridCLR(huatuo)热更教程
- 2022年事件驱动策略研究报告
- HDU4747 MEX(dp ,递推)
- IE innerHTMLi(转载)
- 如何快速实现西门子S7-200/300 PLC转Modbus-TCP协议与第三方数据对接