作者 | 谭婧

本文经授权转载自deardata(ID:deardata)

责编 | 胡巍巍

坐标,美国阿拉斯加,北极圈。

一架白色小型飞机穿过湍急的强风,在白皑皑的积雪中稳稳着陆。李成博博士欣赏着窗外熟悉的景色,冰封的世界,像极了他的老家中国东北。

雪景怡人,但旅程却颇为周折,为了到达目的地,他需要顶风冒雪转飞机四次。最后一程还是小型螺旋桨飞机,因为它能在冰上直接降落。安全降落后,他才发现,着陆地点是在一个冰湖上。

这样的到访已经三次,每次的任务都和收集数据有关,而又不仅仅是收集数据。一位数据科学家为什么要到这极寒之地?这和“压缩感知地震采集技术(CSI)”有着莫大的关系。

CSI技术是地震数据获取技术上的一个突破,它使人类可以在短时间内收集海量地震数据,并数据质量较高,为下一步机器学习提供基础。

更进一步地说,这一技术的出现,很好地解决了油气行业三维地震数据采集成本高、耗时长的难题。

CSI能够在同等成本的条件下,成倍提高数据采集的效率和质量,为下一步大数据与人工智能提供基础,目前是美国康菲石油公司(ConocoPhillips)所有的专利技术。

最终目的是提取地下有效信息。有了有效信息,就好比有了地下情况说明书。而需要强调的是,这里的地震是人为的,人为产生震动,再用“听诊器”获得地下的健康状况。

作为CSI技术的核心研发人员,李成博博士向笔者介绍了自己的求学与研究经历。2011年他从美国莱斯大学毕业,获得了计算和应用数学博士。

毕业当年,他加入美国康菲石油公司,担任总部高级地球物理学家。他说,选择加入美国康菲石油,也是和开发压缩感知地震采集技术技术有关。

近几年,他的工作聚焦在地球物理应用的压缩感知技术,包括地震数据采集最优化设计和成像。数据既来自陆地,也来自海洋。

现在,他负责开发用于地震处理的机器学习解决方案。他与研究伙伴合作发明了——压缩感知地震采集技术。2016年,他获“创新精神奖”。2018年,获“科技优胜者奖”、“亚洲OTC新技术聚焦奖”。

2017年,他和合作者的论文《Operational deployment ofcompressive sensing systems forseismic data acquisition》被选为国际知名杂志《the Leading Edge》的当年最佳论文。2019年,他获得了“杰出科研技术人员精神成就奖”。

虽然荣誉满满,但是这位优秀的青年科学家身上低调、严谨的特质非常突出。

地球物理数据采集环境往往是非常特殊的自然环境,除了爱好冒险和向往极致自然景观的探险者,普通人很难有这份儿体验。

“不允许留下任何人为的痕迹。车辆如果渗油,那么就得连同冰与雪一起回收起来。对任何表面有植被的地方,决不允许人员与车辆进入。”他说,“做地震数据采集的项目面临的挑战实质上有两个,一个是极端恶劣环境,一个是环境保护的良心。”

“夏天的时候不能有任何活动,只有在冬季的时候,整个地表全部都冻起来,形成冻层之后,才会被允许进行地质勘探活动。”由于办公场地的特殊性,李博士的工作时间比普通人更加受限。

北极圈附近的气候异常极端,人们会误解该地区很难遭到人为的环保破坏。然而,该地区的生态环境却非常的脆弱。

作为到访北极圈的科研工作者,他对“环境保护”理解非常深刻。既要考虑科研目的,也确保人类的任何活动都要保护当地环境。从一开始,环保就是摆在科研优先性前面的原则。

“可以被允许工作的时间段,不超过四个月。”李成博博士第一次踏上北极圈的雪地是在2015年的2月份。

众所周知,在北极圈工作,将面临严酷的工作环境。作为一个东北小伙,李成博对“抗冻”很有信心,然而,极端环境还是超乎他的想象。“采集数据时的温度,也就零下三十多度吧,起风后,零下三十五度左右。女生(体重)轻一点站都站不稳。”天气冷,时间短,任务重,是三个难点,但是有趣的一点是,他们在圣诞老人家附近“上班”。

CSI技术的核心是什么?

可能连圣诞老人也不知道,数据科学家们正在进行着一项无比精细、复杂而宏大工程。这是一种模拟地震波传播的方法,采用可控震源。

通过震源持续震动,向下传播的波遇到地下不同的岩层反射回地面接收信号的方式来进行勘探。由于可控震源振幅扰动较小,对生态环境非常友好。

值得让人兴奋的是,开发新的地震数据采集技术是一项前沿性挑战。也就是说,接收到的信号,经过数据中心的数字处理和地质解释,其成果成为判断地下情况的重要依据。

李博士介绍,“简单来说方法是,在地表放置检波器和震源。通过某点激发一个震源,向地下传波。遇到某一个比较强的反射层的时候,能量会通过强反射,反射回地表。

这样在地表就得到了一个响应的效果,接受到信号。通过一组震源和一组检波器,就可以采集到一个数据体。

在数据采集的时候,有上万个检波器同时工作。就形成了一个所谓的五维的数据体,进行地下情况的刻画。说到底,这些接收到的信号,经过数据处理和地质解释,其结果会成为判断海底地质结构的重要依据。

CSI技术的核心就是,如何最优的放置这些检波器点和震源点,在最小的代价下,最大化获得地下信息。

因为这项技术对自然环境的影响较小,所以得到了州政府的支持,否则,在圣诞老人的家门口人为的搞“小型地震”,他老人家未必愿意。

数据越来越受重视,数据获取技术也在进步

经过几年艰苦的研发,陆地上的第一次大规模实施,就是在阿拉斯加。所以,2015年的2月,即是李成博的第一次,也是该项技术落地实施的第一次。

李博士说,“作为主要的技术研发人员,到作业现场做调整是必须的。”新技术实施后,他收到了双份的惊喜。

第一个是地震数据收集效率得到很大的提高,五到十倍的增长。

第二个惊喜则是这项采集工作进一步减少了采集工作对自然环境的影响,尤其是减少了对极地环境的人类脚印。对于这两项成绩,康菲公司内部非常的振奋。

美国康菲石油公司除了与中国油气行业的合作发展已经超过三十七年,是中国油气上游领域的重要外国投资商和生产商之外,非常有意思的一点是,康菲石油首席技术官Gregory P. Leveille在《中国能源报》的采访中公开表示,“就大数据应用方面,康菲石油主张让专家和员工都进行实际操作,以提高工作效率。

目前,康菲石油1.1万名员工中有4000名都可以接触,并使用数据库以及相关数据分析工具。”

他强调,“一方面,不断追求高端人工智能技术的研发,同时鼓励和敦促员工学习和应用机器自动化;另一方面,将大数据技术适用于整条产业链,从钻井到运营再到仓库管理等所有领域。”

在另外一家外媒的采访中,这位首席技术官还强调,“石油和天然气行业的发展方式日益要求员工利用前沿的数据分析技能。”

不得不说,数据驱动型文化正在全球领先的石油公司根植。

地球物理中,获取数据有何“不易”?

李博士说,油气勘探的技术正在不断进化,行业的数据采集工作有两个特点,

第一个是采集到的数据量巨大,

第二个是数据采集成本非常高昂。

他对“数据量的飞涨”进行了专门地强调。在采集地震数据的时候,数据量大概有多大呢?在一次数据采集周期,两到三个月可以在陆地上可以采到Petabytes单位的数据量。数据已成为石气勘探的重要资产,数据在驱动油气勘探技术创新。

李博士强调,“采集地震数据量是巨大的,海量的,无论你用什么方法,必须要在海量的数据上有一个鲁棒的表现。”

因为昂贵,所以省钱非常重要。

地震数据采集项目是非常花钱的工作,基本都是上亿元人民币起步。但是,如此巨资投入的情况下,数据的状况还未必理想。

一方面,利用地表的数据,来刻画地下的信息,并不是直接获得数据的方式。

另一方面,采集数据的时候,地表的情况也不容乐观。以阿拉斯加北极圈内的采集项目为例,地表经常有非常严重的风噪音。

因为采集到的数据的情况差,必须用一些技术手段把弱信号还原,包括机器学习的方法。

李博士说,“压缩感知地震采集技术,对解决采集成本高的难题有很大的帮助,可以通过一些不规则的采点方式收集地震数据,在降低采集成本,及不受特定限制区域影响的同时,大大提高采集效率和成像分辨率。”

机器学习应用的“难点”

“如何通过机器学习的方法把弱信号恢复过来?”对于这个问题,李博士这样回答,“在一个弱信号、强噪音的情况下,处理这个问题的方法并不是技术发展到今天才出现的。过去几十年,整个勘探地震学已经想出了很多解决办法,比如通过建立模型把信号提取出来。”

“这种方法在大多数的情况下(效果)还可以。如果只强调把比较强的信号提取出来的话,困难并不大。难度在于,如何能够把最后的20%的非常弱的信号提取出来,这是地震处理中比较大的问题。在地震行业,是没有标注的数据。地震数据处理中,没有办法对海量的数据进行监督学习技术处理,所以要用无监督学习的方法来进行工作。

有一点很重要,在处理这些数据的时候,有很多经典的、模型驱动的方法。应该充分利用这些样本,不是说有了机器学习技术,其他的就不需要了。所以,第一步,我们需要在一个样本中选取一个方法,建立一个合适的模型。比如说这个信号大致长什么样子,可以把它估计出来。”

“利用一些传统的方法把信号大致估计出来之后,虽然并不能做到百分之百,但是百分之五十非常迅速地可以做到。然后,通过深度学习的方法,确认这个地震信号到底在哪里?这个信号到底长什么样?通过已有样本,反演弱信号,高噪音情况下的反应。一部分是信号,一部分是噪音,噪音是什么呢?噪音在我们看来也是信号。所以在工作的过程中,我们发现把噪音当成信号来处理,对于‘去噪’效果非常,把噪音和信号进行同步处理。说到底,机器学习在这个过程中起到了一个桥梁作用,将基于物理,数学的传统方法和人工智能联系起来。”

同样的观点,也来自于全球领先的信息数据分析公司,爱思唯尔(Elsevier)的高级数据科学家沈澄,久居伦敦工作的他在英国天然气勘探公司有着丰富的项目经验。他这样告诉笔者,打一个比喻,挑西瓜的时候,人们通过拍打西瓜听声音,推测西瓜是否成熟。

在石油天然气勘探领域,人们在地底下安装很多震动的信号器,然后收集反射回来的声波、频率等信号。就好比能收集到很多很多个敲打西瓜的声音。传感器收集到的信息,作为深度学习输入的数据,从而得到石油储量信息。

深度学习技术对于地球物理领域,有一个比较正面的影响,或者说,就是说一个比较大的作用就是,其实噪音里面包含了很多信息,以前没有办法从“噪声”里找到的信息,这是我们没有办法,用好这个信息。现在这项技术能够从“噪声”中“榨取”更多有用的信息。

在地球物理领域,还有另一个难点。采样率是比较低的。在使用机器学习技术分析图像时,用低分辨率的照片来进行机器学习和高分辨率的照片进行机器学习,这是有很大很大的区别的。

现在大家可以轻松地获得高分辨率,比如,两千像素乘两千像素。在地球物理领域,几十米的分辨率已经很高了。毕竟是从地底下上万米采集来的数据。

这种基于无监督学习和反演强噪声残留地震信号恢复方法,可以应用于不同领域和不同阶段,以提高地震处理的质量和效率。

实测数据表明,该方法能够较好地恢复40分贝以下噪声里的微弱信号,或者从复杂的数据(储集层、岩石)中提取特征。将机器学习与传统方法相结合,成为解决地下问题提供了强有力的手段。

李博士强调,“人工智能在油气勘探领域已经开始陆续应用,曾经需要几十个人处理几个月的数据,用神经网络和人工智能的训练算法去处理,效率和有效性两方面都有很大提高。”

最后,李博士补充道,在油气领域,大数据与人工智能技术还可以用在很多环节。比如钻井活动,可以通过大数据对老龄化油气田进行分析和评估,尽可能延长其寿命。同时,还将其应用于新井钻探和开发。

每一年,全球大型石油公司都会打很多井,大数据技术不仅有助于提高效率、减少支出,还能够减少生产活动的作业面积,即有益于生态环境,又提高了工作的安全和可持续性。

欢脱的雪橇犬在雪地里留下一排小脚印,狐狸与驼鹿在树林里捉迷藏,星星在深蓝色的天空里眨眼,极光闪耀空中,北极大地平静而广袤,环境与未来在连接,新技术与古老能源在融合,人类探索自然与科技发展永不止步。

作者简介:谭婧,虎嗅专栏作者,《亲爱的数据》公众号创始人,香港浸会大学硕士,N年前高考作文满分得主。曾负责中国节能集团控股企业战略管理工作,许多年管理咨询经验,也曾任人脸识别创业公司合伙人。

【END】

推荐阅读 

势头强劲的 Python PK 强大的 C++,究竟谁更胜一筹?

☞疫情肆虐下,程序员们都在哪里?

☞延迟上班别发愁,远程办公抗疫情!

疫情严重,潜伏期也有传染性?科技公司在行动

☞程序员谈从科比的曼巴精神中,我们能学到什么?

你点的每一个在看,我认真当成了喜欢

AI “闯入”北极圈相关推荐

  1. 当 AI 闯入法律界,第一步是当律师的得力助手

    来源 | HyperAI超神经 责编 | 晋兆雨 头图 | CSDN 下载自视觉中国 长久以来,律师这一职业给大众的印象都是精英.雄辩.高薪,而这份工作背后的艰辛却很少被看到.除了出庭之外,律师们要花 ...

  2. AI闯入法律界,第一步是当律师的得力助手

    来源:  hyperAI超神经 本文约2600字,建议阅读5分钟 本文为你总结AI律师,在整理档案方面展现出的实力. 前段时间,国内首档律政职场观察类真人秀<令人心动的offer>,向大众 ...

  3. AI 闯入法律界,第一步是当律师的得力助手

    By 超神经 内容提要:长久以来,律师这一职业给大众的印象都是精英.雄辩.高薪,而这份工作背后的艰辛却很少被看到.除了出庭之外,律师们要花费大量时间与经历进行法律资料研究.合同文件审查等.为此,科技公 ...

  4. 巴比特 | 元宇宙每日必读:2026年,互联网上90%的内容或由AI创建,科技大公司如何阻止虚假信息?...

    摘要:据澎湃新闻报道,主流的AI生成工具如ChatGPT.DALL-E.Midjourney降低了创建虚假图像.视频和文本的难度和成本,使网络上的AI生成内容泛滥且难以分辨.欧盟执法机构"欧 ...

  5. 【AI手机三国杀】三星Bixby闯入战场,AI功能集成颠覆人机交互

    受三星电子中国研究院邀请,新智元昨天走访研究院,了解三星的人工智能,并抢先体验了三星主推的AI技术--三星Bixby中文版部分功能.Bixby实现了对手机的多模态智能操控,以Bixby Vision. ...

  6. 商汤、旷视们“闯入”安防圈,传统安防巨头们怎么评价这些AI新贵?

    这几年,随着计算机视觉相关技术的渐熟落地,各种机器'辨识'及'模仿'的能力上了好几个台阶.一时间,相关初创公司也嗅到了诺大商机,将人脸识别等技术带到安防行业. 繁杂的安防工作用四字可以总结:" ...

  7. AI 真的能够理解人类语言吗?

    作者 | Melanie Mitchell 译者 | 弯月 出品 | CSDN(ID:CSDNnews) 2011年,IBM 的人工智能系统沃森参加综艺节目<危险边缘>,并获得了冠军,当时 ...

  8. 创新工场论文入选NeurIPS 2019,研发最强“AI蒙汗药”

    9月4日,被誉为机器学习和神经网络领域的顶级会议之一的 NeurIPS 2019 揭晓收录论文名单,创新工场人工智能工程院的论文<Learning to Confuse: Generating ...

  9. 探索可解释及稳定性,AI与博弈,自适应推理——“智源论坛:机器学习青年学者报告会”要点总结

    6月10日,北京智源人工智能研究院(BAAI)继"人工智能的数理基础"后,发布"机器学习"重大研究方向,由颜水成教授担任首席科学家,拟针对当前以深度学习.强化学 ...

最新文章

  1. 配置overlay(overlayfs)根目录挂载构建debian
  2. linux etc 漏洞利用,漏洞利用 | 看我如何利用Kerberos EoP渗透你的Linux系统
  3. linux 安装python
  4. Linux操作系统下/etc/hosts文件配置方法
  5. 2.18比赛(T2,T3留坑)
  6. 如何在JavaScript中大写字符串的首字母
  7. 如何把数据库从sql变成mysql_(转)如何将数据库从SQL Server迁移到MySQL
  8. CPU Usage (C#) 测试
  9. Newtonsoft 转换json
  10. discuz tools.php,Discuz!论坛Tools工具箱功能详解
  11. mysql数据库是什么语言_mysql是一种程序设计语言吗?
  12. 电脑提示文件或目录损坏且无法读取
  13. php+uc+client_uc_client是如何与UCenter进行通信的
  14. C语音:输入两个整数,要求输出其中值较大者。要求用函数来找到大数。
  15. 学习linux杂七杂八——关于shell中的变量
  16. pikachu暴力破解
  17. 物联网概论(IoT)_Chp10 智慧地球与物联网应用/M2M/共享单车/无人驾驶
  18. 信也科技股权曝光:顾少丰持股29.4% 有63.7%投票权
  19. 兆芯服务器芯片,兆芯 ZX-200 IO扩展芯片
  20. C# 深入单例(回笼)

热门文章

  1. 在主方法中定义一个大小为10*10的二维字符型数组,数组名为y,正反对角线上存的是‘*’,其余 位置存的是‘#’;输出这个数组中的所有元素。...
  2. QQ超市模拟排配2D版1.14 (XNA4.0) (增加截图功能、新建地图功能)
  3. 快捷方便的对js文件进行语法检查。
  4. pytorch/tensorflow 查看 cuda 是否可用
  5. [Git] Ubuntu 上更新 git
  6. [链表|多解法] leetcode 19 删除链表的倒数第N个节点
  7. JAVA使用摄像头录制_JavaCV开发详解之1:调用本机摄像头视频(建议使用javaCV最新版本)...
  8. 剑指Offer之寻找链表倒数第k个节点
  9. linux cat grep+head/tail
  10. flask (三) 重定向