文章:

Machine-learning-based deep semantic analysis approach for forecasting
new technology convergence

Tae San Kim, So Young Sohn⁎
Department of Information and Industrial Engineering, Yonsei University, 134 Shinchon-dong, Seoul 120-749, Republic of Korea

摘要:

        技术融合对于创造新价值和引入新产品和服务极为重要。波动和竞争的环境引发了彻底的技术融合。虽然提出了许多框架来预测收敛性,但预测新技术之间的融合并不容易。为了克服这个问题,我们提出了一个基于机器学习的框架,该框架使用语义分析和传统的方法如链接预测和文献计量学分析来识别收敛模式。我们利用专利的文本信息进行语义分析,这是时不变的,有用于识别语义收敛模式。特别是,文档到向量的方法被用来识别技术的语义相关性。我们将我们的框架应用于的收敛技术领域 。

 

背景: 

      由于对链路信息的分析是基于现有的链路,因此使用链路信息不能确保识别新技术收敛的各种来 源。此外,由于新技术的使用寿命较短,由于缺乏积累的文献计量学信息,因此难以识别收敛模式。由于这些缺点,对技术收敛性的分析需要一种互补的方法。
       
        为了克服这个问题,我们利用来自专利的文本信息进行语义分析。在技术收敛方面,两个或两个多个领域之间的语义相似性可以被看作是新融合的证据。通过语义相关性测量融合的概率,高语义相似性是收敛的先驱(Preschitschek等人,2013),专利的文本语料库可用来计算技术领域之间的语义相似性。使用文本信息来识别收敛模式有几个优点。专利中的文本元素立即从授予的专利中获得,因此随着时间的推移不会被低估或高估(Ju和Sohn,2015)。此外,基于大量的文本,还可以捕获各种技术洞察力(Gerken和Moehrle,2012)。因此,文本信息测量的语义相似性可以用来检测新技术收敛 的证据(preschitchek等,2013;Pass和Moehrle,2015)。 在本研究中,我们提出了一个基于机器学习的框架,它不仅利用链接和专利信息,而且还利用文本信息进行语义分析。我们在与自动驾驶汽车相关的两个技术领域上测试了我们的方法。
 数据和计算方法:
        在本研究中,收敛技术的诞生是专利首次出现两个IPC子类的组合。
        我们提出的方法是基于美国专利商标局(USPTO)从智慧域数据库中提取的专利数据。我们考虑了两个技术领域:(1)信号传输和电信(2)汽车。选择IPC子类的数字数可以专注于特定的技术范围。该 方法基于4位IPC代码,以识别两个不同领域之间广泛的技术融合范围。
        在(1)信号传输和电信领域,以及汽车领域,分别有21位和314位的IPC子类(附录B)。2009-2017年, 我们从这两个领域共提取了381,062项专利。它们之间的IPC子类对 组合数为651个,一个新发现的组合是潜在技术收敛的候选组合。由于收敛模式是从IPC对的角度识别出来的,所以使用651对信息作为输入,并使用下一时期内发现的新的收敛模式作为目标。基于过去三年的信息,我们调查了未来三年可能发生的趋同的可能性。因此,我们将整个时期分为三年,如表1所示。
        我们在一个周期内训练我们的模型,并预测下一个周期周期内出现新的收敛性。在训练中,当前时期的目标是下一时期的收敛对。例如,周期1在周期2中有215个目标收敛,而周期2有183 个目标融合。同时,由于周期3之后没有信息,周期3没有目标收敛。因此,使用周期1(即训练数据)训练的模型可以通过周期2的收敛(即验证数据)的预测性能进行评估。该模型通过预测实际收敛性的性能进行了评估,但寻找新检测到的融合也非常重要。因此,验证过程包括对下一期新收敛的IPC对的预测性能进行评估。未来可能的收敛可以通过应用来自周期3的信息(测试数据)到使用第2期知识训练(再训练数据的模型)。
整个框架:
        在本研究中,我们的目的是利用语义因子以及专利的链接和文献计量学信息来识别收敛模式。该框架由三个步骤组成,如图所示。 1. 首先,两种技术之间的所有可能的IPC对收集信息,并提取它们的 链接、文献计量学和文本信息。在此基础上,从各个角度获得了收敛指标。将这些链接预测、文献计量学和语义相似性指标被连接起来,形成一个表示IPC对收敛模式的收敛向量。其次,将所有的收敛向量应用于机器学习模型,以识别融合的模式。特别是,为了证明文本相似性的使用通常可以提高预测性能,采用 支持向量机(SVM)、神经网络(NN)、决策树和随机树(RF)等各种机器学习技术作为验证模型。最后,根据所确定的融合模式,预测了新的收敛性。选择性能最好的机器学习模型作为未来收敛的预测工具。通过将新的收敛向量应用于该训练模型中,可以预测未来的收敛性。
模型的input:
1.network-based link prediction  indicators 
2.Bibliometric indicators

3.Semantic analysis indicators 

为了度量两个ipc之间的语义相似性,我们使用文档到向量(Doc2Vec)方法获取每个技术领域的语义相关性。
我们将标题的窗口大小设置为3,摘要的窗口大小设置为10,声明和整个信息的窗口大小设置为30,而标题的矢量大小设置为100,摘要的矢量大小设置为200,声明和整个信息的矢量大小设置为400。基于这些信息,我们使用Doc2Vec方法从文本信息中提取密集向量,并通过提取向量之间的 余弦相似度计算相似度评分

 result:

不同的算法在不同的向量组合之间的表现

 模型的参数

4.3. 预测结果作为未来的收敛性
        本研究选择了具有链接、文献计量学和语义指标的RF(随机森林)作为我们的预测模型,以识别未来可能收敛的技术。从2015-2017年收集的数据集中,我们预测了这24对新的IPC对将在2018-2020年内收敛(附录 C)。

基于机器学习的深度语义分析的预测新技术收敛性的方法相关推荐

  1. 基于机器学习与深度学习的金融风控贷款违约预测

    基于机器学习与深度学习的金融风控贷款违约预测 目录 一.赛题分析 1. 任务分析 2. 数据属性 3. 评价指标 4. 问题归类 5. 整体思路 二.数据可视化分析 1. 总体数据分析 2. 数值型数 ...

  2. 论文精读——基于机器学习的越南生活固体废弃物预测

    论文精读--基于机器学习的越南生活固体废弃物预测 Abstract 1. Introduction(partly) 2. ML - based models and applications for ...

  3. 基于机器学习的天气数据分析与预测系统

    温馨提示:文末有 CSDN 平台官方提供的学长 Wechat / QQ 名片 :) 1. 项目简介 本项目利用网络爬虫技术从某天气预报网站抓取某一城市的历史天气数据,构建天气数据分析与预测系统,实现对 ...

  4. 小样本点云深度学习库_基于点云深度学习的点云数据集制作系统及方法与流程...

    本发明涉及测控技术领域,尤其涉及一种基于点云深度学习的点云数据集制作系统及方法. 背景技术: 深度学习网络模型一般都是基于64线单帧激光数据集进行.但64线激光器和单帧的限定,造成了工程应用中点云数据 ...

  5. DeepFusion:基于单视图深度和梯度预测的单目SLAM实时稠密三维重建

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 标题:DeepFusion: Real-Time Dense 3D Reconstruction fo ...

  6. 基于机器学习的锂离子电池健康状态预测:进展与展望

    (本文为文献解读,仅为个人理解,如有错误,请指正) 一.SOH的预测方法 1.直接校准法: 优点:计算复杂度低.简单易于实现 缺点:对实验条件要求严格.现实难以实现 2.基于滤波器的方法: 优点:良好 ...

  7. 基于机器学习算法的慢性肾病危险因素预测

    摘 要 慢性肾脏病(CKD)患者逐年增加,心血管疾病作为其最主要的并发症,决定着CKD患者的预后.尽管目前临床医师已经对CKD患者进行了相对全面的检查,并已经使用药物对心脏功能进行早期的干预性治疗,但 ...

  8. 研究型论文_基于机器学习和深度学习的不平衡网络流量入侵检测(英文论文)

    文章目录 Intrusion Detection of Imbalanced Network Traffic Based on Machine Learning and Deep Learning 论 ...

  9. 期末作业——基于机器学习算法的LOL比赛预测(求高分,拜托拜托)

    前言:2018年5月2日,各大高校男生宿舍不约而同的爆发出尖叫和呼喊声.难道是"单身少年们"集体受到刺激,而引发的集体抗议吗?在这一切的背后究竟隐藏着怎样的秘密? 其实真相是: 一 ...

最新文章

  1. 图说子图同构算法——VF2算法(一)
  2. 如何做项目工作量估算
  3. 详解:面向对象与面向过程的比较 类之间的关系:泛化、实现、依赖、关联、聚合、组合
  4. 在业务系统中寻求技术含量
  5. Chrome 调试技巧
  6. c#程序中使用quot;like“查询access数据库查询为空的问题
  7. 李宏毅2020深度学习-判别方法和生成方法
  8. 数据库笔记13:创建与使用游标
  9. lsm mysql_LSM设计一个数据库引擎
  10. multisim怎么设置晶体管rbe_怎么在multisim14里仿真电路
  11. android 集成融云客服,第三方客服
  12. c语言字符串删除元音字母,C语言:写一函数,将两个字符串中的元音字母复制到另一个字符串,然后输出...
  13. linux展示隐藏的文件,linux怎样设置显示隐藏文件?
  14. Hacking JWT(JSON Web Token)
  15. 遍历指定文件夹下的所有文件名
  16. 一篇会改变身处职场的你思维的一篇文章
  17. 使用memc-nginx和srcache-nginx模块构建高效透明的缓存机制
  18. icp备案是什么意思?什么是ICP备案?
  19. 制作niceScroll滚动条
  20. 【杂学第十二篇】oracledb_exporter监听oracle19c数据库出现libclntsh、ORA-12162、ORA-00942异常解决

热门文章

  1. Grep命令查找多个字符串(grep同时匹配多个关键字或任意关键字)
  2. Paging3、Room使用,1、从本地Room数据库加载 2、直接网络获取数据加载 3、网络访问数据到Room数据库再加载 4、封装使用
  3. 9. 创业 - 业绩
  4. TSINGSEE青犀视频云边端架构产品运行后加密机可以断电断网吗?
  5. mysql数据库安装以及登录(如何在windows下安装mysql数据库,以及解决mysql8登录报错问题,绝对是保姆级别的,不要错过哦)
  6. 协方差矩阵的几何性质
  7. WordPress去掉页面左侧导航的方法
  8. RadioGroup总结
  9. SQL语句排序、分页、多表查询
  10. [oeasy]python0045_四种进制_binary_octal_decimal_hexadecimal