案例 | 基于JMP的机器学习,解决半导体良率问题
伴随半导体行业的数据采集能力持续增强,数据分析业务场景日趋复杂,通过挖掘数据背后信息解决实际业务问题、支持量化决策的价值日益突显。机器学习方法在解决一些复杂的数据分析业务场景时,能够保障分析结果的准确性,并能提高分析效率。
那么,究竟机器学习如何在在半导体行业有哪些应用?本文以一个典型性案例来介绍机器学习在半导体良率提升方面的应用及思路,希望对大家有所启发。
为什么选择机器学习?
机器学习,是一种可以基于样本数据自动化构建数学模型,以便能够基于新观测的输入数据来预测输出结果的分析方法。
以半导体为代表的现代高端制造业和质量管理大致经历了以下几个发展阶段:
- 企业通过IT建设, 搭建业务管理系统,全面管理数据信息,开启业务数据化的进程;
- 通过引进诸如六西格玛等成熟的管理体系,改善运营水平;
- 不断提升数据采集能力,打造智能工厂;
- 希望充分挖掘数据背后的价值,从而形成数据业务化的闭环。
在数据无处不在、数据量爆炸式增长的今天,如何高效的利用数据、选择适合的分析方法成为了关键,机器学习正是在这样的背景下走入了工程人员的视野。
相比传统方法,机器学习有哪些优势?
在机器学习的世界里:
- 解决问题的方法从来都不是唯一的;
- 多个算法往往可以用来解决同一个问题,并且没有哪个算法总是表现最优;
- 因此,从中选择最适合的那一个。
从数据科学角度看,机器学习训练模型的过程是一个“偏差-方差权衡 (Bias-Variance Trade-off)”的问题,通过交叉验证可以尽可能地规避欠拟合和过拟合问题。
- 所谓偏差小,也就是拟合效果好,即尽可能地契合所有样本观测点;
- 所谓方差小,也就是对于同一总体数据,每一次抽样样本拟合的模型应该差不多。
下面,我们通过一个案例研究来具体问题具体分析。
案例背景
半导体终端产品的产生需要经由数百个步骤组成的制造过程,数据量庞大,而且异常复杂。在制造过程的最后,还有两个用于对芯片进行分类的补充步骤:参数测试和电性晶圆分类,这两个步骤都是电性测试,也是本文案例的分析对象。
定义业务问题
工程师在某半导体产品 EWS (Electrical Wafer Sort) 测试的 BIN10 上观测到了良率损失(在某些晶圆上的良率损失高达 10%),推测该损失与某个 PT 参数效应有关,因此,一旦确定了 PT 参数,就很容易找到相关的过程参数,从而形成纠正和预防措施。
因此,棘手问题是:如何迅速找到与 BIN10 不良最密切相关的 PT 参数?
接下来,我们按照典型的机器学习预测建模流程的“天龙八部”来详细分析问题。
数据采集和准备
- 将用于良率分析的数据进行关联;
- 比如,按 Lot ID + Wafer ID 关联 EWS,Parameter Test,Equipment,甚至 OVL, ADI,THK 等 Inline Test 数据;
- 最终,对于本例的数据集约 ~560 行,~650 列,即某种意义上的宽型数据。
数据变换
通过JMP直观的直方图,可以看到,由于 EWS1_BIN10 数据近似服从对数正态分布 (偏态分布),因此工程师对其进行对数变换,从而转换为近似正态分布 (对称分布)。
一般情况下,这有利于后续的预测建模分析。
预测建模方法选择
- 传统统计分析方法(如单因子分析)分析 EWS1_BIN10 和所有 Parameter Test 参数的相关性往往低效,且具有片面性;
- 数据缺失问题(40% 左右的 Parameter Test 列变量缺失值比例在 25%
以上),高维宽型数据的多重共线性和超饱和问题等又导致传统统计分析方法往往具有局限性。
工程师最终发现基于决策树的集成算法随机森林 (Bootstrap Forest) 等机器学习算法更适合应对此类问题。
随机森林是基于决策树的一种集成机器学习方法。
其差异性在于:
- 随机:样本的随机性 / 预测变量的随机性
- 森林:构建多棵决策树共同参与决策
从改进单棵决策树的准确性,并减少方差,让预测建模效果更好。
随机森林预测建模
使用变换后的 Log(Bin10) 作为响应 Y,使用 595 个 PT Parameters 作为预测变量 Xs ,进行 Bootstrap Forest 建模。
随机森林总共构建 100 棵树,在每一个拆分处考虑 148 个随机选择的预测变量。
每次训练模型的样本都是基于Bootstrap的抽样方式构成的随机训练集。利用这两个随机性,提升模型的准确度。
模型诊断及结果分析
从模型的输出报表,可以看到:
- 训练集获得了较高的 R2,验证集和测试集的 R2 损失较小,并且两者的偏差较小,因此,所建立的模型可以很好地解释过程变异。
- 此外,通过查看对森林有非零贡献的列变量,识别可能影响 Y的因子,而根因将是那些贡献最大的因子,因为特定变量与响应的相关性越大,被选择的频率就越高。
根因识别
工程师将列贡献最大的变量提取出来后发现:
- 列贡献大 (本例选取Top6) 的预测变量之间可能存在共线性,因此,可以结合主成分或多元相关分析和工程经验进一步甄别;
- 对于本例,工程师最终将 171_PT 识别为最重要的影响因子。
结果验证
工程师通过进一步追溯变异源,发现 171_PT 和某关键工艺设备之间存在明显的相关性,Tukey-Kramer 多重比较确认了该差异的显著性。
因此,工程师可以展开更进一步的排查设备问题,找到导致过程输出变异和波动的原因,从而形成有针对性的预防措施和改进措施。
模型部署及应用
越来越多的高端制造企业期望借助不同的工具和方法搭建大数据分析平台,打造智能工厂,因此,我们将类似本案例所获得模型以通用代码形式部署于企业级的大数据分析平台,这是实现预测性质量控制和预测性维护的有效手段之一,也是被证明行之有效的科学方法。
JMP作为业界顶尖的数据分析品牌,提供了丰富多样的预测建模和数据挖掘手段,并持续被Forrester评为数据科学、机器学习和预测分析领域的领导者,其系列产品广泛地被财富500强公司、世界50强半导体企业、主要政府机构所使用,并能够帮助决策者、分析人员真正地从数据中挖掘出对企业经营决策有益的信息。
*** 以上内容来自JMP数据分析经理徐老师于9月16日在紫光展锐“UP · 2021展锐线上生态峰会”上发表的精彩演讲。**
想要了解完整更多案例研究,可下载完整白皮书。
案例 | 基于JMP的机器学习,解决半导体良率问题相关推荐
- 格创东智携半导体良率提升智能分析平台入选工信部大数据产业发展试点示范项目
工业和信息化部日前公示2022年大数据产业发展试点示范项目名单,主要涵盖数据要素市场培育.大数据重点产品和服务.行业大数据应用三个领域8个方向. 围绕大数据重点产品方向,格创东智建设的"面向 ...
- 案例 | 基于JMP Pro的Lasso及岭回归在水稻全基因组预测中的应用
全基因组选择是21世纪动植物育种的一种重要的选择策略,其核心就是全基因组预测,即基于分布在整个基因组上的多样性分子标记来对育种值进行预测,为个体的选择提供依据.但目前提出的大多数全基因组预测方法都涉及 ...
- 国内产线 OLED 良率低,产能释放缓慢
当前国内 OLED 产线工艺技术尚未完全成熟,蒸镀工艺与国外尚存在一定差距,产线良品率较低,下游用户认可度低,导致国内 OLED 产业出现高产能低产量问题.本文将围绕国内 OLED 产线产能利用情况. ...
- 【机器学习】多项式回归案例五:正则惩罚解决过拟合(Ridge回归和Lasso回归)
正则惩罚解决过拟合(Ridge回归和Lasso回归) 案例五: 正则惩罚解决过拟合(Ridge回归和Lasso回归) 3.2.1 模块加载与数据读入 3.2.2 特征工程 3.2.3 模型搭建与应用 ...
- 案例:可视化分析 + 预测模型,锁定影响产品良率的根因!
在以半导体为首的高科技高端制造领域,产品良率一直是企业最为关注的指标.良好的产品品质是品牌口碑的最佳代言.那么,在面临生产线因为良率过低的警报而突然停产的状况,工程师团队如何快速响应和应对?如何快速锁 ...
- 机器学习解决什么问题_机器学习帮助解决水危机
机器学习解决什么问题 According to Water.org and Lifewater International, out of 57 million people in Tanzania, ...
- [转]基于图的机器学习技术:谷歌众多产品和服务背后的智能
近来机器学习领域实现了很多重大的进展,这些进展让计算机系统具备了解决复杂的真实世界问题的能力.其中,谷歌的机器学习又是怎样的 ? 近来机器学习领域实现了很多重大的进展,这些进展让计算机系统具备了解决复 ...
- 基于JMP公差设计探索稳健性的配方和工艺
DOE在新药或者仿制药设计与研发过程中,往往会分为三个阶段:系统设计.参数设计和容差设计(也叫公差设计,20世纪70年代,由田口玄一提出)进行.今天我们就来看看如何通过这三个阶段实现稳健的配方和工艺. ...
- 基于张量机器学习模型_什么是基于模型的机器学习?
基于张量机器学习模型 About Tom: Tom Diethe is a research fellow on the SPHERE project at the University of Bri ...
- 用于提高开关电容器电路良率的基于公共质心的单元电容器的最佳布局
摘要 良率定义为所考虑的电路在容差范围内符合设计规范的概率. 相关系数较高的布局具有较少的失配和较小的电容比变化,从而实现更高的良率性能. 本研究提出了一种新的优化标准,可以快速确定放置是否是最佳的. ...
最新文章
- 华为如何打造智能终端的有趣灵魂?(下)
- redistemplate set方法_spring boot整合redis ---- RedisTemplate 三分钟快速入门
- 这些世界罕见的地质奇迹,你认识几个!
- 睡眠音频分割及识别问题(三)
- FPGA学习(第8节)-Verilog设计电路的时序要点及时序仿真
- Matplotlib库学习笔记(4) pyplot的文本显示以及Latex的使用
- 计算机时钟周期的概念,指令周期、时钟周期、总线周期概念辨析
- signature=d392c0d1876b3909bd8f7e1f3c0bef22,【技术分享】NSA武器库:CVE-2017-9073 EsteemAudit分析...
- EdgeBox_EHub_tx1_tx2_E100 系统网络调试链接说明
- 人工智能时代对人类就业有哪些影响,我们应该如何应对?
- python实现绘制ROC曲线寻找指标最佳诊断临界值
- Atom汉化之Atom-Simplified-Chinese-Menu
- 类似华为麒麟鸿蒙类的名字,华为除了“麒麟”,还有四款顶级芯片,名字背后隐藏寓意令人感动...
- 【centos7中使用docker安装KLEE】
- 2的一百万次方 用计算机算,1M换算:计算机里,单位里1.大家都知道数字1M=10^6对吧(M=Million),以10为底,6次方 2.计算机里1...
- html微信非法昵称代码,微信撤回消息并亲了你一下改名提示非法字符解决办法...
- 关于在neo4j中使用cypher语句实现NOT IN 的功能
- MYSQL练习题:连续两天登录的游戏玩家比率
- Couple可爱情书字体
- 计算机英语简写对照,计算机术语简写-全称对照表.pdf
热门文章
- Python 和 奥数 — 同余法求数值
- 仿qq局域网聊天软件 c++ 非mfc 数据库
- 倒立摆 adams matlab,基于ADAMS与MATLAB联合仿真地倒立摆设计毕业论文.docx
- 三角网导线平差实例_附合导线平差步骤
- Ubuntu操作系统的学习,从新手到老手的过渡
- 专业卸载工具Your Uninstaller! Pro
- Properties与ResourceBundle的基本使用以及区别
- 电脑重启只剩下c盘怎么办_我的电脑正在正常运行突然自动重启了,重启后发现系统只剩下C盘了,请教怎么恢复?...
- 【NLP】HuggingFace BERT 微博评论情感分类
- 原创力文档怎么免费下载_简历模板免费资源 word文档模板下载