案例 | 基于JMP的机器学习，解决半导体良率问题

伴随半导体行业的数据采集能力持续增强，数据分析业务场景日趋复杂，通过挖掘数据背后信息解决实际业务问题、支持量化决策的价值日益突显。机器学习方法在解决一些复杂的数据分析业务场景时，能够保障分析结果的准确性，并能提高分析效率。

那么，究竟机器学习如何在在半导体行业有哪些应用？本文以一个典型性案例来介绍机器学习在半导体良率提升方面的应用及思路，希望对大家有所启发。

为什么选择机器学习？

机器学习，是一种可以基于样本数据自动化构建数学模型，以便能够基于新观测的输入数据来预测输出结果的分析方法。

以半导体为代表的现代高端制造业和质量管理大致经历了以下几个发展阶段：

企业通过IT建设，搭建业务管理系统，全面管理数据信息，开启业务数据化的进程；
通过引进诸如六西格玛等成熟的管理体系，改善运营水平；
不断提升数据采集能力，打造智能工厂；
希望充分挖掘数据背后的价值，从而形成数据业务化的闭环。

在数据无处不在、数据量爆炸式增长的今天，如何高效的利用数据、选择适合的分析方法成为了关键，机器学习正是在这样的背景下走入了工程人员的视野。

相比传统方法，机器学习有哪些优势？

在机器学习的世界里：

解决问题的方法从来都不是唯一的；
多个算法往往可以用来解决同一个问题，并且没有哪个算法总是表现最优；
因此，从中选择最适合的那一个。

从数据科学角度看，机器学习训练模型的过程是一个“偏差-方差权衡 (Bias-Variance Trade-off)”的问题，通过交叉验证可以尽可能地规避欠拟合和过拟合问题。

所谓偏差小，也就是拟合效果好，即尽可能地契合所有样本观测点；
所谓方差小，也就是对于同一总体数据，每一次抽样样本拟合的模型应该差不多。

下面，我们通过一个案例研究来具体问题具体分析。

案例背景

半导体终端产品的产生需要经由数百个步骤组成的制造过程，数据量庞大，而且异常复杂。在制造过程的最后，还有两个用于对芯片进行分类的补充步骤：参数测试和电性晶圆分类，这两个步骤都是电性测试，也是本文案例的分析对象。

定义业务问题

工程师在某半导体产品 EWS (Electrical Wafer Sort) 测试的 BIN10 上观测到了良率损失（在某些晶圆上的良率损失高达 10%），推测该损失与某个 PT 参数效应有关，因此，一旦确定了 PT 参数，就很容易找到相关的过程参数，从而形成纠正和预防措施。

因此，棘手问题是：如何迅速找到与 BIN10 不良最密切相关的 PT 参数？

接下来，我们按照典型的机器学习预测建模流程的“天龙八部”来详细分析问题。

数据采集和准备

将用于良率分析的数据进行关联；
比如，按 Lot ID + Wafer ID 关联 EWS，Parameter Test，Equipment，甚至 OVL, ADI,THK 等 Inline Test 数据；
最终，对于本例的数据集约 ~560 行，~650 列，即某种意义上的宽型数据。

数据变换

通过JMP直观的直方图，可以看到，由于 EWS1_BIN10 数据近似服从对数正态分布 (偏态分布)，因此工程师对其进行对数变换，从而转换为近似正态分布 (对称分布)。

一般情况下，这有利于后续的预测建模分析。

预测建模方法选择

传统统计分析方法（如单因子分析）分析 EWS1_BIN10 和所有 Parameter Test 参数的相关性往往低效，且具有片面性；
数据缺失问题(40% 左右的 Parameter Test 列变量缺失值比例在 25%
以上)，高维宽型数据的多重共线性和超饱和问题等又导致传统统计分析方法往往具有局限性。

工程师最终发现基于决策树的集成算法随机森林 (Bootstrap Forest) 等机器学习算法更适合应对此类问题。

随机森林是基于决策树的一种集成机器学习方法。

其差异性在于：

随机：样本的随机性 / 预测变量的随机性
森林：构建多棵决策树共同参与决策

从改进单棵决策树的准确性，并减少方差，让预测建模效果更好。

随机森林预测建模

使用变换后的 Log(Bin10) 作为响应 Y，使用 595 个 PT Parameters 作为预测变量 Xs ，进行 Bootstrap Forest 建模。

随机森林总共构建 100 棵树，在每一个拆分处考虑 148 个随机选择的预测变量。

每次训练模型的样本都是基于Bootstrap的抽样方式构成的随机训练集。利用这两个随机性，提升模型的准确度。

模型诊断及结果分析

从模型的输出报表，可以看到：

训练集获得了较高的 R2，验证集和测试集的 R2 损失较小，并且两者的偏差较小，因此，所建立的模型可以很好地解释过程变异。
此外，通过查看对森林有非零贡献的列变量，识别可能影响 Y的因子，而根因将是那些贡献最大的因子，因为特定变量与响应的相关性越大，被选择的频率就越高。

根因识别

工程师将列贡献最大的变量提取出来后发现：

列贡献大 (本例选取Top6) 的预测变量之间可能存在共线性，因此，可以结合主成分或多元相关分析和工程经验进一步甄别；
对于本例，工程师最终将 171_PT 识别为最重要的影响因子。

结果验证

工程师通过进一步追溯变异源，发现 171_PT 和某关键工艺设备之间存在明显的相关性，Tukey-Kramer 多重比较确认了该差异的显著性。

因此，工程师可以展开更进一步的排查设备问题，找到导致过程输出变异和波动的原因，从而形成有针对性的预防措施和改进措施。

模型部署及应用

越来越多的高端制造企业期望借助不同的工具和方法搭建大数据分析平台，打造智能工厂，因此，我们将类似本案例所获得模型以通用代码形式部署于企业级的大数据分析平台，这是实现预测性质量控制和预测性维护的有效手段之一，也是被证明行之有效的科学方法。

JMP作为业界顶尖的数据分析品牌，提供了丰富多样的预测建模和数据挖掘手段，并持续被Forrester评为数据科学、机器学习和预测分析领域的领导者，其系列产品广泛地被财富500强公司、世界50强半导体企业、主要政府机构所使用，并能够帮助决策者、分析人员真正地从数据中挖掘出对企业经营决策有益的信息。

*** 以上内容来自JMP数据分析经理徐老师于9月16日在紫光展锐“UP · 2021展锐线上生态峰会”上发表的精彩演讲。**

想要了解完整更多案例研究，可下载完整白皮书。