原文首发于我的公众号

背景

注塑成型作为做常见的一种塑料制品加工工艺,它所加工的产品在生活中随处可见,例如电子产品、汽车配件、玩具以及其他众多消费品。由于成型系统较为复杂并且对环境较为敏感,注塑成型加工过程中的不稳定因素很容易导致产品不良的发生,造成经济损失。所以我们建立注塑成型大数据,来感知这些不可见的干扰因素,然后通过分析建模解决甚至避免现场痛点问题。比如成型过程的异常检测预警及不良品的识别,有助于减少甚至避免不合格品的产生,对于管控产品质量、降低生产成本有重要的作用。同时,针对异常产生现场人员因经验差异导致调机无法规范化的问题,如果能够根据成型过程数据和异常事件进行建模分析,改进调机策略,将会节省大量的时间成本和经济成本。

任务

要求选手针对成型工艺品质异常中尺寸超规问题进行虚拟量测。根据训练集所提供所有模次产品的过程数据和相对应的实际量测值(标签)进行虚拟量测模型建模,然后对测试集中的产品进行尺寸预测,即虚拟量测。

数据

本次竞赛的数据集包含以下多种来源:

传感器高频数据:该数据来自于模温机及模具传感器采集的数据,文件夹内每一个模次对应一个csv文件,单个模次时长为40~43s,采样频率根据阶段有20Hz和50Hz两种,含有24个传感器采集的数据;
成型机状态数据(data_spc):该数据来自成型机机台,均为表征成型过程中的一些状态数据,每一行对应一个模次,数据维度为86维;
机台工艺设定参数(data_set):文件夹中含有注塑成型的81种工艺设定参数;
产品测量尺寸(size):文件夹内含有每个模次产品的3维尺寸;
分析
首先根据任务与数据简单查看数据。查看所有特征列,列名,类型,空值统计,基本describe信息。

查看目标列的信息。首先是趋势:

目标列的分布:

查看各个特征与目标的关系,以及各个特征训练集与测试集分布的不同。


建模

在数据探索性分析基础上,就是建模过程。首先,可以把metrics函数写出来。然后是特征导入,模型、验证、提交各个部分。baseline写完之后,首先保证验证部分是合理的,判断依据是本地测试结果与线上提交结果的同步,允许微小不同,但应保持同步。

对于常规的表格问题,首选尝试自然是lightgbm,除了性能好之外,还可以方便的输出特征重要性,进行特征选型。我的基本模型是这样的,lightgbm和交叉验证融合到一起。

def model():predictions = np.zeros(len(X_test))for i, (train_index, val_index) in enumerate(skf.split(X_train,y_train)):print("fold {}".format(i))X_tr, X_val = X_train.iloc[train_index], X_train.iloc[val_index]y_tr, y_val = y_train.iloc[train_index], y_train.iloc[val_index]lgb_train = lgb.Dataset(X_tr, y_tr)lgb_val = lgb.Dataset(X_val, y_val)clf = lgb.train(lgb_params, lgb_train, num_round=2000, valid_sets = [lgb_train, lgb_val],verbose_eval=50, early_stopping_rounds = 50)print('best iteration = ', clf.best_iteration)predictions += clf.predict(X_test, num_iteration=clf.best_iteration) / skf.n_splitsreturn predictions

迭代与后处理

从数据、特征、模型去考虑细致深入的改进。错误分析,尝试寻找tricks。

也值得纪念一下自己第一次认真参加的数据比赛。决赛的翻车自然就是另一个故事了。

以上做的细致一点,初赛可以达到1e5以下。虽然离第一结果很远,但可以维持在top20以内。但是决赛前三天,风云突变,这个成绩只能排50以外了。

弯路

我的大多尝试都越来越差,即使本地测试提高了,排行榜也可能差远了。
其实没什么弯路,只是尝试了太多不起作用的调整,目标后来甚至是能坚持完赛,别放弃就好。若干年后的一个秋天,当我回想起我第一次参加数据比赛的经历,因为好好了解了一下注塑机的历史,大概只记得注塑机的发明动力源自以前的台球都是昂贵的象牙做的。

联系方式

公众号搜索:YueTan

数据竞赛:第四届工业大数据竞赛-虚拟测量相关推荐

  1. 赛后总结:第四届工业大数据竞赛注塑成型

    赛后总结:第四届工业大数据竞赛注塑成型 原文首发于我的公众号 前言 以第四届工业大数据竞赛虚拟量测任务为例,介绍大家的思路.自己代码乱写,导致不知道最后要复现的是哪个,加上工作上各种人员优化,就没有进 ...

  2. 预告|第四届工业大数据创新竞赛决赛答辩倒计时

    为加速工业大数据应用创新,强化以实践能力为导向的应用型人才培养,中国信息通信研究院和深圳宝安区人民政府携手,联合国内优秀企业共同举办第四届工业大数据创新竞赛.竞赛聚焦细分行业.特定领域痛点问题,以工业 ...

  3. 【工业大数据】发展工业大数据,助力天津市先进制造研发基地建设

    工业大数据对先进制造业发展的促进作用 工业大数据是指在工业领域,从客户需求到产品研发设计.工艺设计.采购供应.生产制造.成本核算.销售服务等产品全生命周期各个环节产生的数据及相关技术和应用的总称.工业 ...

  4. 第四届工业大数据创新竞赛-Top1方案

    我虽然名次不咋样,有幸通过这场比赛认识了大佬.以下是他的解决方案

  5. 【工业大数据】 昆仑数据首席科学家田春华:人工智能降低了工业大数据分析的门槛

    机器之心原创 作者:高静宜 在刚刚结束的国际 PHM 数据竞赛中,昆仑数据的 K2 代表队以绝对优势一举夺冠,成为 PHM Data Challenge 十年竞赛史上首个完全由中国本土成员组成的冠军团 ...

  6. 工业大数据的应用与实践

    工业大数据的应用与实践 袁爱进1,岳滨楠2,闫鑫2,黄健2 1. 三一集团有限公司,上海 201299 2. 上海华兴数字科技有限公司,上海 201299 摘要:随着物联网和信息物理系统时代的来临,更 ...

  7. 【2017年第4期】工业大数据技术与架构

    郑树泉,1,3, 覃海焕,2,3, 王倩,1,3 1. 上海计算机软件技术开发中心,上海 201112 2. 上海电机学院电子信息学院,上海 201306 3. 上海产业技术研究院工程大数据服务创新中 ...

  8. 【工业互联网】郭朝晖:工业互联网平台背景下的工业大数据与智能制造

    4月11日,工业互联网平台宣讲团第二季第三讲继续开讲,由走向智能研究院工业大数据首席专家.清华大学访问学者郭朝晖为大家分享"工业互联网平台背景下的工业大数据与智能制造"." ...

  9. 【工业大数据】大数据时代,计量服务将何去何从?

    大数据的处理分析,正成为新一代信息技术融合应用的结点,而大数据之于计量服务领域将得到怎样的应用,又会起到怎样的影响.今天我们将从此点出发,谈谈计量服务领域的大数据变革. 大数据与企业隐私 随着国家经济 ...

最新文章

  1. [Android1.5]Android2.0版本以下Activity切换动画效果
  2. post请求与get请求的差别
  3. 在《糖豆人》身上,我们看到了竞技游戏火爆的六大因素
  4. 这是我在网上安的第一个窝!
  5. 跨入安全的殿堂--读《Web入侵安全测试与对策》感悟
  6. MyBatis使用心得(一)--- 简单介绍
  7. 介绍几个专门面向中文的命名实体识别和关系抽取工具
  8. 消息称苹果正在启动生产iPhone SE 3
  9. 谷歌微软等公司承诺大力投资于网络安全建设
  10. 荣耀9X/9X Pro外观谍照曝光:屏幕设计竟大不相同
  11. TensorFlow2.0:张量排序
  12. 数据库没有备份---应如何还原丢失的数据
  13. Redis 连接问题
  14. 乌班图各版本镜像文件下载
  15. Vdbench工具安装使用
  16. 基于simulink的模糊PID控制器设计与实现
  17. 什么是 AngularJS?
  18. cpu之ALUSrc_Reg1
  19. qt学习(七)Sockt-TCP-UDP-BOARDCAST-MULI-CAST
  20. python基础-运算符

热门文章

  1. 原型、原型对象、构造函数、原型链理解
  2. WPF 4 单词拼写检查(SpellCheck)
  3. vagrant 简单使用
  4. Erlang --- 基本概念
  5. HTML5 编辑 API 之 Range 对象(一)
  6. 打开电话Android系统调用
  7. 离散信号经过FFT处理后,幅度,相位,功率的计算
  8. datalength,求字符串的字节数
  9. windows下python虚拟环境virtualenv安装和使用
  10. 24-单调递增最长子序列(多种解法总结)