探讨使用UML设计机器学习特征工程与深度学习建模等大数据分析软件
大数据人工智能软件产品研发,是在传统软件工程的基础上,增加了数据特征分析、人工智能算法建模及模型训练过程,同时也增加了很大的不确定性。
0. 前言
本文以程序员视角,以客户流失为案例,使用UML方式设计机器学习特征工程和深度学习建模与模型训练等大数据分析软件,通过此项研究工作,希望能帮助高级程序员快速参与到大数据人工智能研发工作中,也为有意向成为人工智能开发者分享经验。
首先,我们回顾UML和主要图例。
UML(Unified Modeling Language)统一建模语言,又称标准建模语言。基于UML的可视化模型,使系统结构直观、易于理解。模型是系统的蓝图,它可以对开发人员的规划进行补充,模型可以帮助开发人员规划要建的系统。
参与者角色
用例
用例图用于捕获用例和操作者和主题 (系统) 之间的关系。
时序图
序列图是把参与者的操作或行为作为一系列、顺序步骤的结构化的表示,并随着时间的推移。
1. 数据分析用例图
1.1. 用户视角用例
以软件直接使用者,我作为用户的视角,我们都在做什么工作,怎么分析业务数据:可以简单的归纳为分类问题和趋势分析问题。
1.2. 数据分析开发者视角用例
我们以数据分析开发程序员、算法工程师的视角,我主要工作是采集数据、处理数据、提取特征、建模并训练模型。
2. 数据分析时序图
2.1. 数据分析特征工程过程时序图
我们的时序图,更贴近软件结构和代码,按分析过程控制相关的类/对象,完成我们的分析工作。
2.2. 数据分析算法建模训练过程时序图
3. 类包图
类包图是上面时序图所涉及到的类/对象进行分类归集,与程序结构/代码保存结构对应。
4. 活动图
我们的活动图,更多的是表达数据的详细处理过程和逻辑,例如在“提取数据特征(也叫特征工程)”的用例下,一个交易特征提取处理过程,另外还有客户流失特征提前、分析处理过程等等。
5. 总结
本案例的UML结构是以用例为自顶向下开始,逐步细化、展现,系统化的描述了大数据人工智能软件设计体系结构。
每个用例下包括活动图,用于描述数据处理过程(或业务处理流程),以及类/对象,用于描述业务的软件结构和数据、过程;而时序图是以软件结构和组件的视角描述了实现业务的过程。
图形是人类最好的沟通、表达方式之一,通过UML可视化后,我们将会发现:大数据人工智能的数据分析软件产品,内部结构将非常接近,对于程序员来说,最有挑战的就是特征提取和算法建模,其他的对于程序员相对较为简单。
参考:
《UML与软件工程专题集锦》 CSDN博客 ,肖永威 ,2021年3月
《通过客户流失预测案例感悟数据分析设计方法思考——数据驱动、AI驱动》 CSDN博客 ,肖永威 ,2021年2月
探讨使用UML设计机器学习特征工程与深度学习建模等大数据分析软件相关推荐
- 不会做特征工程的 AI 研究员不是好数据科学家!上篇 - 连续数据的处理方法 本文作者:s5248 编辑:杨晓凡 2018-01-19 11:32 导语:即便现代机器学习模型已经很先进了,也别
不会做特征工程的 AI 研究员不是好数据科学家!上篇 - 连续数据的处理方法 雷锋网(公众号:雷锋网) AI 科技评论按:眨眼间我们就从人工特征.专家系统来到了自动特征.深度学习的人工智能新时代,众多 ...
- 机器学习-特征工程中的特征降维
对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...
- 机器学习-特征工程中的特征选择
对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...
- 机器学习-特征工程中的数据预处理
对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...
- 机器学习特征工程之连续变量离散化:聚类法进行分箱
机器学习特征工程之连续变量离散化:聚类法进行分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲, ...
- 机器学习特征工程之连续变量离散化:等频分箱
机器学习特征工程之连续变量离散化:等频分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲,但是有 ...
- 机器学习特征工程之连续变量离散化:连续变量二值化(Binarizer)
机器学习特征工程之连续变量离散化:连续变量二值化(Binarizer) 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均 ...
- 机器学习特征工程之连续变量离散化:等宽分箱
机器学习特征工程之连续变量离散化:等宽分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲,但是有 ...
- 机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler)
机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行 ...
最新文章
- Matlab编程序设计数字滤波器
- Jetson Nano and VIM3硬件参数对比及目标检测性能对比
- PostgreSQL 恢复模式错误日志增强 - 提供正在恢复的WAL(XLOG)文件位置
- Winform中使用用户控件实现带行数和标尺的RichTextBox(附代码下载)
- 趣学python3(6)-条件语句
- 【Java面试题】计算一个数字的立方根,不使用库函数
- 微软亚洲研究院谭旭:AI音乐,技术与艺术的碰撞
- 零基础如何快速上手高精度AI模型开发?
- '_thread._local' object has no attribute 'value'
- LeaRun低代码平台一站式搭建项目管理系统
- 用人机对话系统设计逻辑探究人工智能产品经理
- 支付宝服务商模式下的支付开发
- Freeswitch呼入及呼出录音问题
- outlook2016关闭时最小化到任务栏的完美解决方法
- 用python求一元二次方程的解
- Java薪资管理系统
- NORDAC诺德变频器维修SK520E-750-340-A及故障代码
- 精选20个爆火的Python实战项目(含源码),直接拿走不谢
- 达梦数据库更新License
- nvue 怎么布局