项目滑动窗口的概念

时间点 第6末尾

1-6 有数据

1------ 训练阶段
1-4 -> feature
5 -> label

feature + label 训练集 => model

2------ 验证阶段
相同逻辑
2-5 -> feature
6 -> label

model 2-5feature => 6prediciton

6prediction - 6label -> AUC ROC 验证 model 是ok

3------- 模型应用

3-6 feature
model
model + 3-6feature => 7prediction(未来)

项目落地思路
PC haitong_test.csv 原始数据
1 上传服务器
2 数据导入到hdfs中
3 inceptor 建表 将 hdfs 数据导入inceptor 数仓中
4 在 inceptor中 通过sql 加工原始表(根据特征联想的思路)
5 产生中间表、结果表
6 四个周数据 -> feature_table 一个周的数据 -> label_table
7 将 feature_table、label_table -> 导入到sophon中
8 sophon进行常规建模
9 模型优化

项目落地思路
PC haitong_test.csv 原始数据
手操作部分
1 上传服务器 linux 大数据平台 AIsophon winscp Xshell mobaXterm
2 数据导入到hdfs中

SQL脚本部分
3 inceptor 建表 将 hdfs 数据导入inceptor 数仓中
4 在 inceptor中 通过sql 加工原始表(根据特征联想的思路)
5 产生中间表、结果表
6 四个周数据 -> feature_table 一个周的数据 -> label_table
7 将 feature_table、label_table -> 导入到sophon中

sophon可视化建模部分
8 sophon进行常规建模
9 模型优化

大数据实战项目之金融客户流失预警相关推荐

  1. 大数据实战项目之电商数仓(一)

    大数据实战项目之电商数仓(一) 项目介绍 数据仓库概念 ​ 数据仓库是为企业所有决策制定过程,提供所有系统数据支持的战略集合.通过对数据仓库中数据的分析,可以帮助企业改进业务流程,控制成本,提高产品质 ...

  2. 腾讯QQ大数据:用户增长分析——用户流失预警

    1,前言:针对用户增长分析这个课题,本文主要从用户防流失的角度,阐述如何基于QQ社交网络数据构建用户流失预警模型,找出高潜流失用户,用于定向开展运营激活,从而有效控制用户流失风险,提升大盘用户的留存率 ...

  3. 大数据实战项目必备技能三:storm

    导读: Storm是一个分布式计算框架,主要使用Clojure与Java语言编写,最初是由Nathan Marz带领Backtype公司团队创建,在Backtype公司被Twitter公司收购后进行开 ...

  4. 大数据应用---之---互联网金融---客户风险控制

    一. 前言 二. 大数据在互联网金融的应用 1 金融反欺诈与分析 2 构建更全面的信用评价体系 3 高频交易和算法交易 4 产品和服务的舆情分析 三. 客户风险控制 1 信用评分算法 2 分类模型的性 ...

  5. 基于Hadoop开发的大数据实战项目——电商日志分享系统

    项目介绍 大数据电商日志平台项目以某电商网站真实的业务数据架构为基础,将数据从收集到使用通过前端应用程序,后端程序,数据分析,平台部署等多方位的闭环的业务实现.形成了一套符合教学体系的电商日志分析项目 ...

  6. 大数据实战项目--中国移动运行分析

    1.项目背景 中国移动公司旗下拥有很多的子机构,基本可以按照省份划分. 而各省份旗下的充值机构也非常的多. 目前要想获取整个平台的充值情况,需要先以省为单元,进行省份旗下的机构统计,然后由下往上一层一 ...

  7. 【大数据实战项目七】数据探索(航空公司与飞机数据统计与补充)

    这里写目录标题 8 数据探索 8.1 数据初探 8.2 数据分组汇总 8.3 利用Flask进行数据展示 8.4 利用爬虫获取补充数据 8.5 丰富网址主页信息 8.5.1 航空公司信息的补充展示 8 ...

  8. 大数据实战项目 -- 离线数仓

    一.数仓规划 1.1 集群规划 技术选型 位置 框架 数据采集传输 Flume,Kafka,Sqoop ,Logstash,DataX, 数据存储 MySql,HDFS,HBase,Redis,Mon ...

  9. python大数据实战项目_商业数据分析比赛实战,内附项目代码

    如果你对商业数据分析感兴趣.想要积累更多项目经验,那么就来看看下面这项目吧. 数据竞赛平台和鲸社区最近正在举办一场数据分析大赛,不仅带来了22w奖金和30w创业基金支持,更是提供了统一的在线比赛环境, ...

最新文章

  1. [工具]-脚本自动化工具:按照linux kernel标准格式化输出文件(format_file)
  2. 【遥感数字图像处理】基础知识:第五章 遥感图像增强处理方法总结
  3. micropython 网络驱动_network_网卡驱动
  4. datetime unix php,PHP基于DateTime类解决Unix时间戳与日期互转问题【针对1970年前及2038年后时间戳】...
  5. 记录一次SQL查询语句
  6. ASP.NET 3.5中客户端回发及回调
  7. 生意做到一定规模,老板想面面俱到,亲力亲为就不可能了
  8. 图像处理九:拟合曲线
  9. 英国PHP轴承,php – 纵向宽度将如何影响轴承
  10. C#基础回顾(一)—C#访问修饰符
  11. 多目标遗传优化算法nsga2[python源码实现]
  12. linux查看java堆栈
  13. OpenCV 3 image shape - size - dtype
  14. Advanced Javascript outlining插件说明
  15. 谈 heuristic
  16. TypeError parentComponent.ctx.deactivate is not a function
  17. Dell PowerEdge R750 Intel DAOS 顺利通过“HighPerf Ready 1.0”测试
  18. 838计算机考研用书,河海计算机838考研大纲(5页)-原创力文档
  19. 系统集成项目管理工程师、信息系统项目管理师、PMP好考吗
  20. ASO马甲包:马甲包上架注意事项

热门文章

  1. 魔塔之拯救白娘子~我的第一个VB6+DX8做的小游戏源码~22开始游戏-穿越楼层
  2. 雕爷:我眼中的O2O成长路径
  3. 各种会议名称的英文名称
  4. jQuery用Flash视频替换YouTube链接
  5. HDR Efex Pro 2 for mac(DHR滤镜工具)
  6. 艾美捷小鼠IFN-γ ELISpot试剂盒,极速,不敏感检测
  7. 马斯克卸任推特CEO?谁赞成谁反对!
  8. Python做全国房价分析——经纬度的转换
  9. 2021年度训练联盟热身训练赛第五场(A B C E F G H I)
  10. Dealing with corrupted system indexes in PostgreSQL