大数据 银行业应用案例

A Portuguese banking institution ran a marketing campaign to convince potential customers to invest in bank term deposits. Information related to direct marketing campaigns of the bank is as follows. The marketing campaigns were based on phone calls. Often, the same customer was contacted more than once through phone, to assess if they would want to subscribe to the bank term deposit or not.

一家葡萄牙银行机构开展了一项营销活动,以说服潜在客户投资银行定期存款。 与银行的直接营销活动有关的信息如下。 市场营销活动基于电话。 通常,通过电话与同一个客户联系多次,以评估他们是否要订阅银行定期存款。

The following questions were answered by data analysis with Spark

Spark的数据分析回答了以下问题

  1. Load data and create a Spark data frame加载数据并创建一个Spark数据框
  2. Give marketing success rate. (No. of people subscribed / total no. of entries)给出营销成功率。 (订阅人数/总参赛人数)
  3. Give marketing failure rate给出营销失败率
  4. Maximum, Mean, and Minimum age of the average targeted customer平均目标客户的最高年龄,平均年龄和最低年龄
  5. Check the quality of customers by checking the average balance, median balance of customers通过检查平均余额,中位数余额来检查客户的质量
  6. Check if age matters in marketing subscription for deposit检查年龄是否与营销订阅中的存款有关
  7. Check if marital status mattered for subscription to deposit.检查婚姻状况是否对订金有重要意义。
  8. Check if age and marital status together mattered for subscription to deposit scheme检查年龄和婚姻状况是否对订阅存款计划有重要影响
  9. Do feature engineering for the column — age and the right age effect on the campaign对列进行功能设计-年龄和正确的年龄对广告系列的影响

The dataset is from the banking sector with the following attributes

数据集来自银行业,具有以下属性

Features attributes: age, job, marital, education, default, balance, housing, loan, contact, day, month, duration, campaign, pdays, previous, poutcome.

功能属性:年龄,工作,婚姻,教育,默认,余额,住房,贷款,联系方式,日期,月份,持续时间,竞选活动,周日,以前,结果。

Target attributes: y

目标属性:y

From the attributes the column ‘y’ is important and it has a two-class, ‘yes’ and ‘no’. If the user is subscribed to a term deposit then it is ‘yes’ otherwise ‘no’.

从属性中,“ y”列很重要,它具有两类,“是”和“否”。 如果用户订阅了定期存款,则为“是”,否则为“否”。

Loading data and create Spark data frame

加载数据并创建Spark数据框

scala> val df = spark.read.format("csv").option("header","true").option("delimiter",     ";").load("banking.csv")#output:df: org.apache.spark.sql.DataFrame = [age: string, job: string, ....    15 more fields]

Here we are assigning our CSV file in a ‘df’ variable and the delimiter in this CVS file is not a comma but it is a semi-colon. To print all the variables we need to write a printSchema function.

在这里,我们在'df'变量中分配CSV文件,并且此CVS文件中的定界符不是逗号,而是分号。 要打印所有变量,我们需要编写一个printSchema函数。

scala> df.printSchema
CSV file attributes
CSV文件属性

Give marketing success rate. (No. of people subscribed / total no. of entries)

给出营销成功率。 (订阅人数/总参赛人数)

For the success rate, we need to find the total number of ‘yes’ entries in the target column and divide it with the total number of entries. To count the total number of ‘yes’ by the filter function.

为了获得成功率,我们需要在目标列中找到“是”条目的总数,然后将其除以条目总数。 通过过滤功能计算“是”的总数。

scala> val sub_count = df.filter($"y"==="yes").count().toDouble#output:sub_total: Double = 5289.0

To find the total values of the entries

查找条目的总值

scala> val totalcount = df.count().toDouble#output:totalcount: Double = 45211.0

To find the success rate just divide the sub_count to the total count.

要找到成功率,只需将sub_count除以总数即可。

scala> val success_rate = sub_total/totalcount#output:success_rate: = Double = 0.116984

Give marketing failure rate

给出营销失败率

To get the failure rate, we need to divide the total_failure to the total count.

为了获得失败率,我们需要将total_failure除以总数。

scala> val fail_count = df.filter($"y"==="no").count().toDoublescala> val failure_rate = fail_count/totalcount#output:failure_rate: Double = 0.883015

Maximum, Mean, and Minimum age of average targeted customer

平均目标客户的最高年龄,平均年龄和最低年龄

When we see the dataset the age column has a different number of people with different ages and it is in numeric values. So, we need to find out the maximum age, minimum age and the average age of the people.

当我们看到数据集时,“年龄”列具有不同数量的具有不同年龄的人,并且是数字值。 因此,我们需要找出人们的最高年龄,最低年龄和平均年龄。

scala> sql("select min(age), avg(age), max(age) from banking").show

Check quality of customers by checking average balance, median balance of customers

通过检查平均余额,客户中位数余额来检查客户质量

This is the next step to find the average and median balance of customers.

这是查找客户平均余额和中位数余额的下一步。

scala> sql("select avg(balance), percentile_approx(balance, 0.5) from banking").show

Check if age matters in marketing subscription for deposit

检查年龄是否与营销订阅中的存款有关

For deposit, it is important that which age group people are more in numbers and in the code, the desc is descending order in this is the total number of every particular age.

对于存款,重要的是哪个年龄段的人的人数更多,并且在代码中,降序是降序排列,这是每个特定年龄段的总数。

scala> sql("select age, count(*) as age_count from banking where y = 'yes' group by age order by age_count desc").show

Check if marital status mattered for subscription to deposit.

检查婚姻状况是否对订金有重要意义。

scala> sql("select marital, count(*) as no from banking where y = 'yes' group by marital order by no desc").show

Check if age and marital status together mattered for subscription to deposit scheme

检查年龄和婚姻状况是否对订阅存款计划有重要影响

The code is counting the age and marital status and creating a new column as subscription of counts

该代码正在计算年龄和婚姻状况,并创建一个新列作为计数的订阅

scala> sql("select age, marital, count(*) as subscription from banking where y = 'yes' group by age, marital order by subscription desc").show

Do feature engineering for column — age and find right age effect on campaign

做专栏的专案工程-年龄并找出正确的年龄对广告系列的影响

The main objective of this feature engineering is that which age group is more important for subscriptions

此功能工程的主要目标是哪个年龄段对订阅更重要

scala> sql("select case when age<25 then 'Young' when age between 25 and 60 then 'Middle Age' when age>60 then 'Old' end as age_category, count(1) from banking where y='yes' group by age_category by 2 desc").show

You can reach me at my LinkedIn link here and on my email: design4led@gmail.com.

你可以在我的LinkedIn链接到我这里design4led@gmail.com:和我的电子邮件。

My Previous Articles:

我以前的文章:

  1. Robotic Vision in Agriculture

    农业机器人视觉

  2. Interesting 10 Machine Leaning and Data Science Projects with Datasets

    带有数据集的有趣的10个机器学习和数据科学项目

  3. Basic Understanding of NLP With Python

    使用Python对NLP的基本了解

  4. Zero to Hero in Python from Basic to OOPs Concept

    从Python零到英雄从基本到OOPs概念

翻译自: https://levelup.gitconnected.com/big-data-project-of-market-analysis-in-banking-domain-with-spark-d9e5bcc8f11d

大数据 银行业应用案例


http://www.taodudu.cc/news/show-2270600.html

相关文章:

  • 行业案例 | 数据分析在银行业应用之欺诈检测
  • 《银行业金融机构数据治理指引》解读及解决方案建议
  • 银行业金融机构数据治理指引和DCMM的对比分析
  • 银行营销数据分析
  • 数据分析在银行业应用之欺诈检测
  • 银行业数据安全建设要点分析2022
  • STM32CubeMx + HighSpeed USB + FreeRTOS
  • macbook硬盘读写速度测试(Disk Speed Test 测速贴图)
  • 固态硬盘测试软件怎么测速,AS SSD Benchmark(SSD硬盘测速工具),如何发挥最佳性能?...
  • Video Speed Controller在百度盘使用
  • Android 自定义仪表盘
  • 必备!Mac上的硬盘测速专家Blackmagic Disk Speed Test
  • 达芬奇剪辑调色专用键盘DaVinci Resolve Speed Editor
  • 速盘项目(speed盘)
  • bmd硬盘测试_disk speed test mac版下载-Blackmagic Disk Speed Test for Mac(硬盘读写速度测试工具) v3.2免费版 - Mac天空...
  • U盘无法识别
  • pygame 键盘操作
  • QT绘制简易表盘
  • STM32键盘扫描程序
  • 常见硬盘分类介绍
  • Wheel Speed Sensor Bosch 文章
  • linux单盘raid0,MegaCli修复单盘RAID0
  • android自定义速度仪表盘,自定义View实战:汽车速度仪表盘
  • 硬盘转速和平均寻道时间
  • 计算机键盘无法识别,电脑插上键盘显示无法识别USB?
  • linux下u盘不识别问题,linux u盘不识别解决办法
  • docker安装speedtest和宝塔面板
  • 服务器硬盘检测系统,服务器RAID硬盘与日志主要检测方法
  • 硬盘测速工具:Blackmagic Disk Speed Test for Mac
  • bmd硬盘测试_Blackmagic Disk Speed Test for Mac(硬盘测速工具)v3.2免费版

大数据 银行业应用案例_银行业市场分析大数据项目相关推荐

  1. 数据科学与大数据技术的案例_主数据科学案例研究,招聘经理的观点

    数据科学与大数据技术的案例 I've been in that situation where I got a bunch of data science case studies from diff ...

  2. 数据科学与大数据技术的案例_作为数据科学家解决问题的案例研究

    数据科学与大数据技术的案例 There are two myths about how data scientists solve problems: one is that the problem ...

  3. 大数据平台常用组件_这款大数据智能服务平台火了!全自动化配置30+款开源大数据组件...

    在互联网市场的头部效应下,企业所面临的竞争压力越来越大,如何有效解决获客成本高.用户黏性低.变现能力弱等问题,正是越来越多的企业开始构建大数据平台的初衷.但由于大数据解决方案所涉及的组件错综复杂.技术 ...

  4. 油气大数据平台建设案例分享,让油田数据同步效率提升20%的解决方案

    你知道吗?石油探测生产,其实也是一个需要经过大量数据的分析计算才能实现的工作.早在60多年前,大庆油田的建设者们,就需要经过多达160万次的分析化验和超千万次的地层对比,才能完成地下石油分布的探查. ...

  5. 大数据综合能力测试_如何完成大数据测试?资深测试从功能测试角度为你分析分析...

    大数据,已经成为了这个时代的代名词.当今的互联网属于大数据时代,大数据时代的到来,颠覆了以往对数据的惯性思考方式,要保证数据执行,软件质量,测试质量,数据使用场景等,都需要重新变换一个新的角度,对软件 ...

  6. 大数据人工智能物联网论文_物联网学报“大数据”相关论文汇总

    戳上面的蓝字关注我们哦! <物联网学报>"大数据"相关论文汇总  (点击题目即可跳转至指定论文) [1]龚淑蕾, 李堃, 童恩, 等. 基于蜂窝工业物联网的智能工厂解决 ...

  7. 计算机大数据的前景方向_未来计算机大数据的发展方向

    原标题:未来计算机大数据的发展方向 计算机大数据的利用价值,是需要通过数据和相关技术结合起来,将数据中的价值发挥到最大.在当前时代,如何有效挖掘数据中的价值,已经成为当前企业所关注的重点问题之一,计算 ...

  8. 大数据薪水大概多少_入行大数据,薪资待遇到底能拿多少?

    大数据作为IT领域的热门技术,吸引了众多的转型者,无论是跳槽还是转行,都是为了能有更好的发展和机遇,当然,良好的薪资上升趋势也是转型前不可或缺的考虑因素,那么,大数据行业的薪资趋势到底如何呢? 国际招 ...

  9. python运用在大数据中精准生活_《在大数据中“精准”生活》阅读答案

    <在大数据中"精准"生活>阅读答案 ①万物皆互联,无处不计算.因为互联网.手机.无线传感器的普及,实时监测.远程协作.SOHO工作.数据管理已成为平常之事,信息像水电一 ...

  10. 大数据审计的发展_浅谈大数据时代下审计工作的发展方向

    浅谈大数据时代下审计工作的发展方向 李寒梅 [摘 要] [ 摘 要 ] 随着信息化水平不断提升,企业的审计工作需要处理海量的数 据,而利用常规软件难以对海量数据进行处理,这就需要应用大数据技术.审 计 ...

最新文章

  1. 推荐系统超级公开课报名!
  2. SpringMVC和Dubbo的整合
  3. sap-通过定义物料组的评估类-设置无物料号的费用采购
  4. boost::log相关用法的测试程序
  5. 十大排序算法之快速排序(两种方法)
  6. 【Docker-Ubuntu】ubuntu16.04 docker 使用记录
  7. linux之lsof和netstat判断端口(port)被哪些应用占用
  8. windbg script ---- 禁用IsDebuggerPresent
  9. 【转】Glut处理鼠标事件
  10. php设置表格边框颜色,HTML表格标记教程(38):表头的边框色属性BORDERCOLOR
  11. 怎么用计算机求浮动额,2015计算机一级考试MSOFFICE上机综合训练(5)
  12. python-50: 验证码
  13. 微型计算机的现状历史未来,微型计算机的发展历史、现状和未来
  14. Allwinner Tina Linux 如何打开ssh远程登录支持
  15. 云数据中心解决方案架构图
  16. python汽车租赁系统django
  17. js实现斗地主的算法 验证牌型 找大于上家的牌型
  18. 制作网络畅销排行榜 HTML 关键代码
  19. NetKeeper720,能上QQ不能上网
  20. Exchange 2019反垃圾邮件组件启用反垃圾邮件功能、设置白名单\黑名单

热门文章

  1. 高通Camera驱动(1)--Camx架构介绍
  2. https 抓包解密
  3. 川崎机器人示教盒维修_阳江市川崎机器人示教器维修中心
  4. java digester_Apache Commons Digester
  5. sierpinski三角形的维数_遥感图象分形维数的几种估计算法研究
  6. 视觉系统设计实例(halcon-winform)-10.PLC通讯
  7. 10.3 黑马Vue电商后台管理系统 进一步完善订单模块--修改发货地址
  8. 批量下载中国气象科学数据共享网的数据
  9. ansys模型导入matlab,ANSYS导入MATLAB
  10. 程序员的自我修养(收藏)