基于数据仓库的证券营业部客户细分分析

内容摘要 …………………………………………………………… 2

引言 ………………………………………………………… 3

一、数据仓库和聚类分析的概述……………………………………… 4

1.1 相关名词 ………………………………………………………… 4

1.2 聚类的方法 ……………………………………………………… 4

1.3 谱系聚类法……………………………………………………… 5

1.4 其他聚类方法…………………………………………………… 5

1.5 从数据库到数据仓库…………………………………………… 5

1.6 数据仓库与传统数据库的比较………………………………… 6

1.7 数据仓库的构架………………………………………………… 7

二、数据仓库的实现…………………………………………………… 7

2.1 软件设施 ……………………………………………………… 7

2.2 开发工具………………………………………………………… 8

2.3 数据源 ………………………………………………………… 8

2.4 创建数据仓库…………………………………………………… 8

三、客户聚类 ………………………………………………………… 9

3.1　数据导入（聚类准备阶段）…………………………………… 9

3.2　SAS中的数据处理（作为探索性数据分析）…………………10

3.3 数据抽样　　　………………………………………………… 16

3.4 用抽样数据聚类………………………………………………… 18

3.5 聚类结果分析………………………………………………………24

四、结论…………………………………………………………………25

致谢…………………………………………………………………25

五、参考文献……………………………………………………………25

内容摘要:本文根据2000年4月15日到2003年4月30日的证券客户数据,进行了数据仓库的构建和聚类分析。数据仓库的构建主要在SQL的查询分析器中完成.在数据仓库中主要包含反映资金账号（证券客户）的各项属性数据，可以通过这些信息来反映客户的特性，但要进一步了解，还得通过聚类分析才能得出比较可靠和可用的信息.在数据仓库中抽取2000个样本数据进行聚类分析,显示数据仓库中有一些杂样数据和缺省数据，用SAS中的数据挖掘功能进行了填充、处理，清洗掉异样数据。从数据仓库中我们可以知道资金账户（证券客户）的分布情况，进一步的聚类更好地把客户进行了分组，并找出各组客户的特性，由此针对不同类的客户，为企业制定不同的策略。

关键字: 证券客户　数据仓库 数据挖掘　聚类　谱系聚类法　客户细分

Abstract: This article is based on a securities client data from 4/15/2000 to 4/30/2003, and adopted the technologies of data warehouse construction and cluster analysis. The construction of data warehouse is mainly completed on the SQL query analyses. There are lots of client account financial attribute data on data warehouse; we can get customer's characteristics through these data. But if we want to get deeper understanding, cluster analysis is needed to get reliable and useful information. Here we adopt 2000 sample data to do cluster analysis, and some indirect data and default data are displayed on the data warehouse. SAS technology is used to fill and transact these data, and then abnormal data is cleanout. From the data warehouse, we can get client account distributing situation. Cluster analysis can group these account and find each group characteristics. It will be helpful for enterprise to work out different strategies for different clients.

Key Words: client, data warehouse, data mining cluster,

Hierarchical Cluster

引言:

数据仓库是近年来兴起的一种新的数据库应用。各大数据库厂商纷纷宣布自己的产品支持数据仓库，并提出一整套用以建文和使用数据仓库的方实。我们的数据分析是在构建好数据仓库之后，比如Informix Gong-side公司的数据仓库解决方案；ORACLE公司的数据仓库解决方案；Sybase公司的交互式数据仓库解决方案等。

把数据仓库应用于证券行业数据的处理，有效地实现了证券投资方决策者对数据的集中管理和数据集中基础上的决策支持，通过数据仓库系统监控投资方的业务运作情况；通过保存交易的历史数据，并实时采集当前的交易数据，可以及时发现客户的动态，使证券公司能做出正确的决策。

聚类分析又称群分析，它是研究（样品或指标）分类问题的一种多元统计方法，所谓类，通俗地说，就是指相似的元素的集合。严格的数学定义是比较麻烦的，在不同的问题中类的定义是不同的。聚类分析起源于分类学，在考古分类学中，人们主要依靠经验和专业知识来实现分类。随着生产技术和科学的发展。人类的认识不断加深，分类越来越细，要求越来越高，有时光凭经验和专业知识是不能进行确切分类的，往往需要定性和定量分析结合起来去分类，于是数学工具逐渐被引进分类学中，形成了数值分类学。后来随着多元分析的引进，聚类分析又逐步从数字分类中分离出来而形成一个相对独立的分支。聚类分析内容非常丰富，有系统聚类法，有序样品聚类法，动态聚类法，模糊聚类法，图论聚类法，聚类预报法等。

随着投资者走向成熟，客户对信息的需求量也越来越大，证券公司资讯产品应该是证券咨询公司开发的一个新兴财源。这就要求将客户细分，针对不同的客户开发差别化咨询产品。原来的那种几张传真、对大势做一下简单的预测、简单的推荐几只个股的模式已经无法适应市场的要求了。证券公司客户的细分越来越重要，对不同的客户提供不同的咨询，能够提高客户的忠诚度。

证券市场的发展是建立社会主义市场经济的一个重要组成部分，对证券客户的分析也是广大证券公司非常关注的热点。本文构建了关于资金账户的数据仓库，用SAS软件对2000年4月15日到2003年4月30日的数据进行了聚类分析。

一、数据仓库和聚类分析的概述

1.1相关名词

1.1.1数据仓库

目前，数据仓库一词尚没有一个统一的定义，著名的数仓库专家W.H.Inmon在其著作《Building the Data Warehouse》一书中给予如下描述：数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（Integrate）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解，首先，数据仓库用于支持决策，面向分析型数据处理，它不同于企业现有的操作型数据库；其次，数据仓库是对多个异构的数据源有效集成，集成后按照主题进行了重组，并包含历史数据，而且存放在数据仓库中的数据一般不再修改。

1.1.2聚类

聚类分析是按照一批样本的亲疏（即距离远近）程度进行分类分析。聚类的途径是确定样本（或变量）间的距离或相似系数。聚类最常用的方法有两种：谱系聚类法（Hierarchical Cluster）和分离聚类法（Disjoint Cluster）。

1.2 聚类的方法

典型的划分方法有：k－平均和k—中心。

▪ k－平均：以k为参数，把n个对象分为k个簇，以使簇内具有较高的相识度，而簇间的相对度较低。相识度的计算根据一个簇中对象的平均值来进行。

算法：

输入：簇的数目k和包含n个对象的数据库。

输出：k个簇，使平方误差准则最小。

方法：

1）任意选择k个对象作为初始的簇中心。

2）循环开始。

3）根据簇中对象的平均值，将每个对象（重新）赋给最类似的簇。

4）更新簇的平均值，即计算每个簇中对象的平均值。

5）直到所有对象选择完。

▪ k—中心：以k为参数，把n个对象分为k个簇，以使簇内具有较高的相识度，而簇间的相对度较低。相识度的计算根据一个簇中对象的中心点来进行。

除此以外，还有密度聚类、网格聚类和模型聚类等。

1.2.1类

什么是“类”呢？粗略地说，相似物体的集合称做类。

1.2.2距离:

（1）欧氏距离：

（2）闵可夫斯基（Minkowski）距离：

（3）马氏（Mathalanobis）距离：

1.2.3相似系数聚类分析

相似系数聚类分析有时也需要对变量进行聚类。在对变量进行聚类时，也可以定义变量间的距离，通常使用变量间的相似系数。常用的相似系数有夹角余弦和相关系数。

（1）夹角余弦。夹角余弦作变量间的相似关系，它忽视各变量的绝对长度，着重从形状方面反映它们之间的关系。

（2）相关系数。

1.3 谱系聚类法

1.3.1谱系聚类法的步骤

谱系聚类法（Hierarchical Cluster）是目前使用最多的一种方法。谱系聚类法的主要步骤为：

（1）首先各样品自成一类，这样对N组样品就相当于有了N类；

（2）计算各类间的距离，将其中最近的两类进行合并；

（3）计算新类与期于各类的距离，再将距离最近的两类合并，重复上述的步骤，直到所有的样品都聚为一类时为止

1.3.2谱系聚类法的算法

谱系聚类法过程主要采用3种标准的凝聚算法：

（1） Ward法：将两类中的所有变量累加的平方和，作为两个聚类之间的距离。

（2）重心法：距离算法，计算两个聚类之间的重心（或平均值）之间的距离，作为两个聚类之间的距离，它比其他两种算法具有更强的分离观察点的能力。

（3）欧几里得平均距离连接法：将一对观察点的欧几里得距离的均值作为两个簇之间的距离。

1.4 其他聚类方法:

（1） FASTCLUS：动态（分离）聚类法。它使用K－Means算法，适宜大样本数据分析，观察值可多达10万个。开始将N个样品粗略地分成若干类，然后用某种最优准则进行调整，一次又一次地调整，直至不能调整了为止。此法非常类似于计算方法中的迭代法。

（2） VARCLUS：分解法。对变量作谱系聚类或分离聚类。他的程序正好和系统聚类相反，开始时所有的样本都在一类，然后用某种最优准则将它分成两类。再用同样准则将这两类各自试图分裂为两类，从中选出一个使目标函数较好者，这样由两类变成了三类。如此下去，一直分裂到每类只有一个样品为止（或用其他停止规则）。

（3） TREE：将CLUSTER或VARCLUS过程获得的聚类结果，画出树形结构图及谱系图。

1.５从数据库到数据仓库

如何有效地管理企业在经管过程中所产生或收集的大量数据与信息，一直是信息管理人员所面临的一个重要问题。20世纪70年代所出现的关系数据库在收集、存储、处理数据中发挥了重要的作用。随着市场竞争的加剧，信息系统的用户己经不满足于仅用计算机去处理日复一日的事务数据，而是需要信息——能够支持决策的信息去帮助管理决策。这就需要一种能够将日常业务处理中所收集到的各种数据转变为具有商业价值信息的技术，而传统数据库系统已经无法承担这一责任。传统数据库对日常事务处理十分理想。但是要基于事务处理的数据库帮助决策分析就产生了很大的困难。其原因主要是传统数据库的处理方式和决策分析中的数据需求小相称。导致传统数据库无法支持决策分析话动、这些不相称性主要体现在决策处理中的系统响应问题，决策数据需求的问题和决策数据操作的问题。

1.6 数据仓库与传统数据库的比较

数据仓库虽然是从数据库发展而来的，但是两者在许多方面都存在着相当大的差异（见表1.6.1的数据仓库与数据库对比表）:

表 1.6.1 数据仓库与数据库比较

对比内容	数据库	数据仓库
数据内容	当前值	历史的、存档的、归纳的、计算的数据
数据目标	面向业务操作程序，重复处理	面向主题域，分析应用
数据特性	动态变化，按字段更新	表态，不能直接更新，只能定时添加、刷新
数据结构	高度结构化、复杂、适合操作计算	简单、适合分析
使用频率	高	中到低
数据访问量	每个事务只访问少量记录	有的事务可能需要访问大量记录
对响应时间的要求	以秒为单位计算	以秒，分钟，甚至小时为计算单位

①从数据存储内容看，数据库只存放当前值。而数据仓库则存放历史值。

②数据库中数据的目标是面向业务操作人员的。为业务处理人员提供信息处理的支持。而数据仓库则是面向中高层管理人员的。为其提供决策支持。

③数据库内数据是动态变化的，只要有业务发生，数据就会被更新。而数据仓库则是静态的历史数据。只能定期添加、刷新。数据库中的数据结构比较复杂．有各种结构以适合业务处理系统的需要，而数据仓库中数据的结构则较为简单。

④数据库中数据的访问频率高。但是访问有数据的量少．而数据仓库的访问频率低，但是访问数据量要远高于数据库的访问量。数据库在访问数据时要求响应速度根快．其响应时间一般要求在数秒以内，而数据仓库的响应时间则可长达数小时。

1.7 数据仓库的构架

1.7.1.数据仓库的概念结构

(1) 包含数据源，数据准备区，数据仓库数据库，数据集市/知识挖掘库以及各种管理工具和应用工具（见图1.7.1的数据仓库的概念结构）.

(2) 数据仓库在创建以后，首先要从数据源中抽取所需要的数据到数据准备区，在数据准备区中经过数据的净化处理，再加载到数据仓库数据库中，最后根据用户的需求将数据发布到数据集市/知识挖掘库中，当用户使用数据仓库时，可以通过OLAP等数据仓库应用工具向数据集市/知识挖掘库或数据仓库进行决策查询分析或知识挖掘。数据仓库的创建、应用可以利用各种数据仓库管理工具辅助完成。

图 1.7.1 数据仓库的概念结构

1.7.2 数据仓库的总体参考框架

为实现数据仓库的功能．数据仓库的总体层次结构应该由数据仓库基本功能层、数据仓库管理层和数据仓库环境支持层,(见图1.7.2的数据仓库总体框架结构)组成。

图 1.7.2 数据仓库的功能层

数据仓库的基本功能层应该包含从数据源抽取数据，对所抽取的数据进行筛选、清理、将清理层的数据加载到数据仓库中，根据用户的需求设立数据集市，完成数据仓浑的复杂查询、决策分析和知识的挖掘等功能。

数据仓库的管理层包含数据管理与元数据管理两部分。数据管理与元数据管理主要负责对数据仓库中的数据抽取、清理．加载更新与刷新等操作进行管理只有使这些操作正常完成，才能源源不断地为数据仓库提供新的数据源，才能使数据仓库的使用者正确地利用数据仓库进行决策分析和知识挖掘。数据仓库环境支持层主要包含数据传输和数据仓库基础两大部分。这两大部分对于数据仓库的创建和使用来说是必不可少的，没有这两个数据仓库的支持环境，数据仓库的创建与使用是无法实现的。这里所列出的数据仓库总体结构框架．并不是每个层次和功能结构块都需要在数据仓库创建中生成。其中的数据源功能块与数据传输、数据仓库基础结构基本上可以采用组织中原有的信息系统．或在原系统的基础上略作修改就可满足需要、数据仓库的创建主要完成数据仓库结构、数据集市/知识挖掘结构和存取与使用功能块，以及数据管理和元数据管理的设计与实现。

二、准备设施

2.1 软件设施

(1) windows2000环境

(2) SQL SERVER 20000,其中包括：查询分析器、企业管理器、

(3) 统计软件The SAS System for Windows V8

2.2 开发工具

（1）SQL SERVER 2000

说明：其中企业管理器或查询分析器用于创建数据仓库.

(2) 统计软件The SAS System for Windows V8

说明：用于数据处理、数据挖掘和聚类分析.

2.3 数据源和数据处理

数据源来源于成都大学数据仓库示范试验室，主要为资金账户以及证券交易数据（为钱龙数据格式）,主要是从下面五个表中提取出来的：

Client表：包括了资金账户、客户分组、客户地址、客户年龄、客户性别、

客户现在状态、客户是否炒B股以及委托方式等信息。

Client info表：包括了资金账号开户日期等信息。

Fund表：包括了币种，现金数量等信息。

Stock表：包括了交易类型、现有股票、股票当日价等信息。

Filbusinjour表：包括了业务流水等信息。

Filfsjour表：过程中的流水，连接字段等信息。

2.4创建数据仓库

先构建一个空的数据仓库，其结构见图2.4.1：

图2.4.1 数据仓库的结构

数据仓库的字段具体含义见表2.4.2：

表2.4.2　数据库字段具体含义表

字段含义	字段	备注
资金账号	Fund_account	id号
小组	Client_group	分成1为散户，0为其它
性别	sex	0为女，1为男
地址	address	成都为1，其它为0
年龄	age
是否流失	churn	流失为1，不流失为0
是否购买B股	B_stock	有时为1，没有为0
委托方式	entrust_way	1为网上交易方式，0为其它
开户日期长度	open_date	开户日期长度
交易类型	exchange_type	1为上海交易所，0为深圳交易所
现在有股票市值	stock_market_value	股票数量＊当日价
最后三个月是否有交易	stock_buy	有为1，没有为0
最后三个月是否有存取钱	cq_money	有为1，没有为0
是否有现金	current_blance	有为1，没有为0
币种	money_type	0为人民币，1为美元或港币

再将数据源的数据抽取调入数据仓库中，抽取后得到的数据仓库中的部分数据如下（表中的数据是从2000年4月15日到2003年4月30日的数据,总共11277行数据），见图2.4.3：

图2.4.3　数据仓库部分数据

三、聚类分析

3.1　数据导入（聚类准备阶段）

首先，把该表中的数据通过SQL SERVER的数据转换服务（DTS）转入到文本文件，然后使用SAS加载成SAS数据，在SAS中的表结构如图3.1。

-----Alphabetic List of Variables and Attributes-----

# Variable Type Len Pos Format Informat Label

--------------------------------------------------------------------------

7 B_stock Char 6 95 $6. $6. 是否开B股:0--否;1-是

4 address Num 6 84 $6. $6. 距离:0--其他;1--成都

5 age Num 8 16 BEST12. BEST32. 年龄

6 churn Num 5 90 $5. $5. 流失:0-否,1--流失

2 client_group Num 4 80 $4. $4. 营业部客户分组

12 cq_money Num 8 56 BEST12. BEST32. 最后三个月有没有存取款：1--有；0--无

14 current_balance Num 8 64 BEST12. BEST32.资金余额：1--有0--无

8 entrust_way Num 8 24 BEST12. BEST32. 委托方式

10 exchange_type Num 8 40 BEST12. BEST32. 交易类型：1--上海　　　　　　　　　　　　　　　　　　　　　　　　　　交易所：0--深圳交易所

1 fund_account Num 8 0 BEST12. BEST32. 资金账户

15 money_type Num 8 72 BEST12. BEST32. 币种:0--人民币;1-- 美元或港币

9 open_date Num 8 32 BEST12. BEST32. 开户日期长度

3 sex Num 8 8 BEST12. BEST32. 性别:1--男;0--女

13 stock_buy Num 5 101 $5. $5. 最后三个月是否有交易

11 stock_market_valueNum 8 48 BEST12. BEST32. 股票市值

　　图3.1　SAS中的表结构图

3.2　SAS中的数据处理（作为探索性数据分析）

将数据导入SAS后，我用数据挖掘方法中用insight工具可以画图观察各个变量数据的分布情况,具体做法见图3.2

图3.2　SAS中数据挖掘里的数据处理方法

观察时发现其中有这几个变量的数据中含有杂项数据和数据缺省。具体分布情况见下面诸图：

图3.2.1a未处理的币种分布图

由图中数据分布可知道，币种里面有为空的数据，我们应当给以填充，使为空的数据等于0（因为出现0的可能性大得多）。

图3.2.2a未处理的地址分布图

由图中数据分布可知道，地址中有为空的数据，我们应该给以填充，使为空的数据等于1（因为出现1的可能性大得多）。

图3.2.3a未处理的年龄分布图

由图中数据分布可知道，年龄中有大量的杂项数据，我们使为空的和有异常的数据等于年龄的平均值。

图3.2.4a未处理的性别数据分布图

由图中数据分布可知道，性别中有为空的数据，我们使为空的数据等于1（因为出现1的可能性大得多）。

图3.2.5a未处理时的交易类型数据分布图

由图中数据分布可知道，交易方式中有一些杂项数据，我们对交易方式进行重新分组，主要分成两组，1为网上交易，0为没有网上交易。

图3.2.6a未处理时的开户日期数据分布图

由图中数据分布可知道，开户日期在2到3年的资金账户较多,使缺省数据等于开户日期的平均值。

从上面诸图中，可是看出它们之中含有杂项数据和异常点，除年龄是用年龄平均数填充缺省项外，其它缺省数据都是等于图中较多的一类，去掉异常点和空值，下面是处理后的诸图:

图3.2.1b处理后的币种分布图

图3.2.2b处理后的地址分布图

图3.2.3b处理后的年龄分布图

图3.2.4b处理后的性别分布图

图3.2.5b处理后的交易方式分布图

图3.2.6b处理后的开户日期

从上面诸图中我们可以看出，异常数据已经清除，这将使我们的聚类结果更加可靠。

3．3 数据抽样：

由于建立的数据仓库中有11277个数据，这在聚类的时候很困难，因此我们在数据仓库当中随机抽取了2000个证券的数据。（抽样是通过数据挖掘方法中的Input Data Source工具），具体做法见图3.3.1和图3.3.2

图3.3.1在SAS中选择数据挖掘方法

图3.3.2抽样的具体过程图(在圈内可以调整抽取样本的个数)

由图3.3.2可以知道，将对数据仓库中随机抽样2000个数据，放在EMPROJ数据库SMP＿VI7E中。

抽样出的部分数据见图3.3.3（由于数据过多，未全部列出）：

图3.3.3抽取数据后得到的SAS表

3.4. 用抽样数据聚类

3.4.1第一步找出聚类最佳簇数

数据选取出后，以client_group sex address age B_stock entrust_way open_date exchange_type stock_market_value cq_money stock_buy current_balance money_type churn为特征变量进行聚类分析。我用的是谱系聚类方法，具体聚类程序如下：

Proc print data=biye.kh;

Run;

Proc cluster data=biye.kh method=ave std pseudo ccc outtree=kh1;

Var client_group sex address age B_stock entrust_way open_date exchange_type stock_market_value cq_money stock_buy current_balance money_type churn;

Id fund_account;

Proc tree data=kh1 horizontal graphics;

Title ‘Means Cluster Plot ’;

Run;

在SAS下运行该程序后将得到一个聚类过程表（表过长不完全列出）（见图3.4.1），由表中数据可以知道聚几个簇较好

The CLUSTER Procedure

Average Linkage Cluster Analysis

Eigenvalues of the Correlation Matrix

Eigenvalue Difference Proportion Cumulative

1 2.11034209 0.16837536 0.1507 0.1507

2 1.94196674 0.39644071 0.1387 0.2895

3 1.54552603 0.17962869 0.1104 0.3998

4 1.36589735 0.23495176 0.0976 0.4974

5 1.13094558 0.10255909 0.0808 0.5782

6 1.02838649 0.09809523 0.0735 0.6516

7 0.93029126 0.03588735 0.0664 0.7181

8 0.89440391 0.05186242 0.0639 0.7820

9 0.84254149 0.11215644 0.0602 0.8422

10 0.73038505 0.14902471 0.0522 0.8943

11 0.58136034 0.10323789 0.0415 0.9359

12 0.47812245 0.15500008 0.0342 0.9700

13 0.32312237 0.22641351 0.0231 0.9931

14 0.09670885 0.0069 1.0000

图3.4.1聚类过程表

第一列反映出各个簇的特征值，第二列反映出簇间差值。从上图可以看出把资金账户分成八个簇较好。以下为聚类过程：

运行程序后，得到聚类结果表见图3.4.2和聚类分析树状图见3.4.3

图3.4.2 聚类结果表

图 3.4.3 聚类分析的树状图

　　在上图中，，其中h是在第h步由组r和s合并而成的一个新组，T是观测数据的总体偏差，而、和分别是观测数据在组h、r和s的偏差。换句话说，测量合并组r和组s后，组内偏差W的增长。的显著增长说明不相似的组被合并，因此应该在上一步终止合并过程。由上图我们可以知道，第8步的为0.0207，而第7步的为0.0015，聚类应该在第8步终止，也就是聚8个类是较好的。

根据数据画出聚类层次图见图3.4.4

图3.4.4 聚类层次图

3.4.2第二步根据最佳簇数确定各簇的特性

3.4.2.1聚类的过程

由上面可知，把数据聚八个簇是比较好的，在SAS中用数据挖掘方法（Enterprise Miner）来聚类，聚类过程为见图3.4.2.1：

图3.4.2.1　SAS中用数据挖掘方法聚类过程图

3.4.2.2聚类结果

通过上面过程，运行后聚类出来的CCC图见图3.4.2.2

图3.4.2.2　聚类后的CCC图

由此图可以看出聚类时是怎么分簇的？分成了多少个簇？我们可以从图中可以看出一共分成了8个簇。

每个簇中的各个变量分布情况与总体分布的比例见下面诸图：

图3.4.2.3　SAS中第二簇占全部的比例

由上图可以知道，在第二簇中性别多为男性，地址在成都市外的居多，股票市值很小，年龄在40岁左右的居多，开户日期在4年左右。

图3.4.2.4　SAS中第三簇占全部的比例

由上图可以知道，在三簇中性别多为男性，地址在成都市的居多，最后三个月存取钱的很少，年龄在40岁左右的居多，开户日期在5年左右。币种多为人民币，很少有人购买B股，账户上的现金都不多，交易方式多为现场交易。

图3.4.2.5　SAS中第四簇占全部的比例

由上图可以知道，在第四簇中性别多为男性，地址在成都市外的居多，最后三个月存取钱的很多，年龄都很小，开户日期较短，流失的较多，交易类型多为交易所1（上海）。

图3.4.2.6　SAS中第五簇占全部的比例

由上图可以知道，在第五簇中性别多为男性，购买B股的较多，股票市值很小，账户资金也很少，年龄都很小，交易类型深圳的多，交易方式多为现场，小组多为散户。

图3.4.2.7　SAS中第六簇占全部的比例

由上图可以知道，在第六簇中性别多为男性，股票市值很小，账户资金也很少，地址多在成都市内，交易方式多为现场。

图3.4.2.8　SAS中第七簇占全部的比例

由上图可以知道，在第七簇中性别多为男性，股票市值很小，账户资金也很少，地址多在成都市内，交易方式多为现场，基本上不购买B股，小组多为散户。

3.5聚类结果分析

由上面的聚类分析，可以知道各簇包含的资金账户情况（表过大，只显示部分内容）见图3.5：

图3.5　各簇的资金账号数量

根据这些结果，我们可以知道第七簇和第五簇的人数比较多，而其它几个簇的人数都不多，我们应当分析清楚他们的特征，处理好和每个客户的关系，提供不同的服务，使利益最大化。

四、结论

本文通过对证券营业部数据仓库的构建，分析了影响客户的各种不同的属性，通过SAS软件首先根据这些属性确定聚类的个数，然后，通过SAS的“Enterprise Miner”工具找出每个类的特征，我们得到如下结论：性别多为男性，地址在成都市外，最后三个月有存取钱，年龄很小，开户日期较短，交易类型多为交易所1（上海），这部分人很容易流失，因为在成都市外居住的人，会让他们的交易很困难（以前在网上交易的很少，不像现在）；年龄比较小的人，他们活泼好动，不像老人那样恋旧，只要一看到哪里有一点好处就会到那去；开户日期较短，他们对公司还不是很了解，没有产生感情，一有感觉不如意的就会离开公司。公司拉到一个客户是非常困难的，如何让现在有客户不流失是非常重要的。因此对于这部分客户，我们可以对他们发一点小资料，介绍一下股市的行情，适当的给他们分发一点小礼品，有条件的话可以组织一些活动，让他们体会到公司的温暖，公司对他们的重视，这样能够提高他们对公司的忠诚度，使得公司和客户之间的关系更加的融洽，更好的为客户服务。

对上面数据的聚类分析，明显地把数据进行了整理和分类。可以很清楚地看出每个数据间的关系和距离，还可以了解到数据的分布情况，数据间的情况可以从图表中清楚的表现出来。通过聚类，把客户分成重要程度不同的客户，为企业决策者提供更好的客户政策的一定程度的决策依据。

当然本文还存在一定的不足，如变量的选取和数据的转换还未达到最佳，这有待于以后学习工作中进一步深化探讨，以取得更好的结果。

致谢:感谢我的指导老师王伟钧老师,在毕业设计过程中,我学到了很多数据处理方面的知识.也感谢在我的大学生涯中关心和帮助我的同学朋友.谢谢!

五、参考文献:

(1) 于秀林.《多元统计分析》中国统计出版社 1999年8月第一版

(2) 邓祖新.《SAS系统和数据分析》电子工业出版社 2002年8月

(3) 曲庆云，阮桂海等.《统计分析方法――SAS实例精选》　清华大学出版社 2004,10,1

（4）Paolo Giudici. 《实用数据挖掘》　电子工业出版社　2004.6.1

基于数据仓库的证券营业部客户细分分析相关推荐

python 数据分析电信_基于Python的电信客户流失分析和预测
一.项目背景电信服务是生活中常见的消费服务,在现代社会,凡是使用手机打电话,或者在家看电视,都必须通过电信运营商提供的通话.网络等服务才能实现.本文采用来自kaggle平台的电信客户数据集,来分析人 ...
大数据精准营销之客户细分
客户细分(customer segmentation)是通过分析客户的属性.行为.需求等,寻求客户之间的个性与共性特征,对客户进行划分与归类,从而形成不同的客户集合. 客户细分没有统一的标准,它是从业 ...
完整的数据分析项目长什么样子？XX移动客户细分模型项目报告借你参考
初学数据分析和挖掘的同学常常不知道学会了方法和工具之后怎么用,实际项目是怎么做的,在这里介绍一个完整项目过程,大家可以参考学习.重点在于使用CRISP-DM方法论流程.使用机器学习聚类方法以及挖掘结果 ...
rfm模型分析与客户细分_如何使用基于RFM的细分来确定最佳客户
rfm模型分析与客户细分 With some free time at hand in the midst of COVID-19 pandemic, I decided to do pro bono ...
超详细！构建基于客户细分的 K-Means 聚类算法
客群细分对于企业了解目标受众非常重要.根据受众群体的不同,我们可以给采取不同的营销策略.目前有许多无监督的机器学习算法可以帮助公司识别他们的用户群并创建消费群体. 在本文中,我将分享一种目前比较流行的 ...
基于改进的K-means算法在共享交通行业客户细分中的应用
摘要:信息时代的来临使得企业营销焦点从产品中心转变为客户中心,客户关系管理成为企业的核心问题.准确的客户分类结果是企业优化营销资源分配的重要依据,客户分类越来越成为客户关系管理中亟待解决的关键问题之一 ...
RFM模型分析与客户细分
今天偶然看到沈浩老师的文章<数据挖掘应用案例:RFM模型分析与客户细分>(http://shenhaolaoshi.blog.sohu.com/201923838.html),感慨不少.这 ...
数据挖掘应用案例：RFM模型分析与客户细分（转）
正好刚帮某电信行业完成一个数据挖掘工作,其中的RFM模型还是有一定代表性,就再把数据挖掘RFM模型的建模思路细节与大家分享一下吧!手机充值业务是一项主要电信业务形式,客户的充值行为记录正好满足RFM模 ...
基于K-means聚类算法进行客户人群分析
摘要:在本案例中,我们使用人工智能技术的聚类算法去分析超市购物中心客户的一些基本数据,把客户分成不同的群体,供营销团队参考并相应地制定营销策略. 本文分享自华为云社区<基于K-means聚类算法 ...

基于数据仓库的证券营业部客户细分分析

基于数据仓库的证券营业部客户细分分析相关推荐

最新文章

热门文章