python数据分析与挖掘实战-第六章拓展偷漏税用户识别

第六章分别使用了LM神经网络和CART 决策树构建了电力窃漏电用户自动识别模型，章末提出了拓展思考–偷漏税用户识别。

第六章及拓展思考完整代码
https://github.com/dengsiying/Electric_leakage_users_automatic_identify.git

项目要求：汽车销售行业在税收上存在多种偷漏税情况导致政府损失大量税收。汽车销售企业的部分经营指标能在一定程度上评估企业的偷漏税倾向，附件数据提供了汽车销售行业纳税人的各个属性和是否偷漏税标识，请结合各个属性，总结衡量纳税人的经营特征，建立偷漏税行为识别模型。

项目步骤：

数据初步探索分析
数据预处理
模型选择与建立
模型比较

数据初步探索分析数据预处理模型选择与建立模型比较

1.数据初步探索分析

![](https://img-
blog.csdn.net/20180329142827786?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMxMjkxMDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

一共124个样本，16个属性。

先用Excel看下不同销售类型和销售模式下的输出频率分布。

图1 不同销售类型下的偷漏税频率分布

图2 不同销售模式下的偷漏税频率分布

可以看到所有销售类型和销售模式都有异常偷漏税情况，由图1可以看出来国产轿车异常数最高，但是与正常数相比，可以明显看出来大客车的异常数远高于正常数，说明大客车更多的存在偷漏税情况。同样由图2可以看出来一级代理商、二级及二级以下代理商的更多的
多的存在偷漏税情况。

接下来用python进行分析。分异常和正常两类看下数值型经营指标。

    datafile = 'Taxevasion identification.xls'df = pd.read_excel(datafile)#print(data.describe().T)df_normal = df.iloc[:,3:16][df[u"输出"]=="正常"]df_abnormal=df.iloc[:,3:16][df[u'输出']=='异常']df_normal.describe().T.to_excel('normal.xls')df_abnormal.describe().T.to_excel('abnormal.xls')

异常

![](https://img-
blog.csdn.net/20180329145923312?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMxMjkxMDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

正常

![](https://img-
blog.csdn.net/20180329150022239?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMxMjkxMDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

2.数据预处理

无缺失值，暂不处理。主要对销售类型、销售模式以及输出进行虚拟变量的建立。

    df1 = pd.get_dummies(df[u'销售类型'],prefix='type')df2 = pd.get_dummies(df[u'销售模式'],prefix='model')res = pd.get_dummies(df[u'输出'],prefix='result')df = pd.concat([df,df1,df2,res],axis=1)df.drop([u'销售类型',u'销售模式',u'输出'],axis=1,inplace = True)#正常列去除，异常列作为结果 1表示异常 0表示正常df.drop([u'result_正常'],axis=1,inplace=True)df.rename(columns={u'result_异常':'result'},inplace = True)
[/code]##  3.模型选择与建立分别使用决策树模型和逻辑回归模型。3.1 决策树模型```code#决策树模型data = df.as_matrix()shuffle(data)p = 0.8train = data[:int(len(data)*p),:]test = data[int(len(data)*p):,:]tree =  DecisionTreeClassifier()X = train[:,1:-1]Y = train[:,-1]tree.fit(X,Y)#保存模型joblib.dump(tree,'tree1.pkl')#混淆矩阵cm = confusion_matrix(Y,tree.predict(X))plt.matshow(cm,cmap=plt.cm.Blues)plt.colorbar()for x in range(len(cm)): #数据标签for y in range(len(cm)):plt.annotate(cm[x,y], xy=(x, y), horizontalalignment='center', verticalalignment='center')plt.ylabel('True label') #坐标轴标签plt.xlabel('Predicted label') #坐标轴标签plt.show() #显示作图结果
[/code]训练集混淆矩阵：![](https://img-
blog.csdn.net/20180329154713263?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMxMjkxMDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)测试集：![](https://img-
blog.csdn.net/20180329154926453?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMxMjkxMDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)决策树模型在训练集上准确率为100%，在测试集上准确率为88%。3.2 逻辑回归模型  ```codefrom sklearn.linear_model import LogisticRegressionlr = LogisticRegression(C=1.0,penalty='l1',tol=1e-6)lr.fit(X,Y)
[/code]训练集混淆矩阵：![](https://img-
blog.csdn.net/20180329155919137?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMxMjkxMDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)  样本集：![](https://img-
blog.csdn.net/20180329160048219?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMxMjkxMDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)逻辑回归模型训练集准确率93%，测试集准确率72%。各项属性权重为：![](https://img-
blog.csdn.net/2018032916023620?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMxMjkxMDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)  可以看出来与最开始的分析相差不多，大客车和一级代理商都有很大可能存在偷漏税情况。##  3.模型比较```code#两个模型的roc曲线fig,ax=plt.subplots()fpr, tpr, thresholds = roc_curve(test[:,-1], tree.predict_proba(test[:,1:-1])[:,1], pos_label=1)fpr2, tpr2, thresholds2 = roc_curve(test[:,-1], lr.predict_proba(test[:,1:-1])[:,1], pos_label=1)plt.plot(fpr, tpr, linewidth=2, label = 'ROC of CART', color = 'blue') #作出ROC曲线plt.plot(fpr2, tpr2, linewidth=2, label = 'ROC of LR', color = 'green') #作出ROC曲线plt.xlabel('False Positive Rate') #坐标轴标签plt.ylabel('True Positive Rate') #坐标轴标签plt.ylim(0,1.05) #边界范围plt.xlim(0,1.05) #边界范围plt.legend(loc=4) #图例plt.show() #显示作图结果
[/code]![](https://img-
blog.csdn.net/20180329160945915?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMxMjkxMDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)  ROC曲线越靠近左上角，则模型性能越优，当两个曲线做于同一个坐标时，若一个模型的曲线完全包住另一个模型，则前者优，当两者有交叉时，则看曲线下的面积，上图明显蓝色线下的面积更大，即CART决策树模型性能更优。
由此可见，对于本文中的例子来说，CART决策树模型不管从混淆矩阵来看，还是从ROC曲线来看，其性能都要优于逻辑回归模型。  ![在这里插入图片描述](https://img-blog.csdnimg.cn/20210608151750993.gif)