企业税银数据深度分析（上）

序言：
近两年，很多金融机构纷纷响应国家号召都上线了小微类产品，目前风控的同行也比较关注小微风控产品类的内容。近期番茄风控也相继开播了小微风控的内容(包括小微风控训练营的课程)，跟星球的同学交流，大家比较关心小微企业的模型如何开发？目前税务类数据中，都有哪些维度的数据？这些数据中，哪些可以进行清洗，然后做成有效的变量，并且这些变量中哪些进行入模比较有效？
关于以上种种问题，本次文章给大家带来一篇深度内容：企业税银数据的深度分析

正文：
最近，不良率又开始攀升了。疫情后央妈放了一波流动性，中小企业得以续命。做风险的同学都知道，一年半正是风险暴露的高峰期。从宏观视角看，经济发展的三驾马车——投资、消费、外需均受到中美贸易战、新冠疫情等负面因素影响，短期内中小企业营收都会受到一定冲击，这时候对中小企业、小微企业授信尤为考验金融机构的风险管理能力。
在众多to B的数据源中，企业税银数据算是效果较好的一种。下面我们将会详细和各位同学深度分析如何可以有效使用这类数据。
税务数据主要是对接各省份税局。由于不同税局底层存储逻辑的差异，全国性经营的金融机构需要在对接后建立一个中台数仓来清洗数据。我们建议可以把数据分为基础信息、纳税申报信息、税款征收信息、企业上下游交易信息、资产负债表信息、利润表信息、涉税违法违章信息七大部分。

以下我们会对目前经常用的这几块内容展开进行详细讲解：
一.基础信息
基础信息包括纳税人识别号、组织机构代码、注册地址、营业地址、行业名称、纳税信用等级、注册资本等。对于行业名称，在实际应用过程中，我们发现大部分客户都会被归类成制造业、批发和零售业，单一特征风险区分度低。这时候建议可以把营业地址和行业名称进行特征组合。
1）第一步，清洗营业地址，把地址中省、市、区、镇、街分别加工出来。对于有预算的金融机构，可以找第三方机构帮忙完成数据清洗，这个在市场上已经有成熟的解决方案了。对于没有预算的金融机构，可以使用正则表达式自行清洗。
2）第二步，把同一城市、同一行业的企业聚类起来，作为一个分组。在分组完成后会发现，每个分组的颗粒度太细，没有庞大的历史数据支撑下，基本上是不能验证分组的风险区分度。我们建议可以使用各城市的GDP排名来进行特征合并的筛选标准。譬如说针对广东省东莞市，把GDP排名前十的各个区、镇的企业分组进行合并。这种合并方案，会比使用历史数据统计然后分箱会更加稳定，同时注重了行业长期风险偏好的要素，考虑了潜在的宏观风险因素。

3）第三步，把衍生数据应用到具体的策略和模型当中。

二.纳税申报信息
纳税申报信息包括企业过去一定时间内的纳税记录，包括申报日期、缴纳税的种类、应税销售收入、应纳税额等。这里注意的是小微企业做账都是请第三方会计事务所来完成，纳税金额基本上小于实际营业收入，所以需要结合行业对纳税金额进行调整，才能作为授信的其中一个评价维度。
1）第一步，税种清洗。企业主要的纳税内容是增值税和营业税，对于同一行业的企业，基本上纳税信息都是比较雷同。在清洗时，只需要保留这两个税种就可以，其他税种的缴纳税金单独合并。
2）第二步，回归衍生特征。税局返回来的信息是按月更新，我们可以使用客户历史一段时间的数据来进行线性回归，得到申请贷款时点未来一段时间的纳税金额。
3）第三步，对于求回归时残差超过一定阀值的企业，说明历史缴纳税额非常不稳定，可以对它的纳税金额进行一定的系数扣减；对于残差符合业务逻辑的企业，在预测纳税金额的基础上，结合行业进行一定的系数提升，最终得到预测营业收入。

未完待续…
剩余的内容，本文还包括以下四大部分：
三.税款征收信息
四.企业上下游交易信息
五.企业资产负债表与企业利润表
六.涉税违法违章信息

关于以上剩余部分，各位星球的同学可以先提前到知识星球平台预览本次完整的内容。

本文中涉及到的一些经验知识，均为经过多年数据应用之后总结所得，如有疑问，可以在知识星球留言，跟我们继续深入探讨!

~原创文章
…
end

企业税银数据深度分析（上）相关推荐

浙江高中地理历史计算机,2018年浙江省新高考录取政策、录取数据深度分析
在新高考"专业+学校"志愿.按专业平行投档机制下,热门专业"生源带动"效应将会明显减弱,"专业洗牌""生源危机"成为高校 ...
加米谷大数据深度分析：大数据或将消亡？痛点在哪里？
全世界都知道大数据是怎么回事:埃森哲公司的研究发现,79%的企业高管表示,不采用大数据的公司将失去市场实力,可能面临倒闭.大数据被广泛视为所有连接到互联网的组织的生命线.此外,89%的受访者认为,大数 ...
南审的计算机专业怎么样,【揭露真面目】用数据深度分析南京审计真实就业水平...
若批评不自由,则赞美无意义 --博马舍步行街的JR大家好,最近我在街上发表了一系列抨击南审性价比低的帖子,相信有些JR已经对我眼熟了.伴随着我的帖子的发表,南审文工团也从贴吧和知乎入驻咱们虎扑,我算 ...
美国警方致命枪击案数据可视化分析上
import numpy as np # linear algebra import pandas as pd # data processing, CSV file I/O (e.g. pd.rea ...
05.数据的深度分析（数据挖掘、机器学习）--《数据科学概论》
前言:基于人大的<数据科学概论>第五章,数据的深度分析(数据挖掘.机器学习).主要是机器学习与数据挖掘.具体的算法.主流工具.特征选择的内容. 文章目录一.机器学习与数据挖掘 (1)什么 ...
我国企业大数据的发展与应用总览
一.我国企业大数据产业发展现状飞速发展的大数据产业除了改变人们生活的方方面面.促进社会快速进步之外,也为企业这个社会主体带来了更为直观和有效的影响. 近年,企业级大数据应用逐渐普及,消费者行为分析. ...
医疗行业大数据医疗分析案例
某公司国家863项目申请计划书,有幸参与其中,现将部分构思设想与大家分享,希望可以获得更多的交流. 1．主要研究技术内容的国内外发展现状与趋势 2013年是世界大数据元年,基于大数据的信息挖掘引发了医 ...
大数据架构师必读：医药企业大数据应用案例
问题导读: 1.IT系统信息化平台涉及内容有什么? 2.数据集成架构模型包括哪些部分? 3.业务系统部署实现功能有什么? 4.数据仓库建设应考虑的内容有哪些? 5.未来大数据应用如何扩展? 随着技术的 ...
京津冀大数据产业发展分析报告 | 附全文下载
近日,在天津举办的第二届世界智能大会大数据产业发展高峰论坛上,中国经济信息社.京津冀大数据联盟及荣程祥泰集团联合发布了 2017 年京津冀大数据产业发展分析报告. 报告介绍了大数据技术在全球与全 ...

企业税银数据深度分析（上）

企业税银数据深度分析（上）相关推荐

最新文章

热门文章