序言:
近两年,很多金融机构纷纷响应国家号召都上线了小微类产品,目前风控的同行也比较关注小微风控产品类的内容。近期番茄风控也相继开播了小微风控的内容(包括小微风控训练营的课程),跟星球的同学交流,大家比较关心小微企业的模型如何开发?目前税务类数据中,都有哪些维度的数据?这些数据中,哪些可以进行清洗,然后做成有效的变量,并且这些变量中哪些进行入模比较有效?
关于以上种种问题,本次文章给大家带来一篇深度内容:企业税银数据的深度分析

正文:
最近,不良率又开始攀升了。疫情后央妈放了一波流动性,中小企业得以续命。做风险的同学都知道,一年半正是风险暴露的高峰期。从宏观视角看,经济发展的三驾马车——投资、消费、外需均受到中美贸易战、新冠疫情等负面因素影响,短期内中小企业营收都会受到一定冲击,这时候对中小企业、小微企业授信尤为考验金融机构的风险管理能力。
在众多to B的数据源中,企业税银数据算是效果较好的一种。下面我们将会详细和各位同学深度分析如何可以有效使用这类数据。
税务数据主要是对接各省份税局。由于不同税局底层存储逻辑的差异,全国性经营的金融机构需要在对接后建立一个中台数仓来清洗数据。我们建议可以把数据分为基础信息、纳税申报信息、税款征收信息、企业上下游交易信息、资产负债表信息、利润表信息、涉税违法违章信息七大部分。

以下我们会对目前经常用的这几块内容展开进行详细讲解:
一.基础信息
基础信息包括纳税人识别号、组织机构代码、注册地址、营业地址、行业名称、纳税信用等级、注册资本等。对于行业名称,在实际应用过程中,我们发现大部分客户都会被归类成制造业、批发和零售业,单一特征风险区分度低。这时候建议可以把营业地址和行业名称进行特征组合。
1)第一步,清洗营业地址,把地址中省、市、区、镇、街分别加工出来。对于有预算的金融机构,可以找第三方机构帮忙完成数据清洗,这个在市场上已经有成熟的解决方案了。对于没有预算的金融机构,可以使用正则表达式自行清洗。
2)第二步,把同一城市、同一行业的企业聚类起来,作为一个分组。在分组完成后会发现,每个分组的颗粒度太细,没有庞大的历史数据支撑下,基本上是不能验证分组的风险区分度。我们建议可以使用各城市的GDP排名来进行特征合并的筛选标准。譬如说针对广东省东莞市,把GDP排名前十的各个区、镇的企业分组进行合并。这种合并方案,会比使用历史数据统计然后分箱会更加稳定,同时注重了行业长期风险偏好的要素,考虑了潜在的宏观风险因素。

3)第三步,把衍生数据应用到具体的策略和模型当中。

二.纳税申报信息
纳税申报信息包括企业过去一定时间内的纳税记录,包括申报日期、缴纳税的种类、应税销售收入、应纳税额等。这里注意的是小微企业做账都是请第三方会计事务所来完成,纳税金额基本上小于实际营业收入,所以需要结合行业对纳税金额进行调整,才能作为授信的其中一个评价维度。
1)第一步,税种清洗。企业主要的纳税内容是增值税和营业税,对于同一行业的企业,基本上纳税信息都是比较雷同。在清洗时,只需要保留这两个税种就可以,其他税种的缴纳税金单独合并。
2)第二步,回归衍生特征。税局返回来的信息是按月更新,我们可以使用客户历史一段时间的数据来进行线性回归,得到申请贷款时点未来一段时间的纳税金额。
3)第三步,对于求回归时残差超过一定阀值的企业,说明历史缴纳税额非常不稳定,可以对它的纳税金额进行一定的系数扣减;对于残差符合业务逻辑的企业,在预测纳税金额的基础上,结合行业进行一定的系数提升,最终得到预测营业收入。

未完待续…
剩余的内容,本文还包括以下四大部分:
三.税款征收信息
四.企业上下游交易信息
五.企业资产负债表与企业利润表
六.涉税违法违章信息

关于以上剩余部分,各位星球的同学可以先提前到知识星球平台预览本次完整的内容。

本文中涉及到的一些经验知识,均为经过多年数据应用之后总结所得,如有疑问,可以在知识星球留言,跟我们继续深入探讨!

~原创文章

end

企业税银数据深度分析(上)相关推荐

  1. 浙江高中地理历史计算机,2018年浙江省新高考录取政策、录取数据深度分析

    在新高考"专业+学校"志愿.按专业平行投档机制下,热门专业"生源带动"效应将会明显减弱,"专业洗牌""生源危机"成为高校 ...

  2. 加米谷大数据深度分析:大数据或将消亡?痛点在哪里?

    全世界都知道大数据是怎么回事:埃森哲公司的研究发现,79%的企业高管表示,不采用大数据的公司将失去市场实力,可能面临倒闭.大数据被广泛视为所有连接到互联网的组织的生命线.此外,89%的受访者认为,大数 ...

  3. 南审的计算机专业怎么样,【揭露真面目】用数据深度分析南京审计真实就业水平...

    若批评不自由,则赞美无意义 --博马舍 步行街的JR大家好,最近我在街上发表了一系列抨击南审性价比低的帖子,相信有些JR已经对我眼熟了.伴随着我的帖子的发表,南审文工团也从贴吧和知乎入驻咱们虎扑,我算 ...

  4. 美国警方致命枪击案数据可视化分析 上

    import numpy as np # linear algebra import pandas as pd # data processing, CSV file I/O (e.g. pd.rea ...

  5. 05.数据的深度分析(数据挖掘、机器学习)--《数据科学概论》

    前言:基于人大的<数据科学概论>第五章,数据的深度分析(数据挖掘.机器学习).主要是机器学习与数据挖掘.具体的算法.主流工具.特征选择的内容. 文章目录 一.机器学习与数据挖掘 (1)什么 ...

  6. 我国企业大数据的发展与应用总览

    一.我国企业大数据产业发展现状 飞速发展的大数据产业除了改变人们生活的方方面面.促进社会快速进步之外,也为企业这个社会主体带来了更为直观和有效的影响. 近年,企业级大数据应用逐渐普及,消费者行为分析. ...

  7. 医疗行业大数据医疗分析案例

    某公司国家863项目申请计划书,有幸参与其中,现将部分构思设想与大家分享,希望可以获得更多的交流. 1.主要研究技术内容的国内外发展现状与趋势 2013年是世界大数据元年,基于大数据的信息挖掘引发了医 ...

  8. 大数据架构师必读:医药企业大数据应用案例

    问题导读: 1.IT系统信息化平台涉及内容有什么? 2.数据集成架构模型包括哪些部分? 3.业务系统部署实现功能有什么? 4.数据仓库建设应考虑的内容有哪些? 5.未来大数据应用如何扩展? 随着技术的 ...

  9. 京津冀大数据产业发展分析报告 | 附全文下载

     近日,在天津举办的第二届世界智能大会大数据产业发展高峰论坛上,中国经济信息社.京津冀大数据联盟及荣程祥泰集团联合发布了 2017 年京津冀大数据产业发展分析报告. 报告介绍了大数据技术在全球与全 ...

最新文章

  1. 第30本:《怎样解题》
  2. Spring配置文件详解三:Spring声明式事务管理
  3. 【教程】怎么同时同时ping1000个IP地址?
  4. RPC(远程过程调用)
  5. 【Kafka】kafka SSL close message 远程主机被迫关闭了一个连接
  6. pwm一个时间单位_PTO PWM要点
  7. Python基础学习----Requests获取url请求时间:
  8. apache 配置虚拟域名默认站点问题
  9. ThreadLocal类及常用的线程安全类探究
  10. Mysql(二)Mysql SQL练习题
  11. php标题伪原创,火车头伪原创插件PHP版,如何在标题前面插入关键词?(悬赏1元) - 搜外SEO问答...
  12. 自然语言处理(NLP)的八个国际顶级会议!
  13. 华为mate50pro和华为p50pro哪个好
  14. Keras Tuner模型自动超参数调优
  15. 在每天一个故事中......
  16. 价值投资私募基金三人谈
  17. FMEA案例丨新版PFMEA功能分析怎么做?
  18. golang扫描端口
  19. Springboot毕设项目婚车租赁系统的设计与实现hsh20(java+VUE+Mybatis+Maven+Mysql)
  20. matlab-bgl 工具包配置环境 TDM-GCC-64 mex

热门文章

  1. 论文编辑之目录和正文页码不同的设置
  2. t-testpython_Python-56 用numpy和scipy.stats 进行t-test检验 2020-09-05
  3. python安装详细步骤mac_mac如何安装python3
  4. 我点击一个单选框时另外一个单选框里的内容属性隐藏掉_一个交通工程专业硕士研究生的总结与独白(二):交通生成预测及TransCAD操作...
  5. dart参数传方法_Flutter必备Dart语言快速入门
  6. 卷积神经网络(CNN)之池化层的实现
  7. ubuntu 18.10增加和设置Swap交换分区
  8. 三步完成博客打赏功能
  9. maven笔记(2)
  10. HttpClient4.5.2 使用cookie保持会话——连接池的实现结束篇(4)