—对基本业务做个简单介绍,后续会补充税务这一块的详细内容
一.业务分析
1.什么是增值税专用发票虚开
(1)没有货物购销或者没有提供或接受应税劳务而为他人、为自己、让他人为自己、介绍他人开具增值税专用发票;
(2)有货物购销或者提供或接受了应税劳务但为他人、为自己、让他人为自己、介绍他人开具数量或者金额不实的增值税专用发票;
(3)进行了实际经营活动,但让他人为自己代开增值税专用发票。
2.业务分析
纳税人风险画像通过数据模型分析、机器学习算法,以批量发现如具有虚开增值税发票嫌疑的税收风险企业。通过定性和定量的标签刻画税收风险纳税人群体的显著特征,形成风险画像,辅助税务人员对税收风险纳税人的发现与识别。提供标签模型管理、风险清册,支持群体画像、单体画像等多类型画像模式。
通过数据模型分析、机器学习算法,综合利用发票关系、企业三员/四员交叉任职关系等其他关系的分析研判整个发票虚开团伙,以批量发现具有虚开增值税发票嫌疑的异常企业。通过定性和定量的标签刻画虚开增值税发票嫌疑纳税人群体的显著特征,辅助税务人员对虚开增值税发票嫌疑纳税人的发现与识别。
三.增值税专用发票虚开的种类和特点
我这里主要介绍我分析过的几种:
1.走逃型虚开
走逃型虚开,又被称为“暴力虚开”,是指,行为人完成虚开后,并不申报税款,或者申报而并不缴纳税款。这类虚开的开票方通常打游击战,打一枪换一个地方。
这类虚开的特点是:行为人通常注册多家公司,且通常利用他人的身份证进行注册,之后密集地开展虚开活动。
2.票货分离型虚开
票货分离型虚开,通常是指,对于虚开发票上的交易,开票方存在对应的真实交易,而真实的购买方不需要发票。而无论是否开具发票,开票方都需申报纳税,所以开票方将该笔真实交易对应的发票转开给其他需票人。这种虚开行为通过李代桃僵、偷梁换柱的方式,逃避对虚开的发票的税款申报,使下游予以抵扣进项税额或(和)税前扣除。
票货分离型虚开的典型模式是:A公司将货物销售给李四,李四不需要发票,于是A公司将发票开具给B公司。用生活中的一个热门小品举例:我去饭店吃饭,我点了一碗炒面,然后我没吃又和店家换了一碗汤面,当店家让我付钱的时候,我说我用炒面换的汤面,炒面我又没吃所以不用付钱。就这样我是不是就能白吃以为面啦?(哈哈,举个例子)
3.税收优惠型虚开
所谓税收优惠型的虚开,是指开票方利用税收优惠政策,或者类似税收优惠政策的特殊政策(比如,核定征税、财政补贴、保税制、农产品收购发票等),实施的虚开行为。这种虚开行为的特点是,行为人通过税收优惠政策或者类似税收优惠政策的特殊政策,就虚开的发票不必足额申报缴纳税款。
四.增值税专用发票虚开的特征有哪些
从虚开增值税专用发票的种类、特点以及对应的数据,我们可以列出以下几种特征:
(1)开票时经常换单位名字,多为商贸企业;—(存在企业改名字)
(2)发票开具后大量作废等;—(还涉及其他)
(3)公司的税务大部分发票顶额开具,发票开具金额满额度高于90%;—(现在可能随着管理力度加强,顶额满额度在下降)
(4)登记信息雷同,企业法人、财务人员、办税人员多为同一人;
(5)商贸公司购进与销售货物名称严重背离的;
(6)发票连续多次增量增版;
(7)存在大量红字普通发票、随意开具红字发票来冲减以往年度的篮字发票;—(是否当月,不可跨月。是个负数。)
(8)资金或存货周转次数平均每月超过五次;
(9)一定时间内开具增值税发票金额突增;
(10)成立时间短,成立时间多在半年以内,但营业规模迅速扩大;
(11)登记地址多为住宅小区某楼层某室,明显不适合对外经营;
(12)法人户籍非本地、法人设立异常集中;
(13)生产能耗如电费情况与销售情况严重不符的;—(待定)
(14)公司多为认缴制或者收资本多为较低金额;
(15)多户企业登记法人为同一人,且税务登记信息中所留的手机号码也为同一个手机号码;
(16)连续同时办理税务登记或一般纳税人认定的多家企业;
(17)公司所属行业属于虚开高危行业;
(18)法人、财务负责人曾担任非正常户的负责人或财务负责人、且法人与财务负责人交叉担任;
(19)劳务票开的很多;—(要结合个税缴纳情况去判定)
(20)夜间开票;—(现在犯罪分子也在“进步”,他们也在使自己更像正常企业)
五.算法模型搭建
在各种偷税漏税的案例中,可以看到最明显、最易查的是货物发票这一块的进销不匹配。因此这里对这个场景进行算法模型的构建。
(1)业务理解:
对于一个正常的企业,其会进行经营生产活动,因此会存在进销商品记录,即一个企业既会购入符合自己经营范围的相关商品,即进项集合,也会向市场销售符合其经营范畴的相关商品,即销项集合。那么这么看,一个正常的企业的进项集合和销项集合是具有相关性的。如果某个企业的进项和销项没有相关性或者相关性比较小,那么这个企业很有可能异常,即非正常经营,那么这个企业所开具的发票也就具有虚开性。比如在税务中,一些虚开发票的企业和变票企业,会使用大量的减免税的商品进项增值税专用发票,或者为下游开据这些发票来进行抵扣而进行偷税漏税的违法行为;又如在出口退税企业中,根据其购买的商品,其应该出口的商品与其申报的商品的税率不一样,从而进行骗退免税违法活动。
(2)算法选择:
Word2Vec算法对企业进销商品内容映射,构建语义词向量,在此基础上采用改进相似00度算法探索发现异常变票企业。这个算法能够对企业的进销商品集合的相关性进行建模,通过对企业进行评分,来分析该企业是否合理。在这个打分的过程中,一个企业的得分越高,那么这个企业也就越正常;反之,则越反常。进销商品集合是由其购买和销售的商品和金额构成的,那么目前来看,商品就是这两个集合的最小单元,因此应该要做的是从商品和商品之间的相关度做起,然后基于商品的相关度,得到进销之间的相关度。
(3)分析:
一般来说,正常的企业进销的商品之间是具有较大的联系的。那么基于这样的假设,使用Word2Vec工具使用一个n维的实数向量来对每一个商品进行表征,且满足向量之间的相关性能够对商品之间的相关性进行表征。而原始的Word2Vec是用来处理自然语言的,分析的是词之间的相关性。那么这里我们假设把每个商品看作是一个词,然后去构造商品序列。
这里采用将一个企业看作一条语句,企业的进销商品共同来构造商品序列。每个企业的序列构造完成之后,输给Word2Vec,输出每个商品的n维向量v。最后,使用cosine相关性度量公式对两个不同商品p,q之间的相关性进行度量。如下:

商品之间的相关性大小确定之后,便可以基于商品之间的相关性,并融合金额大小来对每一个企业的进销商品集合之间的相关性进行度量。设G为企业的进项集合,X为该企业的销项集合。构造G、X对,对于每一个p属于G的商品,从X中找到相似度最大的q,构成GX1={<p ,q>}对集合;并对于每一个q属于X的商品,从G中找到相似度最大的p,构成GX2={<p,q>};最后取GX1与GX2的并集,得到GX。最后G与X度量公式如下:

其中,sim(p,q)表示进项中的商品p向量与销项商品q向量之间的相关性值,min表示进项中商品p的购买金额与销项中商品q的销售金额之间较小的金额,max则是这两个金额之间的较大金额。
由此便得到了每个企业进销商品集合之间的相关度,并使用该相关度来判断该企业是否异常。如果相关度sim(G,X)小于一个给定的阈值,那么认为该企业异常,否则正常。也可以使用该相关度来作为每个企业正常度。

数据挖掘场景-发票虚开相关推荐

  1. 京东区块链(智臻链):1. 应用场景

    "京东智臻链"是京东区块链的技术品牌,致力于打造全方位.全生命周期的企业级区块链应用解决方案,让开发者和企业实现一站式规划.配置.开发.上线.运维,一键自动配置和部署区块链网络,降 ...

  2. sklearn输出模型参数_如何使用sklearn优雅地进行数据挖掘?

    关注上方"数据挖掘工程师",选择星标, 关键时间,第一时间送达! 文章来自:天池大数据科研平台 一.使用sklearn数据挖掘 ‍‍ 1.数据挖掘的步骤 数据挖掘通常包括数据采集, ...

  3. 如何使用 sklearn 优雅地进行数据挖掘?

    文章来自:天池大数据科研平台 一.使用sklearn数据挖掘 ‍‍ 1.数据挖掘的步骤 数据挖掘通常包括数据采集,数据分析,特征工程,训练模型,模型评估等步骤.显然,这不是巧合,这正是sklearn的 ...

  4. 转载:使用sklearn进行数据挖掘

    目录 1 使用sklearn进行数据挖掘 1.1 数据挖掘的步骤 1.2 数据初貌 1.3 关键技术 2 并行处理 2.1 整体并行处理 2.2 部分并行处理 3 流水线处理 4 自动化调参 5 持久 ...

  5. 如何使用sklearn优雅地进行数据挖掘?

    一.使用sklearn数据挖掘 1.数据挖掘的步骤 数据挖掘通常包括数据采集,数据分析,特征工程,训练模型,模型评估等步骤. 显然,这不是巧合,这正是sklearn的设计风格.我们能够更加优雅地使用s ...

  6. 使用sklearn优雅地进行数据挖掘

    作者:jasonfreak 1 使用sklearn进行数据挖掘 1.1 数据挖掘的步骤 数据挖掘通常包括数据采集,数据分析,特征工程,训练模型,模型评估等步骤.使用sklearn工具可以方便地进行特征 ...

  7. 如何使用sklearn进行数据挖掘

    北京 | 高性能计算之GPU CUDA课程 11月24-26日3天密集培训 快速带你晋级阅读全文> 1.1.数据挖掘的步骤 数据挖掘通常包括数据采集,数据分析,特征工程,训练模型,模型评估等步骤 ...

  8. 使用sklearn进行数据挖掘

    人工智能AI与大数据技术实战  公众号: weic2c 1 使用sklearn进行数据挖掘 1 使用sklearn进行数据挖掘 1.1 数据挖掘的步骤 数据挖掘通常包括数据采集,数据分析,特征工程,训 ...

  9. 如何使用sklearn进行数据挖掘?

    数据分析入门与实战  公众号: weic2c 1.1 数据挖掘的步骤  数据挖掘通常包括数据采集,数据分析,特征工程,训练模型,模型评估等步骤.使用sklearn工具可以方便地进行特征工程和模型训练工 ...

最新文章

  1. HarmonyOS 输入框TextField的使用
  2. oracle 删除补全日志组_浅谈Oracle 20c ASM文件组模板技术
  3. include/caffe/common.cuh(9): error: function atomicAdd(double *, double) has already been defined
  4. jQuery实现禁用和只读
  5. C++中operator的两种用法
  6. python判断是不是整数1002python判断是不是整数_Python判断一个数是不是为整数的方法...
  7. Java 并发编程Semaphore的应用与源码解析
  8. Android自定义UI实例
  9. idea无法导入java文件_java – IntelliJ IDEA无法解析spring导入的文件
  10. Flutter 入门安装——C#程序喵的Flutter之旅
  11. android微信红包提醒,微信红包提醒怎么设置 微信红包提醒设置教程
  12. java动作游戏教程_格斗游戏的动作设计和制作
  13. 分子动力学模拟学习3-Gromacs数据处理
  14. AJAX+php实现分页器:分页展示数据
  15. 【ORACLE】ORACLE IMPDP导入提示ORA-01918:user‘XXX’ does not exist
  16. swift 代码加载xib storyboard
  17. 【IDEA】小技巧之书签与收藏
  18. 计算机每次网络重插才能启动,为何电脑开机后再插网线才能用_每次开机都要重插网线的解决方法...
  19. 计算机培训教学准备,计算机教学计划锦集五篇
  20. 微信硬件开发系列教程07-蓝牙nrf51822固件编译(airkiss/airsync)

热门文章

  1. 我的子平真诠学习笔记
  2. 史上最强HashMap面试教程
  3. 1亿条数据批量插入 MySQL,哪种方式最快
  4. 【Python】pass,continue和break的区别
  5. win10系统更新服务器太慢了,Win10升级更新速度慢的解决方法
  6. 51nod1423 最大二“货”问题
  7. i5 1340p和r7 7735h差距 酷睿i51340p和锐龙r77735h对比
  8. 网络攻防技术(2021期末考试)
  9. 如何确定论文研究方向,看了很多论文还是没有头绪?
  10. 什么,3行Python代码就能获取海量数据?