title:

“精准社保”的赛题为“基本医疗保险医疗服务智能监控”,由参赛队完成数据算法模型的开发设计,实现对各类医疗保险基金欺诈违规行为的准确识别,以进一步丰富现行医保智能监控的医保规则和医学规则,提高医保智能监控的针对性和有效性。违规行为举例如下:
(1)为了获得不当利益,部分人员从各种途径收集医疗保险参保人员的社保卡,通过社保卡到医院进行虚假诊疗,套取医保基金。(社保卡收集、套取医保基金)
(2)在门诊特殊疾病的诊疗中,部分人员通过编造病历、诊疗过程,套取医保基金。
在本次比赛中,将上述两种违规人员统称为涉嫌造假人员。选手需要基于给定的训练集数据得到模型,然后使用模型判定测试集中的人员是否为涉嫌造假人员。(编造的病例、编造的诊疗过程、被套取的医保基金、训练集数据->模型、判定测试集(决策树??)

从编造的数据中提取出造假特征。

造假人员特征,哪些是造假人员

可能的特征:

骗保金额:

1.短次大数额

2.多次小数额

药单:在药单中出现没有用到的药。

“医托”,负责制造假的诊断材料、住院收费票据

假冒印章仿真度高

question:为什么审查机构无从查证?

answer:收费票据防伪性不强 各地款式不一 审核难度大

solution: 最有效的录入数据库,比对医院数据和报保数据?全国医保信息系统亟待建立(全国联网)。

wonder:数据分析分析的是什么数据??短次大数额的能区别(高危),多次小数额需要查明禁止+惩罚。

针对骗保的法律条款:

1、投保人骗保,解除保险合同,并不退还保费
  《保险法》规定,如果投保人故意隐瞒事实,不履行如实告知义务的,或者因过失未履行如实告知义务,足以影响保险人决定是否同意承保或者提高保险费率的,保险人有权解除保险合同。投保人故意不履行如实告知义务的,保险人对于保险合同解除前发生的保险事故,不承担赔偿或者给付保险金的责任,并不退还保险费。
  2、投保人骗保,或构成保险诈骗罪
  根据《中华人民共和国刑法》第一百九十八条规定,有下列情形之一,进行保险诈骗活动,数额较大的,处五年以下有期徒刑或者拘役,并处一万元以上十万元以下罚金;数额巨大或者有其他严重情节的,处五年以上十年以下有期徒刑,并处二万元以上二十万元以下罚金;数额特别巨大或者有其他特别严重情节的,处十年以上有期徒刑,并处二万元以上二十万元以下罚金或者没收财产:
  (一)投保人故意虚构保险标的,骗取保险金的;
  (二)投保人、被保险人或者受益人对发生的保险事故编造虚假的原因或者夸大损失的程度,骗取保险金的;
  (三)投保人、被保险人或者受益人编造未曾发生的保险事故,骗取保险金的;
  (四)投保人、被保险人故意造成财产损失的保险事故,骗取保险金的;
  (五)投保人、受益人故意造成被保险人死亡、伤残或者疾病,骗取保险金的。
  有前款第四项、第五项所列行为,同时构成其他犯罪的,依照数罪并罚的规定处罚。单位犯第一款罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,处五年以下有期徒刑或者拘役;数额巨大或者有其他严重情节的,处五年以上十年以下有期徒刑;数额特别巨大或者有其他特别严重情节的,处十年以上有期徒刑。
  保险事故的鉴定人、证明人、财产评估人故意提供虚假的证明文件,为他人诈骗提供条件的,以保险诈骗的共犯论处。

法律虽没有给小数额诈保判刑,我觉得应及那里医保信用机制,用大数据区分可能诈保任人员,再具体证实对于大数额的交给公安机关处理,小数额将诈保人加入不信任名单采取必要的惩罚措施。

比赛评选规则:

P      P∩R        R

目标:找到一个拟合程度比较好的算法模型。

学习其他组的方法:

人社大赛算法赛场解题思路分享+第四名+__DPS__

1.快速了解医疗保险理赔的一般业务流程以及医疗保险欺诈的常用手段

2.将在时间上冗余的记录过滤掉

3.得到了每个用户的TF-IDF特征向量,为了防止过拟合,我们选用了最简单但有效的Logistic模型,结合3折交叉验证,预测出一列新的概率值,作为新的特征

赛题数据:

赛题一共给出了5张表,包括了训练数据集、训练集的标签集、测试数据集、预测人员编码数据集、三目项目明细数据集。 其中对每张表的分析如下:

renshe_df_train:训练数据集,一共包含了72954个就诊者在2016年里的多条就诊记录。此表包含69个字段,总结下来主要包括如下几个方面的数据:个人和医院编号、药品费用信息、检查费用信息、治疗费用信息、手术费用信息、床位费用信息、材料费用信息、输血费用信息、各项补助和申报审批信息、诊断病种名称等等。

renshe_df_id_train:训练集的标签,分别对训练集中的72954个就诊者进行了是否欺诈的标注,1表示欺诈,0表示正常,其中欺诈人数有2600人。

renshe_df_test:测试数据集,一共包含了26360名就诊者在2016年里的多条就诊记录。其中表的结构和训练集保持一致。

renshe_df_id_test:只包含测试集中需要进行识别的就诊者的pid编号。

renshe_fee_detail:训练集和测试集的补充数据,对训练集和测试集中的每一条记录所包含的三目项目进行记录。其中的各个项目分别为:1——药品处方项目、2——检查项目、3——特殊门诊挂号、4——手术相关、5——住院、6——材料相关、7——普通挂号、9——其他。

特征提取:

整体维度特征提取主要是以每个就诊者的全部数据进行聚合提取特征,其中医院特征、个人结合医院特征、个人特征分别为:

医院特征:

※医院系数:通过计算每个医院的总就诊次数中欺诈次数所占的比例和总报销费用中欺诈报销费用的比例分别得到每个医院的就诊欺诈系数和报销欺诈系数。

(特征背景:发生欺诈次数较多的医院可能存在监管不严的情况,医院系数可以体现出医院发生欺诈的概率)

个人结合医院特征:

※医院系数与个人就诊情况结合:由于个人的就诊记录会对应于多个医院,个人就诊情况和医院特征进行结合时可以按三种方式进行结合:1、以个人就诊次数最多的医院的系数作为特征。2、对个人就诊的所有医院的系数进行求和作为特征。3、对个人就诊的所有医院的系数进行求和并除以就诊次数作为特征。

(特征背景:欺诈人员对于监管不严的医院有更大的偏好)

※个人就诊次数:统计每个人的就诊次数。通过数据分析发现每一次就诊会对应多条就诊记录(同一次就诊中不同的三目项目可能会在训练集和测试集中产生多条记录),于是在统计就诊次数时对于同一天在同一个医院的多条记录看成是一次就诊次数。

(特征背景:个人就诊次数如果过多其欺诈可能性就较大 )

※就诊次数与医院结合:可以统计出同一天内去两个及以上的医院的天数,一天内去不同医院的最大数。

(特征背景:如果一个人在一天内访问多个医院的情况经常发生,其行为就可能存在异常。如果一个人在一天内就诊的医院数量的最大值很大,其行为也可能存在异常。)

※就诊频率和就诊时间窗口:计算就诊的最大时间和最小时间的间隔天数得到时间窗口,用就诊次数除以时间窗口得到就诊频率。

(特征背景:如果一个人就诊频率很高,其行为很可能存在异常。)

※就诊不同医院数量: 统计出每个人就诊的不同医院的数量。

(特征背景:如果一个人去过大量不同的医院就诊,其行为也可能存在异常。)(对于票贩子一条龙服务而言,他们有固定的作假医院,没必要跑多家,这个特征打折扣)

个人特征:

※各项费用的统计:对于药费费用信息、检查费用信息、治疗费用信息、手术费用信息、床位费用信息、材料费用信息、输血费用信息、各项补助和申报审批信息、就诊总费用、三目项目等涉及到的费用进行求和,平均,求比例,求波动等统计(其中求平均是由求和除以就诊次数,求波动是按就诊次数为单位)。重要性排名靠前的费用主要为:就诊总费用(就诊总费用特征是通过各项三目项目的费用相加而得)、审批金额、基本医疗保险统筹基金支付金额、起付标准以上自负比例金额、药品费申报金额(大金额的)。

(特征背景:欺诈核心目的是骗钱,费用高低和欺诈发生的几率相关性很大。)

※窗口期内平均每天费用特征:前期利用gbdt的特征重要性评估,挑出较为重要的特征:就诊总费用、药品数量、药品费用、审批金额、基本医疗保险统筹基金支付金额、药品费申报金额等除以时间窗口得到窗口期平均每天费用特征。

(特征背景:计算窗口期内平均每天的费用,体现出了单位时间内费用的高低,减少时间窗口对费用的影响。)

※个人病例特征:由于出院诊断内容杂乱无规则,名称不统一,前后并无逻辑性,缺失值较多,综合以上因素决定用人工建立词集的方法对特征进行提取。主要步骤为:1、对欺诈和非欺诈用户分别根据诊断病种名称分组并进行排序。2、通过对排序列表的分析,可以人工建立出病种名称词集,并且可以覆盖到大部分的用户诊断病例。3、对每个就诊者,利用词集里的病种,分别统计出每个病种出现的次数作为病例特征。

(特征背景:某些疾病可能更容易伪造,或者是骗取到的药品费用更加高昂,使得欺诈者更倾向于对某些疾病进行伪造。)

※药品处方特征:药品处方特征的情况和病种特征类似,但是在建立词集的时候由于药品种类繁多不能兼顾到所有药品,因此只提取出现频率前24种药品作为特征。(在之后特征重要性分析中发现药品特征重要性较为靠后,所以没有进一步加入更多药品词集的必要。)

(特征背景:某些药品可能更加容易报销,或者是价格更加高昂,使得欺诈者倾向于开这些药。)

初识大数据:全国社会保险大数据应用创新大赛相关推荐

  1. 南大通用GBase 8c斩获鲲鹏应用创新大赛2022全国总决赛金奖

    2022年10月28日,鲲鹏应用创新大赛2022圆满落下帷幕.此次赛事以"数智未来,因你而来"为主题,设立21个赛区,吸引了5000+开发者参赛,倾力打造基于鲲鹏生态底座的产品和解 ...

  2. 大数据毕业设计可视化大屏前后端项目分享

    1.前言 很久没有分享过可视化大屏的项目了,距离上次分享基于Echarts的数据可视化大屏系统设计分享这篇可视化系统已经过去了整整一年有余.当时分享这篇博客没想到会收获这么多的阅读量,并且在刚发布的时 ...

  3. 大橙子_【大橙子喜讯】工程学子斩获佳绩!——机械创新设计大赛

    第九届全国大学生机械创新设计大赛慧鱼组暨第十一届全国慧鱼工程技术创新大赛已于九月下旬在浙江温州大学圆满落幕.时隔6年,中国海洋大学2支队伍再次冲入决赛,经过激烈角逐,工程学子在比赛中取得优异成绩:斩获 ...

  4. 贵阳市全国首部大数据立法《条例》5月起正式实施

    贵阳市政府数据开放立法工作去年3月启动,去年7月初,由贵阳市人大财经委.法制委,市政府法制局和大数据战略重点实验室抽调人员组成六个调研组,历时50天完成了对贵阳市40家数据铁笼实施单位和56家大数据企 ...

  5. 大数据应用项目创新大赛_全国高校大数据应用创新大赛

    2015年国务院发布<促进大数据发展行动纲要>,标志着大数据战略正式上升为国家战略.为配合国家大数据战略,加快产业人才培养,教育部增设了"数据科学与大数据技术"本科专业 ...

  6. “中国好创意” CCF全国青年大数据创新大赛启动仪式 暨大数据大师论坛议程...

    "中国好创意"CCF全国青年大数据创新大赛启动仪式暨大数据大师论坛议程 一.活动时间 2015年9月19日(周六) 14:00-15:00 启动仪式 15:30-17:30 大数据 ...

  7. 会议通知|第3届全国高校大数据教学研讨会

    第3届全国高校大数据教学研讨会    通   知 各高校负责人.骨干教师: 国家十三五规划纲要明确提出"实施国家大数据战略,推进数据资源开放共享",为我国在大数据领域的未来发展绘制 ...

  8. 关于举办“全国大学生大数据技能竞赛”的通知

    附件1: "全国大学生大数据技能竞赛"详细信息 一. 大赛时间 2018年12月8日 上午9:00-13:00 二. 大赛地点 中国农业大学计算机中心3层大数据实验中心 三. 发起 ...

  9. 第三届全国高校“数据科学与大数据技术”教学研讨会

    第三届全国高校"数据科学与大数据技术"教学研讨会 暨新工科背景下的人才培养与课程建设师资培训会 目前,我国大数据专业人才匮乏,培养优秀的专业人才迫在眉睫.为实施国家大数据战略,加快 ...

  10. 全国高校“数据科学与大数据技术”专业教学研讨会

    全国高校"数据科学与大数据技术"专业教学研讨会 暨新工科背景下的人才培养与课程建设师资培训会 目前,我国大数据专业人才匮乏,培养优秀的专业人才迫在眉睫.为实施国家大数据战略,加快大 ...

最新文章

  1. RDKit:计算不同分子或构象之间的RMSD
  2. 创建 Image - 每天5分钟玩转 OpenStack(21)
  3. java dateformat hh_Java 中时间处理SimpleDateFormat 中HH和hh的区别
  4. OK335xS psplash make-image-header.sh hacking
  5. MySQL 之binlog日志说明及利用binlog日志恢复数据操作记录
  6. Windows Server 2003成员服务器基准用户权限分配策略
  7. python 命令行:help(),'more'不是内部或外部命令,也不是可运行的程序或批处理文件
  8. 不使用服务器控件的ASP.NET
  9. autoit脚本实现电脑加域,退域,重加域
  10. 部署asp.net mvc_在ASP.NET 2.0上部署ASP.NET MVC
  11. git回退版本 简单易懂
  12. Unity3D音效问题
  13. 金融投资大数据(1)-马科维茨资产组合基于excel
  14. Au:剪辑的基础操作
  15. 你的前500位种子用户是怎么来的?
  16. 计算机的喇叭接口显示的英文,电脑没声音右下角小喇叭显示红X,播放设备AMDHDMIOUTPUT...
  17. chrome浏览器无法找到 www.baidu.com 的 DNS 地址
  18. 怎样补充nmn,nmn胶囊正确服用方法,现在知道还不晚
  19. 8月30日科技联播:子弹短信总激活用户超过400万,亚马逊将成第2个万亿美元市值企业...
  20. 光场相机lytro的安装和使用

热门文章

  1. 全球十大交易系统(Futures Truth Magazine评选)及各交易系统详解
  2. unix/Linux系统下的nobody用户与nologin详细介绍
  3. springboot starter自定义实现公共模块
  4. 文华财经期货指标公式,期货交易用什么指标信号简单,准确率高,
  5. python return break_Python基础:return和break的不同
  6. 如何在liunx上搭建服务器资源监控平台
  7. A/B Test 使用指南
  8. 基于google api 的youtube评论爬取
  9. 玩转小黑框!Terminal 入门到进阶,最后放弃!
  10. SSL-ZYC 2133 腾讯大战360