大数据获取与预处理-会计欺诈检测
1. 报告背景
某学生毕业于某大学大数据专业,毕业后服务于某证券公司的数据分析部门。
现在投资部门经理向你部门提出了项目要求:
- 投资分析师依据会计报表进行分析,但如果该报表作假,将会使投资工作面临巨大的风险。
要求你部门设计一个数据分析模型,分析下列受到证监会处罚的会计作假公司,发现规律,并在未来能够识别并规避这样的公司。
2. 数据模型设计
项目组根据理论研究结果,提出了以下数据源架构:
图2:数据源设计
3. 你需要作的工作
从图1中任选一家公司作为标的,使用Python作为编程工具,完成以下程序设计:
一、数据获取(共50分)
(1)利用API方式,从Tushare获取该公司过去3年的逐月收盘价格数据(10分);
(2)使用scrapy设计爬虫,从新浪股吧获取该公司过去10年的所有评论数据(20分);
(3)使用scrapy设计爬虫,从巨潮网获取该公司过去10年的所有年报(20分);
二、数据预处理(共40分)
新浪股吧数据(20分):
(1)使用正则表达式清洗新浪股吧数据,将其转化为纯中文数据;
(2)对新浪股吧数据进行分词,转化为词袋模型;
(3)构建作弊的同义词词典,逐月构建作弊词语强度指标。
年报数据(20分):
(1)将年报的PDF文本转换为TXT文本;
(2)使用正则表达式清洗TXT文本,将其转换为纯中文数据;
(3)分词,转化为词袋模型
(4)构建风险等负面词同义词词典,逐年构建风险负面词强度指标。
三、数据可视化(共10分)
将股价,作弊词语强度,风险负面词强度三个指标以月为单位作图对比呈现。
有完整代码+报告,100企鹅见昵称
大数据获取与预处理-会计欺诈检测相关推荐
- 毕业设计 - 题目:基于大数据的信用卡欺诈检测
文章目录 0 简介 1 数据集 2 分析流程 3 数据预览 3.1 数据浏览 3.1.1 查看数据分布 4 数据规范化 4.1 amount特征缩放并去除time字段 4.2 解决样本不均衡问题 5 ...
- 大数据分析实战-信用卡欺诈检测(五)-逻辑回归模型
大数据分析实战-信用卡欺诈检测(一) 大数据分析实战-信用卡欺诈检测(二)-下采样方案和交叉验证 大数据分析实战-信用卡欺诈检测(三)- 模型评估 大数据分析实战-信用卡欺诈检测(四)-正则化惩罚 逻 ...
- 大数据分析实战-信用卡欺诈检测(四)-正则化惩罚
大数据分析实战-信用卡欺诈检测(一) 大数据分析实战-信用卡欺诈检测(二)-下采样方案和交叉验证 大数据分析实战-信用卡欺诈检测(三)- 模型评估 文章目录 正则化惩罚 正则化惩罚 正则化惩罚,这个名 ...
- 大数据分析实战-信用卡欺诈检测(三)- 模型评估
大数据分析实战-信用卡欺诈检测(二)-下采样方案和交叉验证 大数据分析实战-信用卡欺诈检测(一) 文章目录 模型评估方法 模型评估方法 接下来,没错,还没到实际建模任务,还需要考虑模型的评估方法,为什 ...
- 大数据分析实战-信用卡欺诈检测(二)-下采样方案和交叉验证
第一部分已经写到这里了,看完第一部分再看这一部分:大数据分析实战-信用卡欺诈检测 文章目录 下采样方案 交叉验证 下采样方案 下采样方案的实现过程比较简单,只需要对正常样本进行采样,得到与异常样本一样 ...
- 大数据系列教程(4)Flink 使用 DataStream API 进行欺诈检测
目录 使用 DataStream API 进行欺诈检测 **版本1** 版本2 版本3 使用 DataStream API 进行欺诈检测 Apache Flink 提供了一个 DataStream A ...
- 机器学习项目实战----信用卡欺诈检测
一.任务基础 数据集包含由欧洲人于2013年9月使用信用卡进行交易的数据.此数据集显示两天内发生的交易,其中284807笔交易中有492笔被盗刷.数据集非常不平衡,正例(被盗刷)占所有交易的0.172 ...
- 【复杂网络】图模型在欺诈检测应用一点看法
转自:https://blog.csdn.net/hero_fantao/article/details/78745263 感谢博主 在三十而立的日子,把很久之前写的东西发出来,以纪念这个特殊的日子. ...
- 机器学习项目实战----信用卡欺诈检测(二)
六.混淆矩阵: 混淆矩阵是由一个坐标系组成的,有x轴以及y轴,在x轴里面有0和1,在y轴里面有0和1.x轴表达的是预测的值,y轴表达的是真实的值.可以对比真实值与预测值之间的差异,可以计算当前模型衡量 ...
最新文章
- 神童、数学家、抑郁症患者,控制论之父诺伯特·维纳的一生
- linux配置永久网管,企业Linux网管配置
- Java虚拟机学习 - 类加载器(ClassLoader)
- centos 7 五笔安装
- Android—显示窗口调用相机与相册
- 开始学习jQuery和准备工作
- . NET5正式版本月来袭,为什么说gRPC大有可为?
- 遇见未来 | 基于软件定义存储的数据加速解决方案:让你的系统加速跑
- 2020骁龙技术峰会即将召开 高通骁龙875要来了?
- 使用jquery简化ajax开发
- encodeURI() 的用法
- 微信小程序开发入门教程
- cruzer php sandisk 闪迪u盘量产工具_SanDisk Cruzer Micro
- Linux平台下快速搭建FTP服务器
- 正则表达式测试工具使用说明
- undolog实现事务原子性,redolog实现事务的持久性
- UUCTF(公共赛道)
- 问题解决:Failed to download metadata for repo ‘appstream‘: Cannot prepare internal mirrorlist:...
- HTML登录注册页面简单实现
- [源码阅读]VDO-SLAM笔记[1] Track()中动态obj部分