1. 报告背景

某学生毕业于某大学大数据专业,毕业后服务于某证券公司的数据分析部门。

现在投资部门经理向你部门提出了项目要求:

  1. 投资分析师依据会计报表进行分析,但如果该报表作假,将会使投资工作面临巨大的风险。

要求你部门设计一个数据分析模型,分析下列受到证监会处罚的会计作假公司,发现规律,并在未来能够识别并规避这样的公司。

2. 数据模型设计

项目组根据理论研究结果,提出了以下数据源架构:

图2:数据源设计

3. 你需要作的工作

从图1中任选一家公司作为标的,使用Python作为编程工具,完成以下程序设计:

一、数据获取(共50分)

(1)利用API方式,从Tushare获取该公司过去3年的逐月收盘价格数据(10分);

(2)使用scrapy设计爬虫,从新浪股吧获取该公司过去10年的所有评论数据(20分);

(3)使用scrapy设计爬虫,从巨潮网获取该公司过去10年的所有年报(20分);

二、数据预处理(共40分)

新浪股吧数据(20分):

(1)使用正则表达式清洗新浪股吧数据,将其转化为纯中文数据;

(2)对新浪股吧数据进行分词,转化为词袋模型;

(3)构建作弊的同义词词典,逐月构建作弊词语强度指标。

年报数据(20分):

(1)将年报的PDF文本转换为TXT文本;

(2)使用正则表达式清洗TXT文本,将其转换为纯中文数据;

(3)分词,转化为词袋模型

(4)构建风险等负面词同义词词典,逐年构建风险负面词强度指标。

三、数据可视化(共10分)

将股价,作弊词语强度,风险负面词强度三个指标以月为单位作图对比呈现。

有完整代码+报告,100企鹅见昵称

大数据获取与预处理-会计欺诈检测相关推荐

  1. 毕业设计 - 题目:基于大数据的信用卡欺诈检测

    文章目录 0 简介 1 数据集 2 分析流程 3 数据预览 3.1 数据浏览 3.1.1 查看数据分布 4 数据规范化 4.1 amount特征缩放并去除time字段 4.2 解决样本不均衡问题 5 ...

  2. 大数据分析实战-信用卡欺诈检测(五)-逻辑回归模型

    大数据分析实战-信用卡欺诈检测(一) 大数据分析实战-信用卡欺诈检测(二)-下采样方案和交叉验证 大数据分析实战-信用卡欺诈检测(三)- 模型评估 大数据分析实战-信用卡欺诈检测(四)-正则化惩罚 逻 ...

  3. 大数据分析实战-信用卡欺诈检测(四)-正则化惩罚

    大数据分析实战-信用卡欺诈检测(一) 大数据分析实战-信用卡欺诈检测(二)-下采样方案和交叉验证 大数据分析实战-信用卡欺诈检测(三)- 模型评估 文章目录 正则化惩罚 正则化惩罚 正则化惩罚,这个名 ...

  4. 大数据分析实战-信用卡欺诈检测(三)- 模型评估

    大数据分析实战-信用卡欺诈检测(二)-下采样方案和交叉验证 大数据分析实战-信用卡欺诈检测(一) 文章目录 模型评估方法 模型评估方法 接下来,没错,还没到实际建模任务,还需要考虑模型的评估方法,为什 ...

  5. 大数据分析实战-信用卡欺诈检测(二)-下采样方案和交叉验证

    第一部分已经写到这里了,看完第一部分再看这一部分:大数据分析实战-信用卡欺诈检测 文章目录 下采样方案 交叉验证 下采样方案 下采样方案的实现过程比较简单,只需要对正常样本进行采样,得到与异常样本一样 ...

  6. 大数据系列教程(4)Flink 使用 DataStream API 进行欺诈检测

    目录 使用 DataStream API 进行欺诈检测 **版本1** 版本2 版本3 使用 DataStream API 进行欺诈检测 Apache Flink 提供了一个 DataStream A ...

  7. 机器学习项目实战----信用卡欺诈检测

    一.任务基础 数据集包含由欧洲人于2013年9月使用信用卡进行交易的数据.此数据集显示两天内发生的交易,其中284807笔交易中有492笔被盗刷.数据集非常不平衡,正例(被盗刷)占所有交易的0.172 ...

  8. 【复杂网络】图模型在欺诈检测应用一点看法

    转自:https://blog.csdn.net/hero_fantao/article/details/78745263 感谢博主 在三十而立的日子,把很久之前写的东西发出来,以纪念这个特殊的日子. ...

  9. 机器学习项目实战----信用卡欺诈检测(二)

    六.混淆矩阵: 混淆矩阵是由一个坐标系组成的,有x轴以及y轴,在x轴里面有0和1,在y轴里面有0和1.x轴表达的是预测的值,y轴表达的是真实的值.可以对比真实值与预测值之间的差异,可以计算当前模型衡量 ...

最新文章

  1. 神童、数学家、抑郁症患者,控制论之父诺伯特·维纳的一生
  2. linux配置永久网管,企业Linux网管配置
  3. Java虚拟机学习 - 类加载器(ClassLoader)
  4. centos 7 五笔安装
  5. Android—显示窗口调用相机与相册
  6. 开始学习jQuery和准备工作
  7. . NET5正式版本月来袭,为什么说gRPC大有可为?
  8. 遇见未来 | 基于软件定义存储的数据加速解决方案:让你的系统加速跑
  9. 2020骁龙技术峰会即将召开 高通骁龙875要来了?
  10. 使用jquery简化ajax开发
  11. encodeURI() 的用法
  12. 微信小程序开发入门教程
  13. cruzer php sandisk 闪迪u盘量产工具_SanDisk Cruzer Micro
  14. Linux平台下快速搭建FTP服务器
  15. 正则表达式测试工具使用说明
  16. undolog实现事务原子性,redolog实现事务的持久性
  17. UUCTF(公共赛道)
  18. 问题解决:Failed to download metadata for repo ‘appstream‘: Cannot prepare internal mirrorlist:...
  19. HTML登录注册页面简单实现
  20. [源码阅读]VDO-SLAM笔记[1] Track()中动态obj部分

热门文章

  1. STM32CubeIDE链接脚本讲解
  2. win10预装软件卸载工具
  3. 全国一级计算机考证报名网站
  4. SAP批量维护库存地点,隐藏的事务代码MMSC_MASS
  5. HTML 视频播放代码
  6. 吴会计的烦恼,网络推广没效果
  7. 只做macd二次金叉_macd二次金叉的定义
  8. PCB表面处理工艺之OSP的优缺点?
  9. 曝iPhone15或换用USB-C接口;Google将下架第三方Android通话录音APP|极客头条
  10. 软件行业和互联网行业究竟有什么区别?又该如何去选择?