第8章  数据 
输入垃圾,输出垃圾:如果使用的输入变量质量不好,得到的结果也不会好。

数据的重要性
    通常来说,模型的很多细节都是由所使用的输入变量的特征决定的。
    准确信息输入正确模型的速度越快,所能得到的结果就会越好(至少在你计划得到一个好的收益时)

数据的类型
    价格数据(price data):价格,股票的交易量、每笔交易的时间及规模等都属于价格信
    基本面数据(fundamental data):除了价格数据之外的所有数据
    这些数据有助于决定金融产品未来的价格或描述金融产品目前的状况
    常见的基本面数据:财务健康状况(financial health)、财务表现(financial performance)、财务价值(financial worth)和情绪(sentiment)
    聪明的研究人员总是在不断地寻找未被其他市场参与者使用的创新性的数据来源

数据的来源
    交易所:价格、交易量、时间戳、持仓量、空头持仓量、订单簿数据。
    监管机构:各个公司的财务报表、个股的大股东持股情况以及内部买卖活动。
    政府:宏观经济数据,如失业率、通货膨胀及GDP数据。
    公司:财务报告及其他公告(如红利的变化等)。
    新闻机构:新闻报道。·数据专营供应商(或数据加工者):可能有用的一些生产数据。如经纪公司经常发布关于上市公司的报告,一些公司追踪并发布基金的现金流数据。
    第三方数据供应商(tertiary data vendors),整合数据使宽客更容易使用数据而获利

数据整理
    缺失值
        建立允许数据出现缺失的系统,
        最近已知价格填充

    错误观测值:小数点错误(跨系统单位)
        异常值过滤
    公司行为:配股
    错误的时间戳:对接收到数据的时间戳和存储数据时的内部时间进行比对,以确保时间戳的正确性
    前视偏差:财报,前复权,静态股票池
        记录数据时间。
        人工滞后项,该指标的敏感度得以延误,足以克服前视偏差。
        不同交易市场收盘时间各不相同造成的。
    
数据储存
    文件

        平面文件:这种两维的数据库和普通的表格很类似
        指针平面文件:指针为电脑建立了一张虚拟的表格(cheat sheet),提供了一种比顺序搜索更加智能化的算法对大数据集进行搜索。
    关系数据库:允许数据集中出现更加复杂的关系
    数据立方体:数据立方体强调关系数据库的一致性,把所有金融产品所有属性的取值都放到一个三维数据表中
    
小结

读书笔记_打开量化投资的黑箱07相关推荐

  1. 读书笔记_打开量化投资的黑箱01

    大约4年前(2015年左右),看过一些量化的入门书籍,那时是完全小白的,一窍不通的(当然,现在也不算牛,只能算比当时有进步吧).前阵子开发策略,开发的有点小心累,之前自以为很好的策略or思路,实践下来 ...

  2. 读书笔记_打开量化投资的黑箱11

    第四部分 高速及高频交易 第13章 高速及高频交易概要     根据艾特集团(Aite Group)研究,高频交易目前占据的市场比例略高于50%,期货市场上的比例大致相同,货币市场比例大概是40%. ...

  3. 读书笔记_打开量化投资的黑箱09

    第三部分  量化交易策略的投资指引 第10章  量化交易策略的固有风险 两种类型的敞口:     一种是可以带来长期回报(阿尔法和贝塔)的敞口,这种暴露人们易于接受;     另一种是不能带来长期回报 ...

  4. 读书笔记_打开量化投资的黑箱10

    第11章  对量化交易的批评:确保如实记录 /185 交易是一门艺术,而非科学     市场主要由人们对所接收信息的反应而驱动.不是所有的信息都可以系统地被理解. 由于低估风险,宽客引发了更多的市场动 ...

  5. 读书笔记_打开量化投资的黑箱06

    第7章  执行模型 执行交易两种途径: 电子途径:通过直接市场准入(direct market access,DMA)得以实现,通过经纪公司的基础设施和交易接口在电子市场(如ECN平台)直接进行交易, ...

  6. 读书笔记_打开量化投资的黑箱04

    第5章  交易成本模型 #交易成本的定义 理念:交易是有成本的,除非有足够的理由,否则便不应该进行交易. 交易原因:第一,可以增加盈利的概率或量(比如阿尔法模型)         第二,可以降低亏损的 ...

  7. 读书笔记_打开量化投资的黑箱03

    mindmaster分享地址:https://www.edrawsoft.cn/viewer/public/s/9bb3e665146456 百度脑图:http://naotu.baidu.com/f ...

  8. alpha模型:打开量化投资的黑箱;附创业板布林带策略代码:年化15%。

    原创文章第108篇,专注"个人成长与财富自由.世界运作的逻辑, AI量化投资". 关于量化投资,我们写了不少文章.从数据准备,预处理,因子特征工程,因子分析,规则策略,模型,回测, ...

  9. 《打开量化投资的黑箱》 阅读笔记

    第一部分 量化交易的世界 第一章 关注量化交易的原因 算法执行(algorithmic execution)指的是,在电子化市场中,投资者买卖行为是通过计算机软件实现的. 一个经典的策略叫做统计套利, ...

最新文章

  1. [Qt教程] 第37篇 网络(七)TCP(一)
  2. LeetCode 219. 存在重复元素 II(哈希)
  3. 侧边栏配置_企业微信上线“聊天侧边栏”功能,可在外部会话时快捷使用应用...
  4. 《决战大数据大数据的关键思考 升级版》PDF电子书分享
  5. matlab 时间步 图,MATLAB运行显示输入和目标具有不同的时间步?
  6. 白杨SEO:企业口碑问答营销如何做?渠道选择、推广流程及注意事项
  7. MODBUS CRC16 工具类
  8. 如何在工作中形成自己的方法论(待完善)
  9. 【逻辑训练】来自可汗学院的有趣逻辑问题
  10. 2020科协竞赛部第一次培训
  11. 多线程面试题(高薪高频)
  12. 网易vip邮箱多少钱?163邮箱名字怎么起高端?
  13. 共享打印机提示0x000006cc的解决方法
  14. Wordpress 网站设计入门5 级联菜单设计
  15. 百人计划 图形2.1 色彩空间
  16. Altium Designer中如何在PCB板图上绘制安装孔,孔的尺寸
  17. 跑得比猎豹快的机器人来了,还能游泳跳跃,大小仅为毫米级 | Nature子刊
  18. itext根据模版生成PDF与合并多个PDF以及向已存在PDF增加水印设置权限等操作
  19. html 占用空间 滚动轴_滚动条占据空间scrollbar导致的bug
  20. 计算航向角和经纬度之间的距离

热门文章

  1. sql高级语法之IF、IFNULL
  2. msyql数据类型对照java类型
  3. pvid和vid区别,tag口和untag口区别
  4. 数字积分法插补c语言程序,数字积分法插补原理
  5. ssis配置文件优先级_SSIS优先约束概述
  6. SQL Server实例的十大安全注意事项
  7. mercurial使用_DBA对Mercurial的介绍–什么时候以及为什么我们应该使用版本控制
  8. olap 多维分析_如何通过依赖T-SQL从OLAP多维数据集有效地提取数据
  9. itest(爱测试) 3.3.7 发布,开源BUG 跟踪管理 敏捷测试管理软件
  10. Spring----getBean的四种用法