# 主要内容
1.对于股票数据中缺失值的处理
2.日收益率(直方图,散点图)
3.相关性系数
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# 有缺失值的数据
df_fake = pd.read_csv('../Data/data/002233lost.csv',index_col='date',parse_dates=False,usecols=['date','close'],na_values=['nan'])
df_fake.plot(figsize=(12,6))
plt.show()

# 中间的缺失部分向前补充
# 最开始的缺失向后补充
df_fake.fillna(method='ffill', inplace =True)
df_fake.fillna(method='bfill', inplace =True)
df_fake.plot(figsize=(12,6))
plt.show()

# 收盘价格,分别是sz50,jsjf,cydl
df_close = pd.read_csv('../Data/data/df_close.csv',index_col='date')
print df_close[:3]
                 SZ   JFJS  CYDL
date
2017-01-03  2307.89  9.121  6.11
2017-01-04  2322.21  9.230  6.12
2017-01-05  2322.68  9.110  6.12
# 计算日收益率
def compute_dailyreturns(df):daily_returns = df.copy()daily_returns[1:] = (df[1:]/df[:-1].values) - 1.0daily_returns.iloc[0,:] = 0return daily_returns
# 上证50,jfjs,cydl的日收益率
daily_returns = compute_dailyreturns(df_close)
daily_returns.plot(figsize=(10,5))
plt.grid()
plt.show()

# 以直方图形式
# 计算上证指数收益率的,均值,和标准差
def plot_hist(df,bins=20):for name in df.columns:df[name].hist(bins=bins,label=name)mean = df[name].mean()std  = df[name].std()plt.axvline(mean, color='black', linestyle ='dashed', lw=2, label='mean')plt.axvline(std, color='red', linestyle = 'dashed', lw=2, label='std')plt.axvline(-std, color='red', linestyle ='dashed', lw=2, label='-std')plt.legend()   # label搭配使用plt.show()plot_hist(daily_returns)

# 在同一坐标系中日收益率对比
def plot_dhist(df, alphas, bins=20):for name,a in zip(df.columns, alphas):df[name].hist(bins=bins, label=name, alpha=a)plt.legend()   plt.show()# 上证指数SZ与CYDL与JFJS
plot_dhist(daily_returns, alphas=[1, 0.6, 0.5])
# kurstosis计算
# daily_returns.kurtosis

# 收益率的散点图
# 用直线去拟合
# 比较两两之间的相关性
def plot_scatter(df, xaxis):for name in df.columns:df.plot(kind='scatter', x = xaxis, y = name)a, b = np.polyfit(df[xaxis], df[name], 1)    # 一次多项式拟合,返回斜率和截距plt.plot(df[xaxis], a * df[xaxis] + b, c='red')plt.show()plot_scatter(daily_returns, 'SZ')

# CYDL 与 JFJS
daily_returns.plot(kind='scatter', x = 'CYDL', y = 'JFJS')
a ,b = np.polyfit(daily_returns['CYDL'], daily_returns['JFJS'], 1)
plt.plot(daily_returns['CYDL'], a * daily_returns['CYDL'] + b, c='red')
plt.show()

# CYDL 与 SZ,直线拟合效果最好,但是不是正相关
# 收益率之间的相关系数
daily_returns.corr()
            SZ      JFJS      CYDL
SZ    1.000000  0.034248 -0.079755
JFJS  0.034248  1.000000  0.340571
CYDL -0.079755  0.340571  1.000000
# .corr()返回对象是DataFrame,支持切片操作
daily_returns.corr().iloc[0,:]
SZ      1.000000
JFJS    0.034248
CYDL   -0.079755
Name: SZ, dtype: float64

ML for trading -cs7646-03相关推荐

  1. ML 学海拾贝 07/03/2018

    auto encoder 优点 back-propagation 的算法?greedy method? NN 的中间层是检测什么的?

  2. 2019,不可错过的NLP“高光时刻”

    作者 | Elvis 译者 | 凯隐.夕颜 出品 | AI科技大本营(ID: rgznai100) [导读]对自然语音处理(NLP)领域而言,2019年是令人印象深刻的一年,本文将回顾2019年NLP ...

  3. 收藏 | 2019 NLP大全:论文、博客、教程、工程进展全梳理(附链接)

    来源:机器之心 本文约为11000字,建议阅读20+分钟 在整个2019年,NLP领域都沉淀了哪些东西?有没有什么是你错过的?如果觉得自己梳理太费时,不妨看一下本文作者整理的结果. 2019 年对自然 ...

  4. 「自然语言处理NLP」的“高光时刻” --- 28篇标志性论文

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 自然语言处理专家elvis在medium博客上发表了关于NLP在2019年的亮点总 ...

  5. 2019年「自然语言处理NLP」的“高光时刻” --- 28篇标志性论文

    点击上方"深度学习技术前沿",选择"星标"公众号 资源干货,第一时间送达 自然语言处理专家elvis在medium博客上发表了关于NLP在2019年的亮点总结. ...

  6. 28篇标志性论文见证「自然语言处理NLP」2019-2020年度亮点进展

    来源:专知 [导读]自然语言处理专家elvis在medium博客上发表了关于NLP在2019年的亮点总结.对于自然语言处理(NLP)领域而言,2019年是令人印象深刻的一年.在这篇博客文章中,我想重点 ...

  7. 学习+科研+做项目 深度学习最全详细资料

    李宏毅2020机器学习深度学习(完整版)国语 [双语字幕]吴恩达深度学习deeplearning.ai 深度学习(卷积网络.循环神经网络.对抗神经网络.Tensorflow实战) 更多资料请关注公众号 ...

  8. 安卓下快速搜索文件实现历程{NDK}

    我在公司有一个文件浏览器的开发项目,需要很快的去遍历某一路劲下的所有的"图片文件"."视频文件"."音频文件"."文档文件&quo ...

  9. Acer 4750 安装黑苹果_zx50jx4200安装黑苹果的辛酸路

    前言 前段时间看了<网络迷踪>---- 一个用电脑录屏功能拍摄的电影,然后就被Mac OS的流畅操作吸引了,当天晚上就在虚拟机安装了黑苹果.毕竟虚拟机,体验极差.作为一个计算机专业的学生, ...

  10. 课程 | 2021年斯坦福大学Jure Leskovec主讲CS224W 图机器学习

    图科学实验室Graph Science Lab 来源:斯坦福大学 SNAP 近年来,图神经网络(GNN)成为网络表示学习和分析的热点研究问题,其特点是将以神经网络为代表深度学习技术用于网络结构的建模与 ...

最新文章

  1. hdu 4751(dfs染色)
  2. ML之MLiR:输入两个向量,得出两个向量之间的相关度
  3. EntLib.com Forum/YAF 开源论坛系统!可免费下载!
  4. day60 Pyhton 框架Django 03
  5. 【报错】:Char 5: error: non-void f
  6. P3605 [USACO17JAN]Promotion Counting P dfs序
  7. sql优化学习(一)
  8. 5月9日上海书城PPT畅销图书作者讲座
  9. 中文数字转换为阿拉伯数字
  10. ylbtech-LanguageSamples-Struct(结构)
  11. 数据结构C++版-栈
  12. 流量星球:实操!利用“拼多多砍价群”日吸100+精准女粉引流技术
  13. 【微前端】微前端——功能团队中缺失的一块拼图
  14. VMware虚拟机不能识别U盘
  15. iOS swift MD5加密
  16. 50个最有价值的数据可视化图表(推荐收藏)
  17. WINCC 7.5 SP2 与 S7-1500的通讯不上的处理
  18. python 上传图片到七牛云上
  19. 浅谈我对元宇宙、Web3、区块链与NFT的理解
  20. docker swam 安装kafka集群以及kfakamanger

热门文章

  1. java增加内容辅助_Eclipse自定义内容辅助基于默认Java内容辅助结果
  2. jdbc通过idea连接mysql数据库(代码连接,不是插件),使用上海时区还是报错,使用UTCHAI还是报错
  3. python爬取数据时怎么将空值转化为0_大数据分析实训 | 成都信息工程大学篇
  4. mysql迁移到mysqli_php – 从mysql连接迁移到mysqli
  5. html备注技术支持,技术支持协议书范本
  6. ios 自制framework遇到 _OBJC_CLASS_$_XXX, referenced from:
  7. Python连接SQLite
  8. 【转】其他人的BUG
  9. Hadoop2.7.4 HA centos6.8
  10. PyCharm----中文显示乱码的解决方法总结