【数据竞赛】数据竞赛中最贵的四个特征
作者:杰少
四大量化强特
简介
本文介绍四个在量化问题中非常重要的特征,对量化有兴趣的朋友可以参考学习,此处的资料主要来源于Optiver团队在Kaggle赛事中的分享。
四大量化强特
01
bid/ask spread
由于不同的股票在市场上的交易水平不同,我们采用最佳报价(best offer price)和最佳买入价(best bid price)的比值来计算买卖价差。
买卖价差的计算公式可采用以下形式:
注:最佳买入价是有人愿意购买的最高价格,最佳报价(或出价)是有人愿意出售的最低价格。
01
Weighted averaged price
订单(Order) Book是股票估值的重要来源之一。公允的账面价值评估必须考虑两个因素:订单的水平和规模。我们可以使用加权平均价格(WAP)来计算股票的瞬时估值,并以实际波动率为目标。
WAP的公式如下,它考虑了最高级别的价格和数量信息:
如果两本books在同一价格水平上分别有出价(bid offer)和要价(ask offer),那么出价越多的book将产生较低的股票估值,因为书中有更多的意向卖家,而卖家越多意味着市场上的供应越多,导致股票估值越低。
在大多数情况下,在连续交易时间内,订单簿不应出现bid order高于offer或ask order的情况。
03
Log returns
假设是股票在时刻的价格,我们通过下面的方式计算和时刻的log return,
通常我们会计算在10分钟之内的log return。Log returns有很多优势,例如:
它们可以在时间轴上相加:
一般的returns不可能低于-100%,但是log return是不受限的;
04
Realized volatility
模型的有价值输入是股票对数收益的标准差。对于在较长或较短时间间隔内计算的对数收益率,标准差会有所不同,因此通常:
将其标准化为1年期,而年化标准差就被称为波动率(volatility)。
我们一般会使用WAP作为股票的价值来计算log returns。
代码
1.bid/ask spread
def ba_spread(best_offer, best_bid):ba_spread = best_offer / best_bid - 1.0return ba_spread
2.WAP
def wap(book):wap = (book['bid_price1'] * book['ask_size1'] +\book['ask_price1'] * book['bid_size1']) / (book['bid_size1']+ book['ask_size1'])return wap
3.Log returns
def log_return(list_stock_prices):return np.log(list_stock_prices).diff()
4.Realized volatility
def realized_volatility(series_log_return):return np.sqrt(np.sum(series_log_return**2))
适用问题
股票等问题的建模。
参考文献
Introduction to financial concepts and data
往期精彩回顾本站qq群851320808,加入微信群请扫码:
适合初学者入门人工智能的路线及资料下载
机器学习及深度学习笔记等资料打印
机器学习在线手册
深度学习笔记专辑
《统计学习方法》的代码复现专辑
AI基础下载
机器学习的数学基础专辑
温州大学《机器学习课程》视频
【数据竞赛】数据竞赛中最贵的四个特征相关推荐
- ML之k-NN:k-NN实现对150朵共三种花的实例的萼片长度、宽,花瓣长、宽数据统计,根据一朵新花的四个特征来预测其种类
ML之k-NN:k-NN实现对150朵共三种花的实例的萼片长度.宽,花瓣长.宽数据统计,根据一朵新花的四个特征来预测其种类 目录 输出结果 实现代码 输出结果 实现代码 from sklearn im ...
- 安徽省大数据与人工智能竞赛经验分享-3【从赛题中分析比赛需要的技能】
写在前面 本模块内容为我们团队一位优秀的童鞋总结的,分享给各位参加比赛的同学们,如果有感兴趣的同学或者友友,可以微信搜索BI and BME理解更多内容. 比赛中需要哪些技能,"大数据&qu ...
- 安徽省大数据与人工智能竞赛经验分享-1【以2020竞赛规程为例】
写在前面 本模块内容为我们团队一位优秀的童鞋总结的,分享给各位参加比赛的同学们,如果有感兴趣的同学或者友友,可以微信搜索BI and BME理解更多内容. 一.竞赛内容 1.竞赛分组 ...
- 自动驾驶年度激辩:量产由三要素驱动,本质是数据的军备竞赛 | MEET2022
编辑部 整理自 MEET 2022 量子位 | 公众号 QbitAI "AI在自动驾驶上是应用科学,除了一些核心算法的开发,70%是智能驾驶工程化."" "特斯 ...
- 大数据风控AI竞赛总结
前海征信"好信杯"大数据算法大赛 (2017) 竞赛背景 作为平安旗下专业第三方商业征信机构,前海征信有着丰富的数据资源.本次赛事中主办方前海征信开放业务数据,设计国内首个迁移学习 ...
- 使用python逻辑回归模型来进行nba竞赛数据预测球队胜率
好的,我来为你介绍一下使用 Python 进行逻辑回归模型预测 NBA 竞赛数据中球队胜率的步骤. 首先,你需要准备训练数据.这些数据可能包含球队的历史胜率,球员数据,比赛场地等信息.你可以使用这些信 ...
- 3-03-1 泰坦尼克号竞赛 - 数据过滤
3.3 数据清洗与合并 数据预处理包含了数据清洗 (data cleansing) 与特征工程 (feature engineering) ,本节主要介绍的是数据清洗部份,主要目的是将原始数据转换成整 ...
- 竞赛专题(四)特征工程-竞赛中的必杀技
点击上方"Datawhale",选择"星标"公众号 第一时间获取价值内容 为了帮助更多竞赛选手入门进阶比赛,通过数据竞赛提升理论实践能力和团队协作能力.Data ...
- 数据蒋堂 | BI系统中容易被忽视的数据源功能
作者:蒋步星 来源:数据蒋堂 本文共1100字,建议阅读8分钟. 关注BI系统数据源有关的后台功能点. 用户在选购BI解决方案的时候,常常会更关注界面环节的功能指标,比如美观性.操作的流畅性.移动端支 ...
最新文章
- 《WCF揭秘》:欢迎大家来找我的茬!
- SRM 397(1-250pt)
- 利用ASP.NET生成静态页面
- JS 获取浏览器信息,给出友情提示,避免部分兼容性问题
- 1405 奶牛的旅行
- 用友NC6.5 ,NC6.33,NC 6.3最新补丁下载
- 8大常用数据库管理系统简介
- 中国全国行政代码、邮政编码、区号、名称、简称、经纬度 数据库
- LVDS通信接口详细介绍
- 电子书CHM格式转换为PDF文件(转)
- git rebase 理解
- DRG/DIP分组器HIS、电子病历、病案等系统调用接口说明,支持java c#等多种语言,有c#代码参考
- 在matlab中建模基准地形和山峰
- vue常用的时间、手机号等的格式化方法
- 学生表 成绩表 课程表 教师表
- ubuntu16.04 安装VScode
- 我国首个纯太阳能无人机首飞成功!飞行高度可达2万米,相当于一颗“伪卫星”...
- 谈谈用例模型的那些事儿 之 注意什么
- ultraiso刻录系统盘,总是提示:空间不够
- eclipse项目中的.project文件