量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者,荣获2021年度AMMA优秀品牌力、优秀洞察力大奖,连续2年被腾讯云+社区评选为“年度最佳作者”。

近日,第三期湾区数据沙龙“跨境数据新趋势,量化投资应用与合规”成功举办。该研讨会由深圳数据交易公司(简称“深数交”)牵头主办,数库(上海)科技有限公司(简称“数库科技”)承办,旨在从量化投资视角入手,共同探讨跨境数据带来的机遇及挑战,以更好地提升跨境数据要素流通,打造国际化数据开放合规市场。

量化投资与机器学习公众号作为邀请媒体对活动内容进行梳理报道,以下是白鹭资管投资总监张晨樱在第三期湾区数据沙龙上进行的主题分享报道。

白鹭资管投资总监张晨樱

前言

近年来,随着大数据的普遍运用和计算机性能的日新月异,另类数据在量化分析中的运用逐渐成为可能。

另类数据通常具备实时性高、数据量大、“原始”等特点,往往能提供和传统数据不一样的信息来源,从而产生同质化较低的策略,近年来另类数据的供应商个数和使用人数都有了大幅度的增加。

什么是另类数据

另类数据是个相对概念。我们往往把那些广为人知、格式统一、相对易于获得、已经在投资领域获得广泛运用的数据叫做传统数据(traditional data),比如价量、trade order、基本面财报数据等。相对应的其他数据就统称为另类数据。

通常来说,另类数据主要包含以下四种:个人产生的数据、由业务流程产生的数据、传感器产生的数据和第三方数据。

现在国内常用主要是业务流程数据和第三方数据,如:

  • 供应链数据、公司专利数据

  • 舆情数据

  • 电商数据、产能数据

  • 公司招聘数据

  • ESG数据(公司在环保、社会责任、公司治理等方面的打分)

和传统数据相比,另类数据主要有两个特征,最直接的特点是数据来源不同,在这个维度上等同于新的Alpha;第二点是另类数据的格式和处理方式往往非标准化,甚至难以被量化。也就是“New, Raw, and Unprocessed”。

这点在QIML之前的报道中张晨樱也提到过:

白鹭目前有专门的数据处理团队,日常也在不断挖掘、了解和引入市场上新兴的各类数据源。在这些不同信息的基础上制定出各类相关性较低的交易策略,达到互补效果。

  • 在算法层面,白鹭会复现并优化深度学习领域中的创新算法,通过分布式集群提供的强大算力,来挖掘因子之间潜在的关联,并将不同的深度学习模型集成为少数个强有力的预测信号。

  • 在另类数据的应用方面,白鹭将图神经网络应用到知识图谱等结构类数据上,来深入学习个股之间的关联。在文本类数据中,也可以应用NLP上的模型来处理海量非标准数据,产生基本面相关的另类因子。

举例来说,现在大家对个股因子挖掘都比较充分了,都转而关注股票之间的关系,这方面最表面的比如说同行业间股票的对比,深层一点的比如说大小票之间的、交易活跃的票和不活跃的票之间的lead-lag关系,或者说产业上下游之间的关系,本质上说都是希望利用某个股票自身信息以外的东西去预测该股票。

利用供应链的数据挖掘股票lead-lag是一个很典型的例子,整个过程中会用到刚才提到的很多种技术,首先供应链数据本身散布在财报、分析师研报、新闻等一系列文本数据中,需要借助NLP的模型去自动化地抓取与整合情感、语义、关联类的信息。整合完数据之后,需要挖掘股票之间的关系并构造对应的知识图谱,其中包括关系的指向方向(单向或者双向)、强弱、动态变化等等,进一步去研究影响这些关系的因素,以及如何利用股票间关系预测个股收益,这时候图神经网络就是个很适合的工具。但图神经网络的效果会受限于知识图谱的有效性,同时在训练中也有着更多的参数要调整优化。

另类数据是一个不断变化的概念,比如分析师预测、分析师调研、券商金股之前也属于另类数据,但随着数据供应商对这类数据的标准化的处理和发布,这些数据的使用门槛降低,现在它们会被认为是传统数据类。

此外随着处理方式的改变和进化,传统数据也可能转化为另类数据。举例来说,财报数据被认为是传统数据。但是不断有论文证明,使用文本分析进一步解读财报,或关注常被忽视的脚注,都能带来Marginal Alpha。这一类就会被认为是另类数据。

另类数据本质上是在投资线索上追求极致的量化理念,某种程度上可视为投资方法论上的进化。

另类数据的运用

另类数据在投资领域的运用已经非常广泛,目前主要分为两块:一块是直接预测公司未来的盈利以及股价,另外一块是去寻找公司之间的潜在联系,进一步转化成一些lead-lag相关的策略。

在预测公司未来盈利或股价方面,包括用文本分析去解读财报、研报,对个股表现做判断,或者通过新闻、搜索量、点击率等分析判断个股或指数的关注度和情绪高低;也包括用信用卡、电商消费数据、消费者足迹等相关数据去预测公司的营业收入。Man Group近期的研究发现,Google在新冠期间的搜索数据对细分行业趋势有不错的预测作用,并且有一些反直觉的结论。

在寻找公司之间的潜在关系方面,主体思想是相关公司间的股价会互相传导,例如龙头股的上涨和下跌有时候能引领同行业内的其他股票。其中,产业链和供应链方面的另类数据、其他知识图谱相关的信息都有广阔的运用空间。比如一个公司的客户和供应商的returns都可能预测该公司的股票回报率;再比如公司常住地数据会运用在债券投资上,一家企业违约时,所有当地的发债企业评级往往会同步下调;在同一领域享有共同IP的公司,即使不属于同一细分行业,彼此都可能互相影响股价。

不仅公司之间的关联值得研究,个人之间的关联也会影响他们的投资行为,从而影响资本市场定价,社交网络数据的应用就是很好的例子。

另类数据的挑战与机遇

我们希望另类数据可以提供传统数据之外的perspective和marginal的贡献。在使用上,以下两方面的问题要重点考虑:

1、在处理技术上是否有足够的知识储备,如何防止过拟合;

2、是否对数据的适用范围有足够的了解和把握。

首先,也是最重要的一点,处理和量化另类数据往往需要借助机器学习或者更复杂的技术,但这类数据由于天然限制、历史时间不长。高技术要求和有限的历史数据,很容易导致过拟合。以利用供应链的数据为例,整个过程中会用到很多种机器学习技术,如需要借助NLP的模型在财报等文本数据中抓取整合,整合后要用图神经网络挖掘股票之间的关系并构造对应的知识图谱,但图神经网络的效果受限于知识图谱的有效性,在训练中也有着更多的参数要调整优化。要确保某个数据真的有效而不是样本内拟合,需要有另类数据和处理技术这两方面的理解和经验,这其实是提高了对人才的要求。

此外,另类数据通常只覆盖市场的某个方面,例如某些另类数据只能覆盖一部分股票,或者只能在某些事件发生的时间范围内给出相关信号。数据覆盖度不足会降低横截面和时序上的可比性,给量化使用带来挑战。

综合而言,开拓新的另类数据需要投入极大的人力和时间成本,而第三方数据虽然性价比更高,但其作为“另类数据”的意义却可能因为公开而迅速减弱。这是个两难的选择。

另一方面,这些“问题”同时也是机遇。在基本面和价量类等传统数据运用上,量化已经可以和主观投资者分庭抗礼;而另类数据领域以前在量化投资触及范围之外,近年来随着科技进步,量化正在逐步渗透,甚至可能在细分领域占得优势。另外,因为认知和技术上的难度,在这块深耕的量化机构有机会获得附带一定壁垒的、更独特更宝贵的Alpha。虽然短期内投入产出比可能有限,但长期看来意义重大。

相信随着技术的提高,另类数据的使用将会向我们展示一个更复杂、更真实、更接近本质的世界,我们也将和所有量化投资者一起持续探索。

白鹭张晨樱:认知的边界,另类的独特相关推荐

  1. 清华2020计算机系张晨,本科三篇顶会一作、超算竞赛冠军,2020清华本科特奖结果出炉...

    原标题:本科三篇顶会一作.超算竞赛冠军,2020清华本科特奖结果出炉 在今年的清华本科生特奖候选人中,来自电子系的刘泓 ICML.CVPR.NeurIPS 三篇顶会一作的成绩十分亮眼,此外,来自姚班的 ...

  2. 第一财经专访张晨:图技术赋能金融领域进入全新阶段

    2023世界人工智能大会期间,创邻科技创始人兼CEO张晨博士受邀走进第一财经的演播室,围绕人工智能技术和图技术在金融行业的赋能展开讨论,为线上数万名观众分享精彩前沿观点. 现场直击 AI赋能金融 大模 ...

  3. 清华大学计算机系71班张晨,“神仙打架”要来了!网友:又到了凡人围观的时刻...

    毛烁源 车辆学院 星星之火,可以燎原 男,汽71班,前三年推研成绩年级1/42,入选"星火计划"第十三期,获四项专利授权证书(两项为第一发明人).曾任汽71班学习委员,现任行健书院 ...

  4. 清华2020计算机系张晨,2020清华特奖入围名单公布:电子系学霸两篇顶会一作

    晓查 发自 凹非寺量子位 报道 | 公众号 QbitAI 一年一度,"神仙打架". 据清华小五爷园,2020年清华大学本科生特等奖学金答辩入围名单已经公布,共有15名同学入围. △ ...

  5. 创邻科技张晨:智能物联为图数据库的迅速发展提供了良好应用场景

    12月23-24日,2021数据技术嘉年华(DTC)将通过墨天轮社区线上举办.围绕"智能·创新·新生态--数据智领未来 生态共创价值"这一主题,来自数据领域的领军人物.学术精英.技 ...

  6. 清华2020计算机系张晨,清华公布2020特奖候选人名单!平均21岁,还有一姚班大神...

    原标题:清华公布2020特奖候选人名单!平均21岁,还有一姚班大神 来源:清华大学 编辑:梦佳.卫民 [新智元导读]一年一度的大型神仙打架现场即将开幕.作为清华在校生的最高荣誉,2020清华本科生特奖 ...

  7. 计算机的新兴技术在测绘工程领域的应用,测绘新技术在测绘工程测量中应用的探讨张晨(原稿)...

    <测绘新技术在测绘工程测量中应用的探讨张晨(原稿).doc>由会员分享,可免费在线阅读全文,更多与<测绘新技术在测绘工程测量中应用的探讨张晨(原稿)>相关文档资源请在帮帮文库( ...

  8. 专业企业培训——深圳良师优选张晨讲师简介

    张晨讲师介绍: 中国管理研究院副院长(兼营销所所长.高级研究员) 云南大学高层管理者培训与发展中心特聘教授 中国职业经理人协会培训专业委员会副主任委员 中国培训师联合会副会长 云南培训咨询业联合会会长 ...

  9. 京东前CTO张晨加入携程,任董事长特别助理兼首席架构师

    点击上方"肉眼品世界", 右上角选择"设为星标" 专注个人深度价值成长 来源:http://rrd.me/eDTFr 京东前CTO张晨任董事长特别助理兼首席架构 ...

最新文章

  1. Hibernate查询语言
  2. golang执行linux命令
  3. 子串字谜substring anagrams
  4. 六、乘胜追击,将剩下的Git知识点搞定
  5. iOS开发UI篇—九宫格坐标计算
  6. matlab如何用代码导入文件_20+行Matlab代码实现文件扫描
  7. Android官方技术文档翻译——Gradle 插件用户指南(5)
  8. 【深度学习】论文导读:GoogLeNet模型,Inception结构网络简化(Going deeper with convolutions)
  9. 云计算需要学什么?学习云计算能从事什么岗位?
  10. python设置中文字体_python-docx设置中文字体
  11. linux命令du -sh,du命令_Linux du 命令用法详解:显示每个文件和目录的磁盘使用空间...
  12. NLP自然语言 - jieba分词库
  13. 小米air2se耳机只有一边有声音怎么办_盘点2020半入耳蓝牙耳机排名
  14. 数据挖掘十大算法--PageRank
  15. TinyBERT论文及代码详细解读
  16. 开题报告:基于java闲置物品二手交易跳蚤市场平台 毕业设计论文开题报告模板
  17. 面向鲲鹏和昇腾的创新架构
  18. 电脑为什么会自动关机
  19. Parietal Lobe and Its Function顶叶及其功能
  20. 液压缸压力闭环控制器

热门文章

  1. Macbook pro 加内存
  2. 实现类似路由器那样通过WEB页面配置设备
  3. IP3和P1dB公式推导
  4. 2021/11/18学习笔记:城市建成区的边界
  5. 南阳oj忙命逃窜,bfs
  6. mate20pro更换鸿蒙系统,华为mate20pro更换成mate40如何?
  7. Uniapp 微信小程序@click点击事件失效
  8. 【JVM】JVM01(概述-程序计数器-栈-堆)
  9. [Luogu 3398] 仓鼠找sugar
  10. 书论08 卫夫人《笔阵图》