时序数据与Embedding

在最近查看腾讯赛赛题介绍的时候突然发现赛题有点熟悉,进而在看渔佬对今年腾讯赛分享,以及大白对DCIC海洋赛的比赛总结时,思路逐渐清晰:所有的时序序列都可以用Embedding的操作。

本文将以几个历史比赛案例(按照参赛的时间排序),讲解时序数据与Embedding的应用场景。文章末尾将介绍与腾讯赛相似的几个历史赛题。

01 蛋白质序列

第一次在非典型NLP领域看到Embedding是在“基于人工智能的药物分子筛选”比赛中,这个比赛任务是根据蛋白质序列来预测蛋白质和小分子之间的亲和力数值。

这个开源还是小伍哥的开源,使用蛋白质序列训练一个词向量,然后使用LightGBM进行训练。小伍哥在2年前都这么帅了,赞!

texts = [[word for word in re.findall(r'.{3}',document)] for document in list(protein_concat['Sequence'])]model = Word2Vec(texts,size=n,window=4,min_count=1,negative=3,sg=1,sample=0.001,hs=1,workers=4)

这是一个两年前的比赛,当然Top获奖方案还是需要使用一些领域知识。所以在没有领域知识的情况下或许无脑Embedding是一个不错的选择。

小伍哥的分享:

https://www.pkbigdata.com/common/bbs/topicDetails.html?tid=1025

B榜第三名的分享:

https://www.pkbigdata.com/common/bbs/topicDetails.html?tid=1377

02 病毒序列

第二次在非典型NLP比赛中看到Embedding是在“第三届阿里云安全赛”中,这个比赛任务是需要根据程序的API序列进行分类。

这场比赛我参加过,也因此在线下赛认识了大白。安全赛中也是不同的病毒API是一个单词,执行序列组成一个样本。

但是在这个比赛中,由于API个数比较少,所以Embedding反而没有TF-IDF有效。当然在stacking阶段,Embedding也是有提升的。

03 船舶序列

最近一次是在最近结束的DCIC海洋赛中看到了Embedding,这也是一个非典型的NLP比赛,赛题任务需要根据渔船的运动轨迹进行行为分类。

这场比赛大白也参加了,每个渔船id的速度、经纬度看做是一个序列信息,利用速度、经纬度的分位数统计量,将浮点特征分桶转成一个类型特征。

使用深度学习的word2vec的CBOW算法无监督训练,获取经纬度(x-y)和速度(speed)的类型向量,每个渔船id的经纬度和速度向量取平均作为特征,这个思路和Fasttext比较类似。

大白的分享:

【时序多分类赛题】2020数字中国创新大赛-智慧海洋建设top5方案(含源码)

04 APP序列

最近一次是在易观用户性别年龄预测比赛中遇到,这也是一个非典型的NLP比赛,赛题任务需要根据用户手机APP使用序列来对用户的年龄和性别进行分类。

在易观这场比赛中,chizhu获得了冠军,我是亚军。这场比赛的核心也是APP序列建模,使用Embedding构建特征。

chizhu在易观的分享:

https://github.com/chizhu/yiguan_sex_age_predict_1st_solution

看到这里,有没有发现本次腾讯赛的赛题也是这个路子。大赛的题目尝试从另一个方向来验证这个假设,即以用户在广告系统中的交互行为作为输入来预测用户的人口统计学属性。

如果你参加了本次腾讯赛,chizhu 的分享可以参考。Coggle数据科学也会持续关注,大家一起学起来~

往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑AI基础下载(pdf更新到25集)机器学习的数学基础专辑本站qq群1003271085,加入微信群请回复“加群”获取一折本站知识星球优惠券,复制链接直接打开:https://t.zsxq.com/yFQV7am喜欢文章,点个在看

Kaggle知识点:时序数据与Embedding相关推荐

  1. Kaggle知识点:数据扩增方法

    在Kaggle视觉竞赛中,数据扩增(Data Augmentation)是不可少的环节.数据扩增可以增加训练集的样本,同时也可以有效环节模型过拟合的情况,也可以给模型带来的更强的泛化能力.本文将全面介 ...

  2. 【数据竞赛】Kaggle知识点:树模型特征Embedding

    在对数据进行编码的过程中,经常会遇到一些非结构化的字段(如列表.文本),或者高维稀疏的字段. 在使用树模型的过程中,上述字段对树模型很不友好,会增加树模型的训练时间,一般情况需要通过人工特征提取,然后 ...

  3. 【数据竞赛】Kaggle知识点:入门到进阶的10个问题

    Kaggle知识点 在我们之前的分享中我们大多以具体的竞赛案例,如某个竞赛的Top解决方案来讲解具体的比赛.那么是不是有更好的学习方法呢? 答案是肯定有,大部分Kaggle赛题都是相通或者类似的,还有 ...

  4. Kaggle知识点:数据分析思路与工具(EDA)

    Kaggle知识点 数据分析 在现有数据竞赛和数据领域中数据分析是重要组成部分,且数据分析与具体的业务背景和业务逻辑联系紧密.数据分析是发现数据规律的有效方法,也是验证思路的有效方法. 本文将以Kag ...

  5. 【竞赛相关】Kaggle知识点:入门到进阶的10个问题

    Kaggle知识点 在我们之前的分享中我们大多以具体的竞赛案例,如某个竞赛的Top解决方案来讲解具体的比赛.那么是不是有更好的学习方法呢? 答案是肯定有,大部分Kaggle赛题都是相通或者类似的,还有 ...

  6. Kaggle知识点:数据分析EDA

    Kaggle知识点 数据分析 在现有数据竞赛和数据领域中数据分析是重要组成部分,且数据分析与具体的业务背景和业务逻辑联系紧密.数据分析是发现数据规律的有效方法,也是验证思路的有效方法. 本文将以Kag ...

  7. Thingsboard 时序数据和属性数据

    Thingboard id之谜 thingboard使用cassandra-java提供的jar包生成带"-"的uuid: 存储到pg的id是去掉"-"(转换类 ...

  8. kaggle 猫狗数据标签_动手变形金刚(Kaggle Google QUEST问题与解答标签)。

    kaggle 猫狗数据标签 This is a 3 part series where we will be going through Transformers, BERT, and a hands ...

  9. 时序数据预测:ROCKET vs Time Series Forest vs TCN vs XGBoost

    机器学习小项目:从NIFTY指数的当日股价预测股票收盘价格,对比各种模型在时序数据预测的效果 如果你像我一样涉足股票交易,你可能想知道如何在收盘时判断股票的走势--它会在收盘价上方收盘,还是不会?因为 ...

最新文章

  1. python计算一元一次方程的根_5-2 一元二次方程
  2. Django入门-项目创建与初识子应用
  3. 转:Delphi 函数大全
  4. 智能家居简单实现---使用ESP8266简单实现和APP通讯
  5. 服创大赛第二次讨论_2019-01-19
  6. python常用小技巧_Python 实用技巧
  7. 举例说明在SQL中,DELETE语句与DROP TABLE的区别
  8. 《电脑商情报》国内信号最强,有效距离最远的四种无线网卡
  9. 用代码实现windows10下的虚拟桌面创建功能
  10. 计算机右侧不显示桌面,显示器右边显示不出来怎么办
  11. Spring warmth
  12. Ext.Window
  13. 系统集成项目管理工程师2021年下半年下午案例分析题及答案
  14. 应用提交 App Store 上架被拒的原因都有哪些
  15. SPSS多元线性回归结果分析
  16. 回文是指正读反读均相同的字符序列;如“abba”和“abdba”均是回文,但“good”不是回文。试写一个算法判定给定的字符序列是否是回文。
  17. 调用android手机分享
  18. C++中的常函数与常对象
  19. C语言实现计算IPV6的subnet_id
  20. MATLAB 使用PLS建模并预测

热门文章

  1. Flyweight Pattern简单随笔
  2. Design Pattern – Separated Interface Pattern[转]
  3. datalength,求字符串的字节数
  4. leetcode 861. 翻转矩阵后的得分
  5. PHP使用GD库封装验证码类
  6. Python之实现一个简易计算器
  7. Android软件开发需要学什么
  8. 在SQL 语句批量替换数据库字符串的方法
  9. 进入软件开发行业必须要掌握的基础知识(2005-5-18)
  10. mysql ptquerydigest_MySQL - pt-query-digest的下载与使用