//2015年4月30日

提取特征之所以难,是因为我们写出的sql语句往往只能提取一个特征。

而在ODPS上却不一样,一条语句可以提取很多特征。

如提取最近1、2、3、4天四种行为的数量

重点是decode函数,具体用法详见ODPS-sql文档

<span style="white-space:pre">      </span>int days[]={0,-1,-2,-3};String sql="create table if not exists  user_set1 as select user_id";featurenum=0;for(int i=1;i<5;i++){for(int j:days){String date2=processdate(date, j);sql+=",\t sum(decode(behavior_type="+i+" and mydate=\""+date2+"\",true,1,0)) as feature"+featurenum++ +"\t";}sql+=",\t sum(decode(behavior_type="+i+" and mydate<=\""+date+"\" and mydate>\""+processdate(date, -4)+"\",true,1,0)) as feature"+featurenum++ +"\t";sql+=",\t sum(decode(behavior_type="+i+" and mydate<=\""+date+"\" and mydate>\""+processdate(date, -7)+"\",true,1,0)) as feature"+featurenum++ +"\t";sql+=",\t sum(decode(behavior_type="+i+" and mydate<=\""+date+"\" and mydate>\""+processdate(date, -14)+"\",true,1,0)) as feature"+featurenum++ +"\t";sql+=",\t sum(decode(behavior_type="+i+" and mydate<=\""+date+"\",true,1,0)) as feature"+featurenum++ +"\t";}sql+="from "+table+" where mydate<= \""+date+"\" group by user_id;";

阿里天池大数据竞赛(一)用ODPS提取特征相关推荐

  1. 阿里天池大数据竞赛——口碑商家客流量预测 A2

    阿里天池大赛koubeiyuce1 2017年二月份,天池大数据比赛,口碑商家客流量预测,参赛地址及详情: https://tianchi.shuju.aliyun.com/competition/i ...

  2. 9个比赛7进top10,阿里天池大数据竞赛思路分享

    向AI转型的程序员都关注了这个号

  3. 阿里天池大数据竞赛第一名,如何用AI检测肺癌

    向AI转型的程序员都关注了这个号

  4. 阿里巴巴天池大数据竞赛黄金联赛全面开战,全球同步报名,只为寻找最聪明的你!...

    阿里巴巴天池大数据竞赛黄金联赛全面开战,全球同步报名,只为寻找最聪明的你!          天池大数据竞赛是由阿里巴巴集团主办,面向全球新生代力量的高端算法竞赛.通过开放海量数据和"天池& ...

  5. AI比赛-NER:“万创杯”中医药天池大数据竞赛——中药说明书实体识别挑战

    大赛概况 疫情催化下,人工智能正在持续助力中医药传承创新加速发展,其中中医用药知识体系沉淀挖掘是一个基础工作.通过挖掘中药说明书构建中药合理用药的知识图谱,将为中医规范诊疗奠定较好基础.挑战旨在通过抽 ...

  6. 【TIANCHI】天池大数据竞赛(学习赛)--- 淘宝用户购物行为数据可视化分析

    目录 前言 一.数据集的来源和各个字段的意义 二.数据分析 1.引入库 2.读入数据 3.查看数据数量级 4.PV(Page View)/UV访问量 5.漏斗模型 6.用户购买商品的频次分析. 7.A ...

  7. 天池大数据竞赛第一名,上海交通大学人工智能实验室如何用AI定位肺结节

    癌症,犹如黑暗中的魔鬼,带给人们恐惧与绝望.而肺癌,在我国作为发病率.死亡率最高的一类癌症,伤害着无数家庭.在我国每年都有近60万人死于肺癌.然而,癌症的死亡率与首次发现癌症的时期紧密相关,早期肺结节 ...

  8. 阿里天池大数据之移动推荐算法大赛总结及代码全公布

    移动推荐算法比赛已经结束了一个多星期了,现在写一篇文章来回顾一下自己的参赛历程. 首先,对不了解这个比赛的同学们介绍一下这个比赛(引用自官网): 赛题简介 2014年是阿里巴巴集团移动电商业务快速发展 ...

  9. 利用hive完成阿里天池大数据音乐预测比赛数据处理工作

    hive shell 创建外表,指定目录 CREATE EXTERNAL TABLE IF NOT EXISTS songs2 ( sid string, aid string, ptime stri ...

最新文章

  1. Python实现线程池
  2. BNUOJ 4064 条形码设计 (动态规划 + 递推)
  3. superset可视化-deck.gl Scatterplot与MapBox
  4. python caffe 训练自己的模型_python接口调用已训练好的caffe模型测试分类方法
  5. 实验3 --俄罗斯方块 with 20135335郝爽
  6. c# mysql 操作_c#对mysql数据库的基本操作
  7. 借助neo4j-admin导入csv文件构建实体与联系
  8. dsp 正弦波信号发生器matlab程序,基于Matlab/DSP Builder多波形信号发生器的设计
  9. oracle11 分配表权限,Oracle11g权限--角色
  10. hadoop中遇到的问题
  11. Django中文无法转换成latin-1编码的解决方案
  12. 最火大厂面试题、面试技巧汇总及简历编写(附简历模版下载)
  13. C语言 逻辑运算符及其优先级
  14. bzoj 1864 三色二叉树
  15. signature=3e113c2e337ada93de6227c65daceed1,Informed Consent: It Is More Than Just a Document
  16. 学法减分拍照识题小程序开发
  17. 是面试官放水,还是实在公司太缺人?这都没挂,阿里巴巴原来这么容易进...
  18. hybrid a* 和dwa 结合(自动泊车,倒车入库)
  19. 使用Optional类来消除代码中的null检查
  20. python的字符串、列表、元组、字典、集合

热门文章

  1. 教你彻底卸载MySQL 并重装(保姆级教程 )
  2. 产品经理之需求管理(非原创)
  3. 如何访问云服务器的共享文件,怎么访问云服务器的共享文件夹
  4. 光明行动:共同呵护好孩子的眼睛——广西实施光明行动实地考察调研综述
  5. Java程序员月薪达到三万,需要技术水平达到什么程度?(转)
  6. Python---统计《三国演义》中出现次数较高的人物
  7. 来吧 带你玩转 Excel VBA
  8. linux nvme固态硬盘,Linux PCIe SSD NVME 性能调优篇
  9. 程序员的三大优良品质:偷懒,没有耐性和骄傲自大。
  10. 如何区分m的属性_测试属性#5 –区分