阿里天池大赛koubeiyuce1
2017年二月份,天池大数据比赛,口碑商家客流量预测,参赛地址及详情:
https://tianchi.shuju.aliyun.com/competition/introduction.htm?spm=5176.100066.333.4.WhLsGZ&raceId=231591

1、首先下载数据集,数据集中包含丰富的商家信息。项目的主要目的是根据每个商以往的使用支付宝的消费次数(客流量),预测未来30天使用支付宝消费的次数(客流量)。所以第一步我打算提取数据集中的商家ID(1-2000家)作为文件的名字,提取每个商家的日期信息作为csv文件的内容,生成的所有文件(2000个csv文件)放在一个文件夹下。使用python:

#-*-coding:utf-8-*-
"""
将user_pay.csv按照日期分割为多份**.csv文件,放在'/data/date/'目录下。
生成的**.csv文件内容格式是:消费日期(2000家shop,2015-07-01到2016.10.31)"""
import string
import csv
import os
#记录已经存在的date.csv
date_dictionary = {}#将words写入date.csv文件最后一行,文件打开采用'a'模式,即在原文件后添加(add)
#os.chdir() 方法用于改变当前工作目录到指定的路径
def writeByDate(date,words):#date是Ids的str格式,代表商家IDfile_name=date+".csv"os.chdir('../dataprocess/ID/')if not date_dictionary.has_key(date):date_dictionary[date] = Truef = open(file_name,'a')write = csv.writer(f)#write.writerow(['time','counts'])write.writerow(words)f.close()else:f = open(file_name,'a')write = csv.writer(f)write.writerow(words)f.close()os.chdir('../../dataprocess/')#主函数
def splitByDate():#os.mkdir('../data/date')f = open("user_pay.csv")#user_pay.csv为下载的数据源rows = csv.reader(f)rows.next()for row in rows:datereal = row[-1].split(" ")[0]#hour = row[-1].split(" ")[1]words = [datereal]#word = row[-1].split(" ")[0]#words = ''.join(word)Ids = row[1:2]date = ''.join(Ids)#将list类型转换为str类型,文件名字,会生成Ids.csv,两千个此种格式文件#print Ids,type(Ids),Idsstr,type(Idsstr)#words.append(datereal)#append()方法向列表的尾部添加一个新的元素,只接受一个参数writeByDate(date,words)print "finished"splitByDate()

代码亲测可用,生成两千个csv文件,以供下一步的处理。
下一步会遍历文件夹下的2000个csv文件,按照消费时间统计每个商家ID下的每天的消费次数(即客流量),并按照消费日期排序,生成此种格式:
消费日期 消费次数(客流量)
2015-05-01 156
2015-05-02 189
2015-05-03 173
(我随便写的数,意思是生成这种格式)
(第一次在CSDN上写博客,记录以后的学习情况和学习内容)


阿里天池大数据竞赛——口碑商家客流量预测 A1相关推荐

  1. 阿里天池大数据竞赛——口碑商家客流量预测 A2

    阿里天池大赛koubeiyuce1 2017年二月份,天池大数据比赛,口碑商家客流量预测,参赛地址及详情: https://tianchi.shuju.aliyun.com/competition/i ...

  2. 9个比赛7进top10,阿里天池大数据竞赛思路分享

    向AI转型的程序员都关注了这个号

  3. 阿里天池大数据竞赛第一名,如何用AI检测肺癌

    向AI转型的程序员都关注了这个号

  4. 阿里天池大数据竞赛(一)用ODPS提取特征

    //2015年4月30日 提取特征之所以难,是因为我们写出的sql语句往往只能提取一个特征. 而在ODPS上却不一样,一条语句可以提取很多特征. 如提取最近1.2.3.4天四种行为的数量 重点是dec ...

  5. 机器学习----------口碑商家客流量预测(天池大赛案例)学习心得

    天池大赛: IJCAI-17 口碑商家客流量预测 https://tianchi.aliyun.com/competition/entrance/231591/introduction 大赛第一名: ...

  6. 天池 IJCAI17《口碑商家客流量预测》回顾

    2017天池口碑商家客流量预测 队伍名:卡文尼尔 第一赛季排名:191 第二赛季排名:168 成绩:0.0824 github:https://github.com/liangyaorong/Tian ...

  7. 阿里巴巴天池大数据竞赛黄金联赛全面开战,全球同步报名,只为寻找最聪明的你!...

    阿里巴巴天池大数据竞赛黄金联赛全面开战,全球同步报名,只为寻找最聪明的你!          天池大数据竞赛是由阿里巴巴集团主办,面向全球新生代力量的高端算法竞赛.通过开放海量数据和"天池& ...

  8. 【TIANCHI】天池大数据竞赛(学习赛)--- 淘宝用户购物行为数据可视化分析

    目录 前言 一.数据集的来源和各个字段的意义 二.数据分析 1.引入库 2.读入数据 3.查看数据数量级 4.PV(Page View)/UV访问量 5.漏斗模型 6.用户购买商品的频次分析. 7.A ...

  9. AI比赛-NER:“万创杯”中医药天池大数据竞赛——中药说明书实体识别挑战

    大赛概况 疫情催化下,人工智能正在持续助力中医药传承创新加速发展,其中中医用药知识体系沉淀挖掘是一个基础工作.通过挖掘中药说明书构建中药合理用药的知识图谱,将为中医规范诊疗奠定较好基础.挑战旨在通过抽 ...

  10. [IJCAI-17 口碑商家客流量预测]

    IJCAI-17 口碑商家客流量预测               第 1 赛季截止日期        2017/03/14 赛制介绍 重要时间 2月8日 08:00: 评测启动 3月7日 10:00: ...

最新文章

  1. Dockerfile镜像优化方案指引
  2. cisco 路由器监控路由连通性_Cisco-路由器配置DHCP小实验
  3. 【数学与算法】牛顿法的两种应用:求根和最优化
  4. 用什么来代替switch_一根转动的圆筒能有什么用?可以用它来代替机翼、船帆
  5. 怎么只选中一部分_关于Excel中数据隐藏的技巧,你真的会吗?看看高手都是怎么操作的!...
  6. win2003的IIS無法使用,又一次安裝提示找不到iisadmin.mfl文件
  7. CSS3属性之——filter
  8. 在计算机上收回光驱快捷键,如何使用Windows键盘快捷键打开光盘驱动器
  9. 第六天,字典Dictionary
  10. linux select 进程id,Linux基础命令---显示进程ps
  11. 虹软安卓人脸识别初学
  12. 有一次面一非常想去的 飞鸽传书绿色版 公司
  13. 删除 setup.py 安装的 Python 软件包
  14. 【干货】31篇关于深度学习必读论文汇总(附论文下载地址)
  15. lua游戏脚本实例源码_Redis Lua脚本中学教程(上)
  16. ofdm原理_5G进行时|5G NR物理层详解:原理、模型和组件
  17. 信源编码程序设计实验C语言实现,霍夫曼信源编码实验报告.docx
  18. 写给XJTU计算机系大一大二的童鞋
  19. Vbox中Ubuntu和win7主机文件共享
  20. 关于 Android 中 TabLayout 下划线适配文字长度解析(附清晰详细的源码解析)

热门文章

  1. 小旋风万能蜘蛛池 小霸王蜘蛛池快速收录源码
  2. iframe 的基本用法
  3. C-V2X行业现状、产业化部署与演进路线
  4. 兴趣 程序猿宅必备超级好看的动漫
  5. 计算机硬盘应该什么格式化,硬盘应该格式化成哪种格式为好?
  6. 有哪些常用的虚拟主机管理系统
  7. 《淘宝技术这十年》读书笔记 (一).淘宝网技术简介及来源
  8. oracle静默安装报错,Oracle静默安装说明
  9. 重置win10 恢复原厂设置
  10. 卡巴斯基半年激活码免费申请