阿里天池大数据竞赛——口碑商家客流量预测 A1
阿里天池大赛koubeiyuce1
2017年二月份,天池大数据比赛,口碑商家客流量预测,参赛地址及详情:
https://tianchi.shuju.aliyun.com/competition/introduction.htm?spm=5176.100066.333.4.WhLsGZ&raceId=231591
1、首先下载数据集,数据集中包含丰富的商家信息。项目的主要目的是根据每个商以往的使用支付宝的消费次数(客流量),预测未来30天使用支付宝消费的次数(客流量)。所以第一步我打算提取数据集中的商家ID(1-2000家)作为文件的名字,提取每个商家的日期信息作为csv文件的内容,生成的所有文件(2000个csv文件)放在一个文件夹下。使用python:
#-*-coding:utf-8-*-
"""
将user_pay.csv按照日期分割为多份**.csv文件,放在'/data/date/'目录下。
生成的**.csv文件内容格式是:消费日期(2000家shop,2015-07-01到2016.10.31)"""
import string
import csv
import os
#记录已经存在的date.csv
date_dictionary = {}#将words写入date.csv文件最后一行,文件打开采用'a'模式,即在原文件后添加(add)
#os.chdir() 方法用于改变当前工作目录到指定的路径
def writeByDate(date,words):#date是Ids的str格式,代表商家IDfile_name=date+".csv"os.chdir('../dataprocess/ID/')if not date_dictionary.has_key(date):date_dictionary[date] = Truef = open(file_name,'a')write = csv.writer(f)#write.writerow(['time','counts'])write.writerow(words)f.close()else:f = open(file_name,'a')write = csv.writer(f)write.writerow(words)f.close()os.chdir('../../dataprocess/')#主函数
def splitByDate():#os.mkdir('../data/date')f = open("user_pay.csv")#user_pay.csv为下载的数据源rows = csv.reader(f)rows.next()for row in rows:datereal = row[-1].split(" ")[0]#hour = row[-1].split(" ")[1]words = [datereal]#word = row[-1].split(" ")[0]#words = ''.join(word)Ids = row[1:2]date = ''.join(Ids)#将list类型转换为str类型,文件名字,会生成Ids.csv,两千个此种格式文件#print Ids,type(Ids),Idsstr,type(Idsstr)#words.append(datereal)#append()方法向列表的尾部添加一个新的元素,只接受一个参数writeByDate(date,words)print "finished"splitByDate()
代码亲测可用,生成两千个csv文件,以供下一步的处理。
下一步会遍历文件夹下的2000个csv文件,按照消费时间统计每个商家ID下的每天的消费次数(即客流量),并按照消费日期排序,生成此种格式:
消费日期 消费次数(客流量)
2015-05-01 156
2015-05-02 189
2015-05-03 173
(我随便写的数,意思是生成这种格式)
(第一次在CSDN上写博客,记录以后的学习情况和学习内容)
阿里天池大数据竞赛——口碑商家客流量预测 A1相关推荐
- 阿里天池大数据竞赛——口碑商家客流量预测 A2
阿里天池大赛koubeiyuce1 2017年二月份,天池大数据比赛,口碑商家客流量预测,参赛地址及详情: https://tianchi.shuju.aliyun.com/competition/i ...
- 9个比赛7进top10,阿里天池大数据竞赛思路分享
向AI转型的程序员都关注了这个号
- 阿里天池大数据竞赛第一名,如何用AI检测肺癌
向AI转型的程序员都关注了这个号
- 阿里天池大数据竞赛(一)用ODPS提取特征
//2015年4月30日 提取特征之所以难,是因为我们写出的sql语句往往只能提取一个特征. 而在ODPS上却不一样,一条语句可以提取很多特征. 如提取最近1.2.3.4天四种行为的数量 重点是dec ...
- 机器学习----------口碑商家客流量预测(天池大赛案例)学习心得
天池大赛: IJCAI-17 口碑商家客流量预测 https://tianchi.aliyun.com/competition/entrance/231591/introduction 大赛第一名: ...
- 天池 IJCAI17《口碑商家客流量预测》回顾
2017天池口碑商家客流量预测 队伍名:卡文尼尔 第一赛季排名:191 第二赛季排名:168 成绩:0.0824 github:https://github.com/liangyaorong/Tian ...
- 阿里巴巴天池大数据竞赛黄金联赛全面开战,全球同步报名,只为寻找最聪明的你!...
阿里巴巴天池大数据竞赛黄金联赛全面开战,全球同步报名,只为寻找最聪明的你! 天池大数据竞赛是由阿里巴巴集团主办,面向全球新生代力量的高端算法竞赛.通过开放海量数据和"天池& ...
- 【TIANCHI】天池大数据竞赛(学习赛)--- 淘宝用户购物行为数据可视化分析
目录 前言 一.数据集的来源和各个字段的意义 二.数据分析 1.引入库 2.读入数据 3.查看数据数量级 4.PV(Page View)/UV访问量 5.漏斗模型 6.用户购买商品的频次分析. 7.A ...
- AI比赛-NER:“万创杯”中医药天池大数据竞赛——中药说明书实体识别挑战
大赛概况 疫情催化下,人工智能正在持续助力中医药传承创新加速发展,其中中医用药知识体系沉淀挖掘是一个基础工作.通过挖掘中药说明书构建中药合理用药的知识图谱,将为中医规范诊疗奠定较好基础.挑战旨在通过抽 ...
- [IJCAI-17 口碑商家客流量预测]
IJCAI-17 口碑商家客流量预测 第 1 赛季截止日期 2017/03/14 赛制介绍 重要时间 2月8日 08:00: 评测启动 3月7日 10:00: ...
最新文章
- Dockerfile镜像优化方案指引
- cisco 路由器监控路由连通性_Cisco-路由器配置DHCP小实验
- 【数学与算法】牛顿法的两种应用:求根和最优化
- 用什么来代替switch_一根转动的圆筒能有什么用?可以用它来代替机翼、船帆
- 怎么只选中一部分_关于Excel中数据隐藏的技巧,你真的会吗?看看高手都是怎么操作的!...
- win2003的IIS無法使用,又一次安裝提示找不到iisadmin.mfl文件
- CSS3属性之——filter
- 在计算机上收回光驱快捷键,如何使用Windows键盘快捷键打开光盘驱动器
- 第六天,字典Dictionary
- linux select 进程id,Linux基础命令---显示进程ps
- 虹软安卓人脸识别初学
- 有一次面一非常想去的 飞鸽传书绿色版 公司
- 删除 setup.py 安装的 Python 软件包
- 【干货】31篇关于深度学习必读论文汇总(附论文下载地址)
- lua游戏脚本实例源码_Redis Lua脚本中学教程(上)
- ofdm原理_5G进行时|5G NR物理层详解:原理、模型和组件
- 信源编码程序设计实验C语言实现,霍夫曼信源编码实验报告.docx
- 写给XJTU计算机系大一大二的童鞋
- Vbox中Ubuntu和win7主机文件共享
- 关于 Android 中 TabLayout 下划线适配文字长度解析(附清晰详细的源码解析)