实在是太忙了,抽空给大家解析一下之前写的YoutubeNet的数据是怎么构造的,协助大家可以自行构造一下。

这边和大家说一下,我没有上传数据的原因有两个:

  • 涉及公司的数据财产,不方便上传
  • 懒得做脱敏处理
  • 数据一共有1300多万条,传输实在不方便

主要数据处理的部分在map_id_idx.py脚本下,其中包含all_item_20180624.txt和click_thirty_day_data_20180609.txt两个数据集合。

其中,all_item_20180624.txt是当日所有的商品集合:包含’Prd_Id’, ‘ItemId’, ‘BrandId’, 'MsortId’和‘GenderId’五列,分别代表着商品id,skuid,低级品牌id,中级品牌id,产品性别,最后形如:

5675    50000055    175    1500    3
2577    50000056    187    66    3
2002    50000057    63    11    2
2007    50000058    137    58    3
2075    50000060    80    50    3
2348    50000061    138    16    2
423    50000062    162    237    3
469    50000063    10    1500    3
1102    50000064    176    11    1
1896    50000066    37    27    1
2489    50000067    27    44    1
...

click_thirty_day_data_20180609.txt为近三十天的用户点击流,包含’UId’, ‘ItemId’, 'clickTime’三列,分别代表着uid、点击的skuid,点击时间,最后形如:

34    51668064    1528602406
34    51890512    1528788389
34    51884724    1528788393
34    51884720    1528788399
34    51884718    1528788414
34    51580974    1528788442
34    51854970    1528788487
34    51514910    1528788499
34    51855000    1528788535
34    51854990    1528788569
34    51854998    1528788572
...

通过map_id_idx.py对所有的商品进行标序号,然后带入用户的点击流中,方便后期做embedding操作,就酱。

欢迎大家关注我的个人bolg,知乎,更多代码内容欢迎follow我的个人Github,如果有任何算法、代码、转行疑问都欢迎通过公众号发消息给我。

YoutubeNet的数据答疑相关推荐

  1. 美团酒旅数据治理实践

    数据已成为很多公司的核心资产,而在数据开发的过程中会引入各种质量.效率.安全等方面的问题,而数据治理就是要不断消除引入的这些问题,保障数据准确.全面和完整,为业务创造价值,同时严格管理数据的权限,避免 ...

  2. 大数据研究,不能“忽悠”

    几个盲人分别摸到了大象的鼻子.耳朵.腿.尾巴和躯体,这张"瞎子摸象"的照片,在"2013中国计算机大会"上出现多次,好几位报告人和讲者,都不约而同地选了这张照片 ...

  3. 大数据与智慧城市建设论坛

    10月31日,第八届中国智慧城大会大数据与智慧城市建设论坛如期举行.本次论坛探讨了当前大数据与智慧城市的关联,论坛围绕大数据基础架构与上层应用的生态系统,解决大规模数据引发的问题,探索大数据基础的解决 ...

  4. 没有大数据就没有智慧城市

    10月30日消息,由住房和城乡建设部信息中心.工业和信息化部信息化推进司.国家测绘地理信息局国土测绘司.国家遥感中心.中国卫星导航定位应用管理中心共同主办,主题为"智慧•创新•服务" ...

  5. 亿玛大数据揭秘“钻石网购密码” 最高单价超15万

    钻石.香水和跑车是美人的三大法宝.就连性感女神玛丽莲·梦露都曾高歌<钻石是女孩最好的朋友>.行业数据显示,过去5年,中国钻石市场销售额翻了三番,达到228亿美元(约合1395亿元人民币), ...

  6. 海银资本:在大数据创业企业中掘金

    从2011年年底开始,微软.Facebook和谷歌等国际公司的"大数据"技术和服务被业内人士津津乐道.国内敏锐的创业者与风投们迅速将目光从门户网站.搜索引擎.社交媒体转移到了&qu ...

  7. 大数据浪潮将催生信息产业第三极——“数据极”

    11月8日消息,2012年,大数据高调走进人们的视野,大数据的概念为人所熟知,"大数据时代"这一说法也得到了广泛认可.据统计,2012年大数据的市场规模达到4.5亿元,2013年还 ...

  8. 大数据或成大金融时代的奠基石

    "靠今天这样的机制,我不相信还能够支撑30年以后中国所需要的金融体系."在日前召开的浙商大会上,马云在谈及金融改革时直言银行没有发挥好手中的牌照作用,并表示希望利用互联网的大数据去 ...

  9. 大数据营销更需要消费者洞察

    2013年10月17日,独立商业趋势观察家,知名中国消费趋势研究专家,数字营销专家肖明超先生,应凤凰网的邀请参加了凤凰网在广州举办的"营销人的幸福梦"主题沙龙活动,并与凤凰网副总裁 ...

最新文章

  1. springmvc xml 空模板
  2. EXECL使用技巧(转)
  3. globalmapper如何选取图像上的点_20. 用于纹理合成和转移的图像缝合
  4. 最佳实践 ADO.NET实用经验无保留曝光
  5. tea java 代码,TeaVM编译器如何将Java应用程序转换为Javascript,以及如何使用MicroK8管理嵌入...
  6. ASP.NET中 Repeater嵌套
  7. mysql 8核16g参数优化_问个 MySql 优化问题, 16G, 8 核服务器??
  8. 行内元素中去掉文字的上下间距,使得文字所在元素的高度同字体高度一致的方法...
  9. 将信号量代码生成静态库以及动态库
  10. leetcode —— 1079. 活字印刷
  11. Lack of free swap space on 192.168.3.1
  12. JAVA设对话框的位置,setLocation/setBounds皆可
  13. 车辆等级、车型分类及carsim内置车辆种类整理
  14. java 获取 国家_Java中Locale.getDefault()方法获取本地国家代码
  15. SecureCRT 安装与破解教程
  16. python群发邮件 不进垃圾箱_邮件群发如何不进垃圾箱
  17. 拼多多新店扶持期是多久?
  18. ExcelMAC地址转换公式
  19. python 声音强度检测_python检测音频中的静音
  20. Mysql的基本函数--与自定义函数

热门文章

  1. PlaneTR:一种用于提取场景中3D平面特征的Transformer(ICCV 2021)
  2. LIGA Stereo:基于双目3D检测的Lidar几何感知表示学习(ICCV2021)
  3. C++基本语法的知识体系
  4. PIL:python图像处理库的介绍
  5. mysql存储过程分析
  6. 如何安装rabbitmq
  7. Ubuntu下Astro Pro配置openni踩坑小记
  8. Nat. Commun | 预测RNA-蛋白质结合偏好的深度学习框架
  9. 堆排序算法的java实现_堆排序算法的JAVA实现
  10. 第一轮通知 | 2022年中国生物物理学会肠道菌群分会年会暨“崂山论肠菌”学术论坛...