Amazon Review Dataset数据集介绍
Amazon Review Dataset数据集记录了用户对亚马逊网站商品的评价,是推荐系统的经典数据集,并且Amazon一直在更新这个数据集,根据时间顺序,Amazon数据集可以分成三类:
- 2013 版 http://snap.stanford.edu/data/web-Amazon-links.html
- 2014版 http://jmcauley.ucsd.edu/data/amazon/index_2014.html
如果直接跳转到2018版,可换为访问http://snap.stanford.edu/data/amazon/productGraph/categoryFiles/ - 2018版 https://nijianmo.github.io/amazon/index.html
Amazon数据集可以根据商品类别分为 Books,Electronics,Movies and TV,CDs and Vinyl等子数据集,这些子数据集包含两类信息:
以2014版数据集为例:
商品信息描述
asin 商品id title 商品名称 price 价格 imUrl 商品图片链接 related 相关商品 salesRank 折扣信息 brand 品牌 categories 目录类别 官方例子:
{ "asin": "0000031852", "title": "Girls Ballet Tutu Zebra Hot Pink", "price": 3.17, "imUrl": "http://ecx.images-amazon.com/images/I/51fAmVkTbyL._SY300_.jpg", "related": {"also_bought": ["B00JHONN1S", "B002BZX8Z6"],"also_viewed": ["B002BZX8Z6", "B00JHONN1S"],"bought_together": ["B002BZX8Z6"] }, "salesRank": {"Toys & Games": 211836}, "brand": "Coxlures", "categories": [["Sports & Outdoors", "Other Sports", "Dance"]] }
用户评分记录数据
reviewerID 用户id asin 商品id reviewerName 用户名 helpful 有效评价率(helpfulness rating of the review, e.g. 2/3) reviewText 评价文本 overall 评分 summary 评价总结 unixReviewTime 评价时间戳 reviewTime 评价时间 {"reviewerID": "A2SUAM1J3GNN3B","asin": "0000013714","reviewerName": "J. McDonald","helpful": [2, 3],"reviewText": "I bought this for my husband who plays the piano. He is having a wonderful time playing these old hymns. The music is at times hard to read because we think the book was published for singing from more than playing from. Great purchase though!","overall": 5.0,"summary": "Heavenly Highway Hymns","unixReviewTime": 1252800000,"reviewTime": "09 13, 2009" }
Amazon数据集读取:
因为下载的数据是json文件,不易操作,这里主要介绍如何将json文件转化为csv格式文件。以2014版Amazon Electronics数据集的转化为例:
商品信息读取
import pickle
import pandas as pdfile_path = 'meta_Electronics.json'
fin = open(file_path, 'r')df = {}
useless_col = ['imUrl','salesRank','related','title','description'] # 不想要的字段
i = 0
for line in fin:d = eval(line)for s in useless_col:if s in d:d.pop(s)df[i] = d i += 1
df = pd.DataFrame.from_dict(df, orient='index')
df.to_csv('meta_Electronics.csv',index=False)
用户评分记录数据读取
file_path = 'Electronics_10.json'
fin = open(file_path, 'r')df = {}
useless_col = ['reviewerName','reviewText','unixReviewTime','summary'] # 不想要的字段
i = 0
for line in fin:d = eval(line)for s in useless_col:if s in d:d.pop(s)df[i] = d i += 1
df = pd.DataFrame.from_dict(df, orient='index')
df.to_csv('Electronics_10.csv',index=False)
Amazon Review Dataset数据集介绍相关推荐
- Large Movie Review Dataset v1.0
大型电影评论数据集v1.0 目录 Large Movie Review Dataset v1.0大型电影评论数据集v1.0 数据集下载地址 数据集介绍译文 原文 数据集下载地址:http://ai.s ...
- GCN(一)数据集介绍
1.数据集介绍 1.1 数据集概述 Cora数据集由机器学习论文组成,是近年来图深度学习很喜欢使用的数据集.在数据集中,论文分为以下七类之一: 基于案例 遗传算法 神经网络 概率方法 强化学习 规则学 ...
- Market1501数据集介绍及相关代码
Market1501数据集介绍及相关代码 1.数据集介绍 文件夹介绍 bounding_box_test:测试集,gallery bounding_box_train:训练集 query:prob g ...
- 【数据集介绍】The Idiap Research Institute REPLAY-Mobile Database
[时间]2018.11.14 [数据集介绍]The Idiap Research Institute REPLAY-Mobile Database 概述 本文是对数据集REPLAY-Mobile Da ...
- Waymo Open Dataset 数据集(CVPR 2020)
Waymo Open Dataset 数据集(CVPR 2020) 摘要 1. 导言 2. 相关工作 3. Waymo开放数据集 3.1 传感器规格 3.2 坐标系 3.3 真值标签 3.4 传感器数 ...
- StudentLife数据集介绍
原网址:https://studentlife.cs.dartmouth.edu/ StudentLife数据集介绍 达特茅斯的学期有节奏吗? 从手机预测平均绩点(GPA) StudentLife数据 ...
- 动作识别、检测、分割、解析相关数据集介绍
文章目录 动作识别 UCF101(UCF101 Human Actions dataset) Kinetics (Kinetics Human Action Video Dataset) 动作检测 / ...
- 计算机视觉数据集介绍:KITTI数据集
KITTI数据集简介 KITTI数据集是由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,利用组装的设备齐全的采集车辆对实际交通场景进行数据采集获得的公开数据集.该数据集包含丰富多样的传感器数据( ...
- [深度学习] CCPD车牌数据集介绍
CCPD是一个大型的.多样化的.经过仔细标注的中国城市车牌开源数据集.CCPD数据集主要分为CCPD2019数据集和CCPD2020(CCPD-Green)数据集.CCPD2019数据集车牌类型仅有普 ...
最新文章
- Android 自定义 —— View lineTo 与 rLineTo 的区别
- nginx代理多个flask
- 忍不住还是装了一下Windows Vista
- angular 构建可以动态挂载的配置服务
- Boot loader: Grub入门(转)
- jenkins配置ssh免密码登陆
- 纯css打造菜单响应,纯 CSS 打造标准的导航菜单-1
- jq+ajax前端上传多张图片_史上最轻量的前端框架-VanillaJS
- Dotnet程序集自动生成版本号
- uml的图与代码的转换——类图
- 软件体系架构课下作业01
- Oracle数据库出现问题时,这十个脚本帮你快速定位原因
- 苹果傲慢,售后服务中外有别
- python命名元组namedtuple_Python命名元组--命名元组,Pythonnamedtuple,具名
- web前端进阶教程目录
- java set retainall_Java的Set集合中的retainAll()方法
- python 携程酒店数据爬取_携程酒店真实房价抓取 - Python编程与实战的个人空间 - OSCHINA - 中文开源技术交流社区...
- c语言if用法详解,C语言if语句的使用讲解
- 自学单片机怎么买开发板?
- mysql删除列命令_MySQL删除列