Amazon Review Dataset数据集记录了用户对亚马逊网站商品的评价,是推荐系统的经典数据集,并且Amazon一直在更新这个数据集,根据时间顺序,Amazon数据集可以分成三类:

  • 2013 版 http://snap.stanford.edu/data/web-Amazon-links.html
  • 2014版 http://jmcauley.ucsd.edu/data/amazon/index_2014.html
    如果直接跳转到2018版,可换为访问http://snap.stanford.edu/data/amazon/productGraph/categoryFiles/
  • 2018版 https://nijianmo.github.io/amazon/index.html

Amazon数据集可以根据商品类别分为 Books,Electronics,Movies and TV,CDs and Vinyl等子数据集,这些子数据集包含两类信息:

以2014版数据集为例:

  1. 商品信息描述

    asin 商品id
    title 商品名称
    price 价格
    imUrl 商品图片链接
    related 相关商品
    salesRank 折扣信息
    brand 品牌
    categories 目录类别

    官方例子:

    {
    "asin": "0000031852",
    "title": "Girls Ballet Tutu Zebra Hot Pink",
    "price": 3.17,
    "imUrl": "http://ecx.images-amazon.com/images/I/51fAmVkTbyL._SY300_.jpg",
    "related":
    {"also_bought": ["B00JHONN1S", "B002BZX8Z6"],"also_viewed": ["B002BZX8Z6", "B00JHONN1S"],"bought_together": ["B002BZX8Z6"]
    },
    "salesRank": {"Toys & Games": 211836},
    "brand": "Coxlures",
    "categories": [["Sports & Outdoors", "Other Sports", "Dance"]]
    }
    
  2. 用户评分记录数据

    reviewerID 用户id
    asin 商品id
    reviewerName 用户名
    helpful 有效评价率(helpfulness rating of the review, e.g. 2/3)
    reviewText 评价文本
    overall 评分
    summary 评价总结
    unixReviewTime 评价时间戳
    reviewTime 评价时间
    {"reviewerID": "A2SUAM1J3GNN3B","asin": "0000013714","reviewerName": "J. McDonald","helpful": [2, 3],"reviewText": "I bought this for my husband who plays the piano.  He is having a wonderful time playing these old hymns.  The music  is at times hard to read because we think the book was published for singing from more than playing from.  Great purchase though!","overall": 5.0,"summary": "Heavenly Highway Hymns","unixReviewTime": 1252800000,"reviewTime": "09 13, 2009"
    }
    

Amazon数据集读取:

因为下载的数据是json文件,不易操作,这里主要介绍如何将json文件转化为csv格式文件。以2014版Amazon Electronics数据集的转化为例:

商品信息读取

import pickle
import pandas as pdfile_path = 'meta_Electronics.json'
fin = open(file_path, 'r')df = {}
useless_col = ['imUrl','salesRank','related','title','description']  # 不想要的字段
i = 0
for line in fin:d = eval(line)for s in useless_col:if s in d:d.pop(s)df[i] = d i += 1
df = pd.DataFrame.from_dict(df, orient='index')
df.to_csv('meta_Electronics.csv',index=False)

用户评分记录数据读取

file_path = 'Electronics_10.json'
fin = open(file_path, 'r')df = {}
useless_col = ['reviewerName','reviewText','unixReviewTime','summary'] # 不想要的字段
i = 0
for line in fin:d = eval(line)for s in useless_col:if s in d:d.pop(s)df[i] = d i += 1
df = pd.DataFrame.from_dict(df, orient='index')
df.to_csv('Electronics_10.csv',index=False)

Amazon Review Dataset数据集介绍相关推荐

  1. Large Movie Review Dataset v1.0

    大型电影评论数据集v1.0 目录 Large Movie Review Dataset v1.0大型电影评论数据集v1.0 数据集下载地址 数据集介绍译文 原文 数据集下载地址:http://ai.s ...

  2. GCN(一)数据集介绍

    1.数据集介绍 1.1 数据集概述 Cora数据集由机器学习论文组成,是近年来图深度学习很喜欢使用的数据集.在数据集中,论文分为以下七类之一: 基于案例 遗传算法 神经网络 概率方法 强化学习 规则学 ...

  3. Market1501数据集介绍及相关代码

    Market1501数据集介绍及相关代码 1.数据集介绍 文件夹介绍 bounding_box_test:测试集,gallery bounding_box_train:训练集 query:prob g ...

  4. 【数据集介绍】The Idiap Research Institute REPLAY-Mobile Database

    [时间]2018.11.14 [数据集介绍]The Idiap Research Institute REPLAY-Mobile Database 概述 本文是对数据集REPLAY-Mobile Da ...

  5. Waymo Open Dataset 数据集(CVPR 2020)

    Waymo Open Dataset 数据集(CVPR 2020) 摘要 1. 导言 2. 相关工作 3. Waymo开放数据集 3.1 传感器规格 3.2 坐标系 3.3 真值标签 3.4 传感器数 ...

  6. StudentLife数据集介绍

    原网址:https://studentlife.cs.dartmouth.edu/ StudentLife数据集介绍 达特茅斯的学期有节奏吗? 从手机预测平均绩点(GPA) StudentLife数据 ...

  7. 动作识别、检测、分割、解析相关数据集介绍

    文章目录 动作识别 UCF101(UCF101 Human Actions dataset) Kinetics (Kinetics Human Action Video Dataset) 动作检测 / ...

  8. 计算机视觉数据集介绍:KITTI数据集

    KITTI数据集简介 KITTI数据集是由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,利用组装的设备齐全的采集车辆对实际交通场景进行数据采集获得的公开数据集.该数据集包含丰富多样的传感器数据( ...

  9. [深度学习] CCPD车牌数据集介绍

    CCPD是一个大型的.多样化的.经过仔细标注的中国城市车牌开源数据集.CCPD数据集主要分为CCPD2019数据集和CCPD2020(CCPD-Green)数据集.CCPD2019数据集车牌类型仅有普 ...

最新文章

  1. Android 自定义 —— View lineTo 与 rLineTo 的区别
  2. nginx代理多个flask
  3. 忍不住还是装了一下Windows Vista
  4. angular 构建可以动态挂载的配置服务
  5. Boot loader: Grub入门(转)
  6. jenkins配置ssh免密码登陆
  7. 纯css打造菜单响应,纯 CSS 打造标准的导航菜单-1
  8. jq+ajax前端上传多张图片_史上最轻量的前端框架-VanillaJS
  9. Dotnet程序集自动生成版本号
  10. uml的图与代码的转换——类图
  11. 软件体系架构课下作业01
  12. Oracle数据库出现问题时,这十个脚本帮你快速定位原因
  13. 苹果傲慢,售后服务中外有别
  14. python命名元组namedtuple_Python命名元组--命名元组,Pythonnamedtuple,具名
  15. web前端进阶教程目录
  16. java set retainall_Java的Set集合中的retainAll()方法
  17. python 携程酒店数据爬取_携程酒店真实房价抓取 - Python编程与实战的个人空间 - OSCHINA - 中文开源技术交流社区...
  18. c语言if用法详解,C语言if语句的使用讲解
  19. 自学单片机怎么买开发板?
  20. mysql删除列命令_MySQL删除列

热门文章

  1. mysql取数据库时间函数_MySQL数据库—日期与时间函数
  2. pdf格式的图片如何插入到word中
  3. 【Linux】——库函数
  4. DDOS攻击检测和防护
  5. 哪个计算机无法做到双屏显示,显卡为何无法实现双屏显示 -电脑资料
  6. 【19调剂】东北林业大学森林工程邢艳秋老师调剂信息
  7. linux之ssh命令
  8. javascript中的:DOM对象
  9. html/css导入自己的字体样式
  10. 一个三线程序员的2020年,CSDN 10 万粉里程碑达成,SpringBoot项目瘦身指南