#coding=gbk
# MovieLens 1M数据集含有来自6000名用户对4000部电影的100万条评分数据。
# 分为三个表:评分,用户信息,电影信息。这些数据都是dat文件格式
# ,可以通过pandas.read_table将各个表分别读到一个pandas DataFrame对象中
import pandas as pd
import time
start = time.perf_counter()
filename1 =r'ml-1m\users.dat'
filename2 = r'ml-1m\ratings.dat'
filename3 = r'ml-1m\movies.dat'
pd.options.display.max_rows = 10
uname = ['user_id','gender','age','occupation','zip']
users = pd.read_table(filename1, sep='::', header = None, names=uname, engine='python')
print(users.head()) #年龄和职业都是使用编码的形式给出来的
#    user_id gender  age  occupation    zip
# 0        1      F    1          10  48067
# 1        2      M   56          16  70072
# 2        3      M   25          15  55117
# 3        4      M   45           7  02460
# 4        5      M   25          20  55455
print(users.shape)  # (6040, 5)rnames = ['user_id','movie_id','rating','timestamp']
ratings = pd.read_table(filename2, header =None, sep='::',names=rnames, engine= 'python')
print(ratings.head())
#    user_id  movie_id  rating  timestamp
# 0        1      1193       5  978300760
# 1        1       661       3  978302109
# 2        1       914       3  978301968
# 3        1      3408       4  978300275
# 4        1      2355       5  978824291
# print(ratings.shape)  #(1000209, 4)
mnames = ['movie_id','title','genres']  # genres 表示影片的体裁是什么
movies = pd.read_table(filename3, header = None, sep='::', names = mnames, engine='python')
print(movies.head())

参考文章:
https://blog.csdn.net/qq_40587575/article/details/81331717

movielens1M数据处理相关推荐

  1. 数据结构(03)— 数据处理基本操作(数据的查找、新增、删除、修改)

    我们先来看一个关于查找的例子.查找,就是从复杂的数据结构中,找到满足某个条件的元素.通常可从以下两个方面来对数据进行查找操作:​ 根据元素的位置或索引来查找: 根据元素的数值特征来查找. 针对上述两种 ...

  2. 大规模数据处理Apache Spark开发

    大规模数据处理Apache Spark开发 Spark是用于大规模数据处理的统一分析引擎.它提供了Scala.Java.Python和R的高级api,以及一个支持用于数据分析的通用计算图的优化引擎.它 ...

  3. 2021年大数据Spark(二十六):SparkSQL数据处理分析

    目录 SparkSQL数据处理分析 基于DSL分析 基于SQL分析 第一步.注册为临时视图 第二步.编写SQL,执行分析 ​​​​​​​SparkSQL数据处理分析 在SparkSQL模块中,将结构化 ...

  4. 电子表单系列谈之表单数据处理

    袁永福( http://www.xdesigner.cn ) 2007-8-16 点击下载其表单工具概念版本 一般的电子表单工具都要求能自动显示和保存关系型数据库中的数据,比如可以使用SQL语句查询数 ...

  5. python怎么做彩票概率_用Python一次性把论文作图与数据处理全部搞定!

    一入科研深似海-- 年底将近,"防脱发用生姜还是黑芝麻?",研究僧们又开始为自己所剩无几的头发发愁了. 文献看到头秃,前沿课题总是无缘 置顶了一页实验组微信群.QQ群,想追踪前沿文 ...

  6. 【radar】毫米波雷达动态障碍物检测相关论文汇总(聚类、分类、稀疏2D点、4D点、雷达成像、原始数据处理)(4)

    [radar]毫米波雷达动态障碍物检测相关论文汇总(聚类.分类.稀疏2D点.4D点.雷达成像.原始数据处理)(4) Detection of Dynamic Objects Clustering 20 ...

  7. Javascript中二进制数据处理方法

    Javascript中二进制数据处理方法 转载于:https://www.cnblogs.com/motadou/archive/2012/02/19/2358514.html

  8. nodejs操作sqlserver数据_pyspark操作MySQL、SQLServer数据库进行数据处理操作

    欢迎访问本人的CSDN博客[Together_CZ],我是沂水寒城. https://yishuihancheng.blog.csdn.net 在大数据处理领域里面,Hadoop和spark可以说是最 ...

  9. python中符号计算输出数学_Python科学计算与数据处理—符号运算库.doc

    Python 科学计算与数据处理 - 符号运算库 符号运算库目录从示例开始欧拉恒等式球体体积数学表达 式符号数值运算符和函数符号运算表达式转换和简化方程目录微分 方程积分其他函数符号运算库. 它的目标 ...

  10. jpanel不使用jframe保存的图片为空_使用DataBinding还在为数据处理头疼?这篇文章帮你解决问题

    前言 在前几年兴起了MVVM架构设计模式,最具有代表的框架就是DataBinding,虽然这种设计架构非常新颖,但是在使用中仍然还有很多痛点,所以我当时觉得短时间这个设计架构可能不会太流行. 最近接手 ...

最新文章

  1. Python链接Mssql之Python库pymssql
  2. python学习笔记(7-11)
  3. Java中如何执行source命令,在Java中运行UNIX Source命令
  4. 高端服务器CPU详细图解
  5. SpringSecurity案例之把资源交给OAuth2的资源服务管理
  6. 《JavaScript 每周导读》【第二期】
  7. MVC3实现多个按钮提交
  8. Best Friend Forever
  9. genymotion集成eclipse插件安装教程
  10. python接球游戏
  11. watch 与 computed
  12. ubuntu中的坑——Ubuntu中一些常用的软件和火狐浏览器插件的安装
  13. 高性能抗干扰宽带自组网电台——T3M2-20W视距100km测试
  14. 学生信息管理系统-数据结构课程设计
  15. PHP根据生日计算年龄(周岁)
  16. html5拖放详解,HTML5拖拽/拖放(drag drop)详解
  17. windows10下openpose的安装和配置使用教程(C++),以及常见错误分析。
  18. 位运算符——左移、右移
  19. python编码口诀_【每日一练】python输出 9*9 乘法口诀表
  20. Studio5000 V33初学(一):FAL指令

热门文章

  1. mysql恢复数据库命令_备份与还原mysql 数据库的常用命令。
  2. 熊猫可用人脸识别?大熊猫迎来熊生高光时刻,以后终于可以认清我了
  3. 【一键新机】免root/不刷机/拒绝Xposed 实现 Android改机,全新技术分析。
  4. wps文字表格制作拼音田字格模板_用wps表格快速制作拼音田字格的方法_wps office...
  5. TCL语言学习笔记一
  6. (转)交替方向乘子法(ADMM)的原理和流程的白话总结
  7. MCSA Windows Server 2016 Complete Study Guide, 2nd Edition 免积分下载
  8. php 爬虫 执行js,使用PyV8在Python爬虫中执行js代码
  9. Unity战棋游戏资源
  10. Arduino通过HX1838红外接收模块控制红色发光LED