现在先介绍一下所用的数据集,该数据集是从日本雅虎电影网站爬取的电影评分数据集,共有225045条,18列。

真正有用的只有电影名,用户名,总体评分,和

story role show image music

等5个准则的评分值。

现在想要的预处理结果是:

1,将不需要的列删去,

2,将含NULL值的记录删去,删除重复行

3,将整体评分的分值调整为0-5,

4,对电影和用户名进行编号,分别从1到N,

5,统计预处理后数据集信息。

=========================

首先用Excel完成这个过程。

1,手动删去不需要的列。由于B列和C列是同样数据的不同形式,D列和E列也是同样数据的不同形式,就选择保留数值较少的列。于是保留B和E列。B列是电影,E列是用户名。

2,使用筛选功能,对存在NULL的列进行筛选,然后删去所有包含NULL的行。一共删除了17108条记录。

之后,用删除重复项的功能,删除掉所有的列都相同的数据。

3,对整平评分的列进行处理,将评分范围调整到0-5,这就需要将total列每个数值都除20。在total列的旁边插入一列,然后在第一个单元格里输入=C2/20,之后回车就得到了第一个除之后的值。再双击该单元格的右下角,就可以自动填充该列所有的单元格,也就得到了想要的数据。删除不需要的C列即可。(在删除C列之前,复制D列并直接粘贴到原位置,选择只保留值,这样就清除了公式,删除C不会对D造成影响。)

4,(写在这一步之前,考虑到Excel的处理速度,为了不浪费时间,将第3步之后的数据只保留前2W条,进行后续操作的演示)

给电影和用户名添加从1开始到N的数字ID,替换掉电影名和用户名。

先做电影的,将movie列整体复制到表格后方,再在相邻的列命名一个movieID列。之后使用删除重复值的按钮,删除新的movie列的重复值,然后在O列前三个单元格分别填上123,之后双击填充到整列。

在此之后,就要用vlookup函数,为A列,也就是完整的电影名列进行数字ID匹配。

在A列后插入一列新单元,命名为movieid。

在该movieid列的第二个单元格,输入vlookup函数。如图:

后面的单元格,只需要双击B2的右下角自动填充即可。从图中可以看到,已经完成了所有movie列的数字ID赋值。

对于用户名列,采用同样的方法即可得到结果。

(相应的,一定要把通过公式得到的列复制再粘贴,选择只保留数值,否则删除后面的列的时候前面的值就没有了。)

5,统计预处理后的数据集的信息。

首先,先发一个处理好的数据集图。

到这一步之后,用数据透视表对数据集的信息进行统计。

因为评分数据主要是用在后面的多准则推荐算法中的,在这里对它们进行统计没有任何意义,故只对电影和用户名进行统计。

主要是看有多少条目,每个条目出现的次数。

可以看到,经过截取后的数据,一共还有1016部电影,6018个用户。

到此,一个基本的数据预处理已经完成了,可以被之后的算法研究所使用。

下一篇文章,将讲述如何用MySQL实现同样的操作。

用EXCEL预处理一个多准则电影评分数据集相关推荐

  1. ML之RL:基于MovieLens电影评分数据集利用强化学习算法(多臂老虎机+EpsilonGreedy策略)实现对用户进行Top电影推荐案例

    ML之RL:基于MovieLens电影评分数据集利用强化学习算法(多臂老虎机+EpsilonGreedy策略)实现对用户进行Top电影推荐案例 目录 基于MovieLens电影评分数据集利用强化学习算 ...

  2. ML之KG:基于MovieLens电影评分数据集利用基于知识图谱的推荐算法(networkx+基于路径相似度的方法)实现对用户进行Top电影推荐案例

    ML之KG:基于MovieLens电影评分数据集利用基于知识图谱的推荐算法(networkx+基于路径相似度的方法)实现对用户进行Top电影推荐案例 目录 基于MovieLens电影评分数据集利用基于 ...

  3. 电影评分数据集的分析

    目录 数据集的获得 使用工具 项目流程 数据集的获得 进入该网址:https://grouplens.org/datasets/movielens/ 找到如下part: 点击ml-100k.zip进行 ...

  4. python数据分析案例2:电影评分数据集的分析

    这里是南京财经大学的Mooc课程的个人学习笔记,课程网址是:https://www.icourse163.org/course/NJUE-1458311167,课程是免费的,老师讲的很好很认真,欢迎学 ...

  5. ML之RS之CF:基于用户的CF算法—利用大量用户的电影及其评分数据集对一个新用户Jason进行推荐电影+(已知Jason曾观看几十部电影及其评分)

    ML之RS之CF:基于用户的CF算法-利用大量用户的电影及其评分数据集对一个新用户Jason进行推荐电影+(已知Jason曾观看几十部电影及其评分) 目录 输出结果 实现代码 输出结果 先看推荐结果显 ...

  6. AI 影评家/ 用 Hugging Face 模型打造一个电影评分机器人

    本文为社区成员 Jun Chen 为 百姓 AI 和 Hugging Face 联合举办的黑客松所撰写的教程文档,欢迎你阅读今天的第二条推送了解和参加本次黑客松活动.文内含有较多链接,我们不再一一贴出 ...

  7. AI 影评家: 用 Hugging Face 模型打造一个电影评分机器人

    ❝ 本文为社区成员 Jun Chen 为 百姓 AI 和 Hugging Face 联合举办的黑客松所撰写的教程文档,欢迎你阅读今天的第二条推送了解和参加本次黑客松活动.文内含有较多链接,我们不再一一 ...

  8. 电影评分预测系统分析

    一.数据获取 (一)数据源地址: 在kaggle官网获取电影评分的数据,官方网址为:https://www.kaggle.com/rounakbanik/the-movies-dataset 用Goo ...

  9. 机器学习工程师 — Udacity 电影评分的 k 均值聚类

    电影评分的 k 均值聚类 假设你是 Netflix 的一名数据分析师,你想要根据用户对不同电影的评分研究用户在电影品位上的相似和不同之处.了解这些评分对用户电影推荐系统有帮助吗?我们来研究下这方面的数 ...

最新文章

  1. 序列化模块--json模块--pickle模块-shelve模块
  2. R语言爬取imdb电影海报
  3. jtable根据内容自动调整列宽
  4. PHP的数组结构是用哈希表实现的
  5. LeetCode Algorithm 7. 整数反转
  6. androidActivity生命周期
  7. 你需要知道的这几种 asp.net core 修改默认端口的方式
  8. hive-03-hive的分区
  9. php开发Hive Web查询
  10. 《嵌入式 – GD32开发实战指南》第4章 GD32启动流程详解(Keil版)
  11. 四元数与欧拉角的转换与使用matlab的simulink搭建实现
  12. Word怎么删除空白页?6个方法随便用!
  13. linux无线网络配置
  14. 【tph-yolov5】tph-Yolov5的Pytorch环境配置和运行错误记录
  15. SQL基础语法练习题(1)
  16. 【出差总结】出差0902
  17. NeuralPS2021下载~论文总结~NeurlPS2021论文pdf
  18. nginx启动报 server name * has suspicious symbols
  19. 青软集团大数据和人工智能实训室 助力西北工业大学高端软件人才培养
  20. 东北大学计算机科学与技术研究生,2021年东北大学计算机科学与技术(081200)硕士研究生招生信息_考研招生计划和招生人数 - 学途吧...

热门文章

  1. 获取Url地址中参数的3种方法
  2. libsodium linux,Linux安装libsodium失败解决办法~
  3. 基于Java的奖学金评定系统的设计与实现毕业设计
  4. 医学图像分割的深度学习:综述
  5. QDUOJ-数数字-异或运算
  6. 怎么画蜘蛛爬取详情页面流程图
  7. chaosblade之磁盘iohang
  8. 03【C语言 趣味算法】(值得品味的一道题)打鱼还是晒网?结构体的简单应用。函数的应用。判断闰年的应用。求指定日期距1990年1月1日的天数。
  9. Stata输出统计结果到Excel或word
  10. 336 PROJECT Bar-Beer-Drinker PLUS