一、获取数据集

我们使用的实验数据集是一个电影推荐方面的常用数据集MovieLens。它能应用于推荐系统和其它可能的机器学习任务,适合作为示例数据集。

datasets/movielens/100k

下载并解压数据集,关于数据集的更多信息可以从README获得,包括每个文件里的变量定义。我们可以使用head命令来查看各个文件中的内容。

MacBook-Pro:ml-100k xp$ head -5 u.user

1|24|M|technician|85711

2|53|F|other|94043

3|23|M|writer|32067

4|24|M|technician|43537

5|33|F|other|15213

MacBook-Pro:ml-100k xp$ head -5 u.item

1|Toy Story (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact?Toy%20Story%20(1995)|0|0|0|1|1|1|0|0|0|0|0|0|0|0|0|0|0|0|0

2|GoldenEye (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact?GoldenEye%20(1995)|0|1|1|0|0|0|0|0|0|0|0|0|0|0|0|0|1|0|0

3|Four Rooms (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact?Four%20Rooms%20(1995)|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|1|0|0

4|Get Shorty (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact?Get%20Shorty%20(1995)|0|1|0|0|0|1|0|0|1|0|0|0|0|0|0|0|0|0|0

5|Copycat (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact?Copycat%20(1995)|0|0|0|0|0|0|1|0|1|0|0|0|0|0|0|0|1|0|0

二、可视化数据

有数据后,我们来启动Spark交互式终端来探索数据。我们使用IPython终端和matplotlib库对数据进行处理和可视化。

IPython的开发者吸收了标准解释器的基本概念,在此基础上进行了大量的改进,创造出一个令人惊奇的工具。在它的主页上是这么说的:“这是一个增强的交互式Pythonshell。”具有tab补全,对象自省,强大的历史机制,内嵌的源代码编辑,集成Python调试器,%run机制,宏,创建多个环境以及调用系统shell的能力。

1)IPython与标准Python的最大区别在于,Ipython会对命令提示符的每一行进行编号。

2)tab补全

3)历史机制

hist可以快速查看那些输入的历史记录。

hist-n可以快速查看并去掉历史记录中的序号,这样你就可以方便的将代码复制到一个文本编辑器中。

4)断点调试:如果你的程序是由命令行开始执行的,即在命令行下输入python foo.py(大部分 Python 程序都是),那么你还可以利用 IPython在你的程序任意地方进行断点调试。

注:ipython-notebook已经整合(或者改名)到“Jupyter”中了。在http://jupyter.readthedocs.org/en/latest/install.html这个网站上,有着极其简便的python-notebook的安装方式。

pip3 install --upgrade pip

upgrade pip

pip3 install jupyter

install jupyter

Jupyter使用:

jupyter notebook

jupyter notebook.png

此时即启动了jupyter notebook,此时浏览器中会弹出notebook窗口(http://localhost:8888/tree)。如下图所示:

http://localhost:8888/

Files下面列出了当前用户目录下所有的文件,结合右上角的upload和new你可以方便地进行文件操作。你先选择一个目录,在该目录下,new一个python3,这样当前目录即会出现一个“.ipynb”文件,同时,浏览器会弹新的标签页让你编辑该“.ipynb”文件。

三、运行示例

本次我们将在jupyter notebook上运行《Spark机器学习》第三章示例。

点击Machine Learning with Spark, Chapter 3. MovieLens 100k Analysis..ipynb文件,浏览器会弹新的标签页显示运行结果如下:

运行结果1

运行结果2

至此,Spark 处理MovieLens 100k数据集案例运行成功,案例详细解读请参考《Spark机器学习》一书第三章。

pa100k数据集_Spark 处理MovieLens 100k数据集案例相关推荐

  1. 共享单车数据集_Spark Streaming 共享单车数据集

    地球资源有限,但是人类需求无限,城市规划专家意识到这一点,于是有了"智慧城市"这个新词汇,为了完成这个KPI考核,就需要对城市环境的各个方面进行测量,以实现最佳的资源利用.共享.规 ...

  2. Dataset:Big Mart Sales数据集的简介、下载、案例应用之详细攻略

    Dataset:Big Mart Sales数据集的简介.下载.案例应用之详细攻略 目录 Big Mart Sales数据集的简介 1.特征解释 Big Mart Sales数据集的下载 Big Ma ...

  3. Dataset之JFT:JFT/FastEval14k数据集的简介、下载、案例应用之详细攻略

    Dataset之JFT:JFT数据集的简介.下载.案例应用之详细攻略 目录 JFT/FastEval14k数据集的简介 JFT数据集的下载 JFT数据集的案例应用 JFT/FastEval14k数据集 ...

  4. Dataset之OttoGroup:OttoGroup数据集的简介、下载、案例应用之详细攻略

    Dataset之OttoGroup:OttoGroup数据集的简介.下载.案例应用之详细攻略 目录 OttoGroup数据集的简介 OttoGroup数据集的下载 OttoGroup数据集的案例应用 ...

  5. Dataset之RentListingInquries:RentListingInquries(Kaggle竞赛)数据集的简介、下载、案例应用之详细攻略

    Dataset之RentListingInquries:RentListingInquries(Kaggle竞赛)数据集的简介.下载.案例应用之详细攻略 目录 RentListingInquries比 ...

  6. Dataset之HiggsBoson:Higgs Boson(Kaggle竞赛)数据集的简介、下载、案例应用之详细攻略

    Dataset之HiggsBoson:Higgs Boson(Kaggle竞赛)数据集的简介.下载.案例应用之详细攻略 目录 Higgs Boson比赛简介 Higgs Boson数据集的下载 Hig ...

  7. Keras之TCN:基于keras框架利用时间卷积网络TCN算法对上海最高气温实现回归预测(把时间序列数据集转化为有监督学习数据集)案例

    Keras之TCN:基于keras框架利用时间卷积网络TCN算法对上海最高气温实现回归预测(把时间序列数据集转化为有监督学习数据集)案例 目录 利用时间卷积网络TCN算法对上海最高气温实现回归预测(把 ...

  8. ML之FE之FS:特征工程/数据预处理—特征选择之利用过滤式filter、包装式wrapper、嵌入式Embedded方法(RF/SF)进行特征选择(mushroom蘑菇数据集二分类预测)最全案例应用

    ML之FE之FS:特征工程/数据预处理-特征选择之利用过滤式filter.包装式wrapper.嵌入式Embedded方法(RF/SF)进行特征选择(mushroom蘑菇数据集二分类预测)案例应用 利 ...

  9. BDD 100K数据集label转换为yolo训练格式

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 BDD 100K数据集label转换为yolo训练格式 前言 数据集介绍: 代码如下: 补充说明: 总结 前言 因为最近要做车辆,行人 ...

  10. 用Python计算MovieLens 100k数据集中男性女性用户评分的标准差

    这是<用Python玩转数据>4.2的编程练习. 要求: 计算MovieLens 100k数据集中男性女性用户评分的标准差并输出. 数据集下载 其中u.data 表示100k条评分记录,每 ...

最新文章

  1. MXNet学习:试用卷积-训练CIFAR-10数据集
  2. ICA--独立成分分析(Independent Component Analysis)
  3. 系统调用日志收集系统
  4. poj 1797 Dijkstra算法
  5. opencv 最大连通域_opencv 查找连通区域 最大面积实例
  6. 【POJ - 1661】Help Jimmy(记忆化搜索,dp)
  7. input子系统基础之按键5——按键驱动
  8. SSD( Single Shot MultiBox Detector)关键源码解析
  9. 前端如何识别操作系统
  10. python画柱形图把奇数年份也显示出来_python - Matplotlib奇数子图 - 堆栈内存溢出...
  11. 洛谷 P1067 多项式输出
  12. Powerdesigner数据库建模--概念模型--ER图
  13. 【Ubuntu】在Ubuntu 12.04 LTS上安装JDK6
  14. [Postman]响应(7)
  15. matlab画航线图,【图文详解】如何画出华丽丽的全球航线图
  16. 拉普拉斯矩阵与正则化
  17. XXL任务调度平台+java实现定时任务
  18. 【Unity】NGUI/UGUI 小地图制作
  19. matlab模拟超声波信号_MATLAB模拟超声波声速测量实验
  20. 什么是函数指针?(理解及使用)

热门文章

  1. win10报错网络未识别的问题
  2. uni-app:mescroll-uni 实现上拉加载,下拉刷新
  3. Qt中配置OpenCV
  4. 各浏览器驱动下载地址及selenium配置
  5. linux学习:图书管理系统
  6. PADS9.5实战攻略与高速PCB设计-强烈推荐教程资料(完整书签)
  7. 何凯明:Single Image Haze Removal Using Dark Channel Prior[CVPR 2009]
  8. AOP如何实现及实现原理
  9. 2020年最完整的ftp搭建教程-亲测可用
  10. 发起成立“ABCD联盟”,人工智能与区块链技术研讨会北京站精彩回顾