淘宝双11数据分析与预测课程案例—步骤四:利用Spark预测回头客行为代码报错
在练习林子雨老师的“淘宝双11数据分析与预测课程案例—步骤四:利用Spark预测回头客行为”章节时出现了代码报错。
具体在执行"val model = SVMWithSGD.train(train, numIterations)"代码后出现了如下报错:
java.lang.NumberFormatException: For input string: "Label"
查找相关资料说是因为格式转换的问题,即可能是应该输入“整型”却意外的输入了"label"
代码执行过程如下:
import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.mllib.regression.LabeledPointimport org.apache.spark.mllib.linalg.{Vectors,Vector}import org.apache.spark.mllib.classification.{SVMModel, SVMWithSGD}import org.apache.spark.mllib.evaluation.BinaryClassificationMetricsimport java.util.Propertiesimport org.apache.spark.sql.types._import org.apache.spark.sql.Rowval train_data = sc.textFile("/dbtaobao/dataset/train_after.csv")val test_data = sc.textFile("/dbtaobao/dataset/test_after.csv")val train= train_data.map{line =>val parts = line.split(',')LabeledPoint(parts(4).toDouble,Vectors.dense(parts(1).toDouble,parts(2).toDouble,parts(3).toDouble))}val test = test_data.map{line =>val parts = line.split(',')LabeledPoint(parts(4).toDouble,Vectors.dense(parts(1).toDouble,parts(2).toDouble,parts(3).toDouble))}val numIterations = 1000val model = SVMWithSGD.train(train, numIterations)
数据从HDFS文件系统中train_after.csv取出然后存入train_data进入分割,在之后的过程中都没有混入除了整型以外的变量。分析原因可能是HDFS文件系统中train_after.csv本来就有非整型变量,由于HDFS文件系统中train_after.csv是由本地文件夹下的train_after.csv原封不动导入的,所以我打开train_after.csv,结果发现该文件的第一行代表该列的属性为string类型没有删干净,问题就出现在这里,随后我将列的属性删除完毕,重新生成了train_after.csv文件,此时文件中除了整型不含其它类型,我再将HDFS文件系统中的train_after.csv删除并导入我重新生成的train_after.csv文件,最后问题得到解决。
删除HDFS文件系统中的文件操作可参考:
淘宝双11数据分析与预测课程案例—步骤四:利用Spark预测回头客行为代码报错相关推荐
- 淘宝双11数据分析与预测
淘宝双11数据分析与预测 一. 案例简介 Spark课程实验案例:淘宝双11数据分析与预测课程案例,由厦门大学数据库实验室团队开发,旨在满足全国高校大数据教学对实验案例的迫切需求.本案例涉及数据预处理 ...
- 大数据-11-案例演习-淘宝双11数据分析与预测
主要摘自 http://dblab.xmu.edu.cn/post/8116/ 案例简介 Spark课程实验案例:淘宝双11数据分析与预测课程案例,由厦门大学数据库实验室团队开发,旨在满足全国高校大数 ...
- Spark大数据-基于Hive和Spark的淘宝双11数据分析与预测
基于Hive和Spark的淘宝双11数据分析与预测 1.系统和环境要求(版本仅供参考): Linux: centos7 MySQL: 5.7.16 Hadoop: 2.7.1 Hive: 1.2.1 ...
- 淘宝双11数据分析与预测汇总
国庆假期留在学校做了一下林子雨博士的大数据实验--淘宝双11数据分析与预测,虽然教程写得很详细,但自己还是踩了很多坑,现在记录下来,希望给别人一点帮助. 淘宝双11数据分析与预测实验链接:http:/ ...
- Cloud Computing(8)_实例实现_淘宝双11数据分析与预测
在本文中,主要实现了一个云计算相关实例:淘宝双11数据分析与预测 数据来源为: http://dblab.xmu.edu.cn/ 由于本文内容为课上本人和同学所做的一次presentation,故将仅 ...
- 淘宝双11数据分析与预测--“坑点”汇总
国庆假期留在学校做了一下林子雨博士的大数据实验--淘宝双11数据分析与预测,虽然教程写得很详细,但自己还是踩了很多坑,现在记录下来,希望给别人一点帮助. 淘宝双11数据分析与预测实验连接:点击这里 问 ...
- 【大数据基础】淘宝双11数据分析与预测
https://dblab.xmu.edu.cn/post/8116/ 问题 问题1 mysql登录需要密码 https://cloud.tencent.com/developer/beta/arti ...
- 淘宝双11数据分析与预测课程案例:实验环境搭配
1 软件安装清单 安装Hadoop 安装MySQL 安装Hive 安装Sqoop 安装Eclipse 安装ECharts 2 hadoop安装 hadoop在centos的伪分布式安装 3 MySql ...
- 淘宝双11大数据分析(数据准备篇)
文章目录 前言 数据内容分析 `user_log.csv`文件内容含义 `train.csv` 和 `test.csv` 文件内容含义 数据上传到Linux系统并解压 数据集的预处理 文件信息截取 导 ...
最新文章
- 模拟黑洞图像_人类史上第一张黑洞照片即将问世,但其实早在40年前就有人画出了它的样子...
- Redis分布式锁(ServiceStack.Redis实现)
- UVA 10706 Number Sequence
- win7内存占用过高怎么处理
- 视频剪辑软件到底哪个功能强?容易上手并且不要钱的?
- 计算机在英语课中的应用 博客,信息技术在小学英语教学中的应用
- python urllib编码
- 游戏开发之类的构造函数和析构函数(C++基础)
- 2008 Asia Harbin Regional Contest Online Turn the corner (三分)
- 运筹学学习笔记2 python-or tools 使用
- QTableView效率优化3 - 自定义Model的内容补充
- 成都Uber优步司机奖励政策(2月29日)
- system.IO.FileNotFoundException: 未能加载文件或程序集
- STM8S自学笔记-001 STM8简介
- Freemarker提供了3种加载模板目录的方法
- Xms Xmx PermSize MaxPermSize的含义
- Swift-自动引用计数(Automatic Reference Counting)(十四)
- 专业技术计算机应用能力考试题库,全国专业技术人员计算机应用能力考试题库-Excel,Word,XP...
- 【Albert带你1小时看遍美国前沿科技与商业运作】微访谈精选
- PHP Linux监控文件变化,文件监控与通知机制 audit inotify