在练习林子雨老师的“淘宝双11数据分析与预测课程案例—步骤四:利用Spark预测回头客行为”章节时出现了代码报错。

具体在执行"val model = SVMWithSGD.train(train, numIterations)"代码后出现了如下报错:

java.lang.NumberFormatException: For input string: "Label"

查找相关资料说是因为格式转换的问题,即可能是应该输入“整型”却意外的输入了"label"

代码执行过程如下:

    import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.mllib.regression.LabeledPointimport org.apache.spark.mllib.linalg.{Vectors,Vector}import org.apache.spark.mllib.classification.{SVMModel, SVMWithSGD}import org.apache.spark.mllib.evaluation.BinaryClassificationMetricsimport java.util.Propertiesimport org.apache.spark.sql.types._import org.apache.spark.sql.Rowval train_data = sc.textFile("/dbtaobao/dataset/train_after.csv")val test_data = sc.textFile("/dbtaobao/dataset/test_after.csv")val train= train_data.map{line =>val parts = line.split(',')LabeledPoint(parts(4).toDouble,Vectors.dense(parts(1).toDouble,parts(2).toDouble,parts(3).toDouble))}val test = test_data.map{line =>val parts = line.split(',')LabeledPoint(parts(4).toDouble,Vectors.dense(parts(1).toDouble,parts(2).toDouble,parts(3).toDouble))}val numIterations = 1000val model = SVMWithSGD.train(train, numIterations)

数据从HDFS文件系统中train_after.csv取出然后存入train_data进入分割,在之后的过程中都没有混入除了整型以外的变量。分析原因可能是HDFS文件系统中train_after.csv本来就有非整型变量,由于HDFS文件系统中train_after.csv是由本地文件夹下的train_after.csv原封不动导入的,所以我打开train_after.csv,结果发现该文件的第一行代表该列的属性为string类型没有删干净,问题就出现在这里,随后我将列的属性删除完毕,重新生成了train_after.csv文件,此时文件中除了整型不含其它类型,我再将HDFS文件系统中的train_after.csv删除并导入我重新生成的train_after.csv文件,最后问题得到解决。

删除HDFS文件系统中的文件操作可参考:

淘宝双11数据分析与预测课程案例—步骤四:利用Spark预测回头客行为代码报错相关推荐

  1. 淘宝双11数据分析与预测

    淘宝双11数据分析与预测 一. 案例简介 Spark课程实验案例:淘宝双11数据分析与预测课程案例,由厦门大学数据库实验室团队开发,旨在满足全国高校大数据教学对实验案例的迫切需求.本案例涉及数据预处理 ...

  2. 大数据-11-案例演习-淘宝双11数据分析与预测

    主要摘自 http://dblab.xmu.edu.cn/post/8116/ 案例简介 Spark课程实验案例:淘宝双11数据分析与预测课程案例,由厦门大学数据库实验室团队开发,旨在满足全国高校大数 ...

  3. Spark大数据-基于Hive和Spark的淘宝双11数据分析与预测

    基于Hive和Spark的淘宝双11数据分析与预测 1.系统和环境要求(版本仅供参考): Linux: centos7 MySQL: 5.7.16 Hadoop: 2.7.1 Hive: 1.2.1 ...

  4. 淘宝双11数据分析与预测汇总

    国庆假期留在学校做了一下林子雨博士的大数据实验--淘宝双11数据分析与预测,虽然教程写得很详细,但自己还是踩了很多坑,现在记录下来,希望给别人一点帮助. 淘宝双11数据分析与预测实验链接:http:/ ...

  5. Cloud Computing(8)_实例实现_淘宝双11数据分析与预测

    在本文中,主要实现了一个云计算相关实例:淘宝双11数据分析与预测 数据来源为: http://dblab.xmu.edu.cn/ 由于本文内容为课上本人和同学所做的一次presentation,故将仅 ...

  6. 淘宝双11数据分析与预测--“坑点”汇总

    国庆假期留在学校做了一下林子雨博士的大数据实验--淘宝双11数据分析与预测,虽然教程写得很详细,但自己还是踩了很多坑,现在记录下来,希望给别人一点帮助. 淘宝双11数据分析与预测实验连接:点击这里 问 ...

  7. 【大数据基础】淘宝双11数据分析与预测

    https://dblab.xmu.edu.cn/post/8116/ 问题 问题1 mysql登录需要密码 https://cloud.tencent.com/developer/beta/arti ...

  8. 淘宝双11数据分析与预测课程案例:实验环境搭配

    1 软件安装清单 安装Hadoop 安装MySQL 安装Hive 安装Sqoop 安装Eclipse 安装ECharts 2 hadoop安装 hadoop在centos的伪分布式安装 3 MySql ...

  9. 淘宝双11大数据分析(数据准备篇)

    文章目录 前言 数据内容分析 `user_log.csv`文件内容含义 `train.csv` 和 `test.csv` 文件内容含义 数据上传到Linux系统并解压 数据集的预处理 文件信息截取 导 ...

最新文章

  1. 模拟黑洞图像_人类史上第一张黑洞照片即将问世,但其实早在40年前就有人画出了它的样子...
  2. Redis分布式锁(ServiceStack.Redis实现)
  3. UVA 10706 Number Sequence
  4. win7内存占用过高怎么处理
  5. 视频剪辑软件到底哪个功能强?容易上手并且不要钱的?
  6. 计算机在英语课中的应用 博客,信息技术在小学英语教学中的应用
  7. python urllib编码
  8. 游戏开发之类的构造函数和析构函数(C++基础)
  9. 2008 Asia Harbin Regional Contest Online Turn the corner (三分)
  10. 运筹学学习笔记2 python-or tools 使用
  11. QTableView效率优化3 - 自定义Model的内容补充
  12. 成都Uber优步司机奖励政策(2月29日)
  13. system.IO.FileNotFoundException: 未能加载文件或程序集
  14. STM8S自学笔记-001 STM8简介
  15. Freemarker提供了3种加载模板目录的方法
  16. Xms Xmx PermSize MaxPermSize的含义
  17. Swift-自动引用计数(Automatic Reference Counting)(十四)
  18. 专业技术计算机应用能力考试题库,全国专业技术人员计算机应用能力考试题库-Excel,Word,XP...
  19. 【Albert带你1小时看遍美国前沿科技与商业运作】微访谈精选
  20. PHP Linux监控文件变化,文件监控与通知机制 audit inotify

热门文章

  1. 解决你最痛苦的根本途径--自律。
  2. ORA-01830:日期格式图片在转换整个输入字符串之前结束
  3. lpc matlab 预测,LPC特征提取 matlab
  4. 《SystemUI》限制低电量打开手电筒
  5. [技术讨论]中文乱码问题的原因
  6. D2550安装Centos7
  7. bert模型蒸馏实战
  8. TFT-LCD显示驱动系统架构
  9. iOS 6发布的启示 —谈互联网产业链变化
  10. 阿里巴巴代码规范【强制】